Documente online.
Username / Parola inexistente
  Zona de administrare documente. Fisierele tale  
Am uitat parola x Creaza cont nou
  Home Exploreaza






Aplicatii SPSS

Informatica











ALTE DOCUMENTE

Test 1 modul 6 (Powerpoint)
Etapele estimarii geostatistice pt.structurile spatiale ale parametrilor ambientali
Depanarea scripturilor PHP
Modificarea structurii bazei de date respectiv a unei tabele
CARACTERIZAREA PRINCIPALELOR COMPONENTE HARDWARE SI SOFTWARE ALE UNUI SISTEM ELECTRONIC DE CALCUL
Windows XP - Protejati-va fisierele si directoarele
Invocarea la distanta a metodelor
PREZENTAREA PACHETULUI PROFESIONAL DE PROGRAME EDSAT2K
Activare Abbyy Fine Reader
ANALIZA DATELOR


Aplicatii SPSS

SPSS prezentare generala

"SPSS for Windows" este un pachet de programe destinat analizei statistice a datelor. Desi exista o varietate de programe de acest gen (SAS, Statistica for Windows, GraphPad, MS Excel, care are si el functii statistice), SPSS se distinge prin structurarea riguroasa si usurinta utilizarii, chiar si pentru īncepatori.

Cea mai recenta versiune disponibila la aceasta data este SPSS 12.0. Acest manual nu acopera īn mod special o anumita versiune, ci face referire īn general la versiunile sub Windows. Īn esenta, toate versiunile sub Windows ofera acelasi pachet de functii statistice iar diferentele, chiar daca sunt, nu sunt relevante la nivelul unui curs introductiv de statistica.

i    Simbolul care precede aceasta propozitie indica introducerea unei informatii importante, care se impune a fi retinuta.

i    Ne vom axa pe o prezentare sintetica, axata pe esential, considerānd cunoscute elementele de baza de operare īn mediul Windows. 

Functii de baza ale SPSS

Ų      editarea datelor (construirea bazelor de date, transformari ale variabilelor)

Ų      prelucrarea statistica a datelor (statistici descriptive, teste de semnificatie)

Ų      prezentarea rezultatelor, sub forma numerica sau grafica

Ų      realizarea unor proceduri proprii de prelucrare sau de a modifica procedurile standard SPSS. Aceasta optiune este rezervata utilizatorilor avansati si nu va face obiectul prezentarii īn acest manual.

Domeniile de lucru īn SPSS

Particularitatea principala a interfetei de lucru cu SPSS este aceea ca rezerva fiecareia dintre functiile de mai sus un domeniu special ("ecran", sau "fereastra"). Astfel, la lansarea programului, acesta deschide automat o fereastra rezervata editarii datelor (Data Editor) si una afisarii rezultatelor (Viewer). Putem numi aceste ferestre si domenii de lucru, deoarece la nivelul fiecaruia avem la dispozitie o varietate de functii si optiuni specifice. Ca sa īntelegem mai bine, trebuie sa ne imaginam "domeniile de lucru" ca fiind "ferestre" distincte, similare celor ale documentelor Word, cu deosebirea ca, īn acest caz, fiecare fereastra acopera functii specifice.

Trecerea de la o fereastra la alta se face īntr-unul din urmatoarele moduri:

Ų      Din meniul SPSS/Windows, prin alegerea ferestrei dorite;

Ų      Utilizānd butoanele din bara de comenzi directe a ferestrei SPSS;

Ų      Utilizānd butoanele de pe bara de sarcini a sistemului de operare (din partea de jos a ecranului).

Domeniul bazei de date (Data Editor)

La lansarea programului SPSS se deschide fereastra domeniului de editare a datelor (SPSS Data Editor). Ea se prezinta ca īn imaginea de mai jos, avānd caracteristicile obisnuite ale unei ferestre Windows, cu o structura de linii si coloane:

-         pe coloane sunt variabilele (de ex., cod_sub, rezultat)

-          pe linii sunt cazurile (īn acest caz, cinci subiecti)

i    O sesiune de lucru cu SPSS presupune, īn mod necesar, existenta unei baze de date.

i    SPSS opereaza cu o singura baza de date la un moment dat.

i    Pentru a deschide o alta baza de date, sau a crea una noua, cea aflata īn lucru va fi īnchisa. Programul solicita salvarea ei prealabila, daca acest lucru nu a fost deja efectuat.

i    Daca vrem sa prelucram date aflate īn baze de date  (fisiere) diferite, este necesara aducerea lor īn aceeasi baza de date (procedura DATA-Merge files, care va fi descrisa mai tārziu).

i    Meniurile ferestrei Data Editor nu se vor activa integral decāt atunci cānd va exista cel putin o variabila definita si valori pentru cel putin un caz.

i      Baza de date SPSS poate fi creata direct, cu ajutorul structurii (ferestrei) Data Editor, sau poate fi deschisa cu ajutorul comenzii File-Open, asa cum vom exemplifica mai tārziu.

Domeniul afisarii rezultatelor (Viwer)

SPSS depune rezultatele prelucrarilor īntr-o sectiune aparte a domeniului de lucru.  Aceasta cuprinde toate tipurile de rezultate, atāt de tip numeric cāt si de tip grafic. Fereastra respectiva (Viewer) este organizata īn doua zone distincte: una pentru navigare (īn partea stānga) si alta pentru afisarea rezultatelor (īn partea dreapta).  

i    Fisierul rezultat prin salvarea acestei ferestre are extensia .SPO

i    Un fisier cu rezultate SPSS nu poate fi deschis decāt din SPSS

i    Daca se doreste transmiterea rezultatelor īn afara SPSS se va proceda fie la "exportul" rezultatelor cu procedura corespunzatoare din meniul File/Export, fie la transferarea prin Select/Copy/Paste īntr-un editor grafic de tipul MS Word.

Domeniul de editare a procedurilor directe (Syntax)

            SPSS permite, īn afara operarii prin intermediul mediurilor, si lucrul direct cu proceduri definite de utilizator. Aceasta se face īn interiorul unei ferestre speciale, care permite, pe de o parte, editarea procedurilor, iar pe de alta parte, lansare lor īn executie.

Imaginea de mai jos reda comenzile SPSS pentru calcularea procedurii de calcul indicatorilor statistici descriptivi, redati mai sus, īn fereastra SPSS Viewer.

i    Utilizarea directa a procedurilor impune aprofundarea SPSS

i    Se poate seta afisarea procedurilor curente īn SPSS Viewer, concomitent cu rezultatele. (Edit/Options/Viewe/Display commands in the log) 

Meniurile SPSS

Meniurile de tip lista se aseamana cu meniurile altor programe sub Windows. Fara a intra īn amanunte, iata o prezentare succinta a meniurilor pentru fereastra DATA EDITOR:

Meniul

Functii principale

Observatii

File

Operatii de deschidere si salvare de fisiere

Edit

Operatii de Select/Copy/Cut/Paste, Find si, cel mai important, setarea caracteristicilor de lucru ale SPSS (Options-īn versiunile pt. Win 9X)

View

Īn cazul ferestrei Data Editor, seteaza modul de afisare: cu sau fara bara de butoane, cu sau fara liniile despartitoare ale celulelor.

Data

Functii de operare cu variabilele; definire, inserare, stergere, selectare, sortare, aditionare de fisiere, etc.

Importante pentru pregatirea datelor īn vederea prelucrarii

Transform

Functii de modificare a datelor prin calculare, recodificare.

Importante pentru pregatirea datelor īn vederea prelucrarii

Statistics

(Analyze)

Grupeaza procedurile de calcul statistic

Prin optiunile fiecarei proceduri se pot obtine si reprezentari grafice specifice

Graph

Grupeaza procedurile de reprezentare grafica

Utilities

Informatii despre variabile, structurare pe seturi de variabile

Window

Lista ferestrelor deschise cu posibilitatea de selectie

Help

Informatii de ajutor

Aici se afla un tutorial extrem de sugestiv de operare cu SPSS, iar de la versiunea 7.5 īn sus, o procedura de sprijin īn alegerea tipului de prelucrare statistica (Statistic Coach)  

 

Pasii analizei statistice cu SPSS

Īn principiu, prelucrarea datelor cu SPSS presupune urmatoarele etape: 

1

Introducerea datelor

Optiuni:

(a) Introducerea directa a datelor īn DATA EDITOR

(b) Deschiderea unui fisier de date SPSS (extensia .SAV)

(c) Importarea unui fisier de format diferit (se alege din caseta File open/File of type) 

2

Pregatirea datelor

Corectia erorilor, selectii, recodificari, transformarea variabilelor prin calcule, declararea valorilor lipsa, combinarea datelor din doua fisiere diferite (meniurile Data, Transform)

3

Selectarea procedurii satistice

Meniurile Statistics (sau Analyze) si Graphs

4

Selectarea variabilelor ce urmeaza a fi supuse prelucrarii

Īn conformitate cu configuratia casetei de dialog care este afisata la fiecare procedura

5

Rularea procedurii

Se actioneaza butonul OK din caseta de dialog a procedurii

i    Butonul devine activ numai atunci cānd sunt īntrunite conditiile presupuse de procedura respectiva

6

Analiza rezultatelor

Rezultatele prelucrarilor sunt afisate īntr-o fereastra specifica (SPSS Viewer), cu functiuni de editare grafica sau de tip text, īn functie de versiune.  

7

Editarea rezultatelor

Se editeaza rezultatele afisate īn Viewer, aducāndu-le la forma dorita sub aspect grafic

i    Dublu clic pe un element din Viewer conduce la intrarea elementului respectiv īn regim de editare)

8

Inserarea datelor īntr-un document

Rezultatele din SPSS Viewer se preiau cu Select/Copy si se depun cu Paste īn orice tip de editor de documente.

 

i    SPSS este un program puternic de analiza statistica a datelor. Utilizarea lui optima presupune, īn mod necesar, stapānirea de catre operator a cunostintelor teoretice de statistica.

i    Asa cum un program de editare grafica nu compenseaza lipsa de talent la desen, nici SPSS nu poate fi cu adevarat exploatat de catre cei care nu au cunostinte de statistica. Īn lipsa acestora, nici alegerea procedurilor si nici interpretarea rezultatelor nu va fi cu adevarat posibila.

Editarea datelor

            O baza de date īn SPSS este o structura formata din linii si coloane, la intersectia carora se formeaza celulele care contin, fiecare, o anumita unitate de informatie.

i    Existenta unei baze de date deschisa īn fereastra Data Editor este o conditie obligatorie pentru operarea cu SPSS

i    SPSS opereaza numai cu o singura baza de date deschisa la un moment dat

 

            Īn principiu, o baza de date SPSS se obtine pe una din urmatoarele cai:

a)      Crearea ei prin operatiunea de definire a variabilelor si introducerea datelor de la tastatura;

b)      Deschiderea unei baze de date SPSS, existente pe un suport de memorie;

c)      Importarea unei baze de date din alt format decāt SPSS

Īn continuare, vom trata pe rānd, fiecare din cele trei situatii:

a)      Crearea unei baze de date SPSS

Īn linii generale, pentru crearea unei baze de date proprii īn SPSS, se procedeaza astfel:

Ų      Se lanseaza SPSS

Ų      Se definesc variabilele bazei de date īn domeniul Data Editor

Ų      Se introduc datele pentru fiecare caz (subiect) īn parte

Ų      Se salveaza baza de date (extensia specifica este *.sav) 

Definirea variabilelor

Ų      se actioneaza Define variable din meniul Data

Ų      solutie mai directa este dublu clic pe capul de coloana

i    Īn versiunile de SPSS mai recente, editarea variabilelor se face īntr-o fereastra speciala. Cu toate acestea, elementele de baza ramān aceleasi ca al versiunile anterioare.

Ca urmare a operatiei de mai sus, apare o caseta de dialog ca īn imaginea de mai jos (forma ei nu difera substantial de la o versiune de SPSS la alta). Daca privim caseta, vom observa urmatoarele elemente:

·        Variable Name: zona de declarare a numelui de variabila. VAR00001 este numele implicit al primei variabile. Acesta se sterge, pentru a fi īnlocuit cu numele pe care dorim sa īl dam variabilei.

·        Variable Description, este o zona informativa īn care sunt afisate caracteristicile predefinite ale noii variabile. Aceste caracteristici se pot seta īn Edit-Options (sau Preferences, la unele versiuni).

·        Change Settings, este o zona care cuprinde butoane de comenzi pentru modificarea setarilor implicite:

·        Īn zona Measurement, se permite declararea tipului de masurare specific variabilei: Scale (Interval/Raport); Ordinal; Nominal

·        Butoanele OK (pentru finalizarea definirii variabilei, Cancel (pentru renuntarea la definirea variabilei, Help (informatii legate de definirea variabilelor)

i    Īn versiunile mai recente de SPSS editarea variabilei nu presupune acest tip de caseta, dar toatele elementele ei constitutive se regasesc.

Numele variabilei:

            Orice variabila SPSS trebuie sa aiba un nume. Cele mai importante aspecte legate de denumirea variabilelor sunt urmatoarele:

i    Trebuie sa fie format din minim 1, maxim 8 caractere,

i    Nu sunt suportate caractere "speciale" cum ar fi spatiu sau semne de punctuatie

i    Īn cazul utilizarii unor caractere improprii, apare un mesaj de eroare si se permite corectarea numelui.  

i    Alegerea numelui este la latitudinea operatorului. Respectarea anumitor conventii poate fi, īnsa, extrem de utila, mai ales daca avem de a face cu o baza de date cu multe variabile. Iata cāteva recomandari utile īn acest sens (ele nu sunt obligatorii):

·        Numele sa exprime, pe cāt posibil, continutul variabilei

·        Pentru variabile "īnrudite", se va utiliza o schema de denumire care sa exprime acest lucru. De exemplu, daca avem variabile care cuprind valori ale timpului de reactie masurat īn mai multe conditii, putem declara variabilele TR_1, TR_2, TR_3 s.a.m.d., 

·        caracterul underscore este recomandabil ca separator īn cadrul numelui de variabila). Daca īntr-o situatie de acest gen am avea 10 sau mai multe "momente", este de preferat sa se declare nume de genul TR_01, TR_02,...TR_10, etc., deoarece ulterior SPSS aranjeaza alfabetic variabilele īn listele de selectie si, astfel, se pastreaza ordinea dorita.  

i    Īntr-o baza de date nu pot exista doua variabile cu acelasi nume!

i    Exista o serie de cuvinte "rezervate", a caror utilizare ca nume de variabile nu este acceptata de program. Acestea sunt: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, THRU, TO, WITH.

Definirea "tipului" de variabila

 

            Tipul de variabila se refera la

·        Se actioneaza butonul Type de pe caseta Define Variable

·        Apare caseta Define Variable Type

·        , unde se marcheaza tipul variabilei si se declara caracteristicile acesteia (Width, Decimal Places, īn cazul variabilelor numerice)

·        Se actioneaza butonul Continue, pentru a se reveni la caseta Define Variable.

Asa cum se observa īn caseta Define Variable Type din imaginea de mai sus, SPSS poate opera cu o varietate de tipuri de variabile. Fiecarui tip īi corespund anumite proprietati (caracteristici) care trebuie definite de operator. Cele mai uzuale sunt tipurile:

[Numeric], care cuprind valori de tip numeric cu sau fara zecimale.

Proprietati:

·        numarul de cifre necesare pentru exprimarea "īntregilor"

·        numarul de "zecimale"

EXEMPLE:

Pentru o variabila īn care vom introduce vārsta īn ani īmpliniti, vom defini Type Numeric cu Width 2 (presupunānd ca nu avem subiecti cu vārsta peste 100 de ani) si Decimal Places 0.

Pentru o variabila īn care vom introduce rezultatul la un test exprimat īn  scoruri T cu o zecimala, definim Type Numeric cu Width 2 si Decimal Places 1.

[Caracter] (String), care cuprind valori exprimate sub forma de caractere alfanumerice (litere sau chiar cifre).

Proprietati

·        numarul de caractere rezervat, care este fixat implicit la 8, dar poate fi modificat dupa dorinta.

i    SPSS face distinctie īntre variabile de tip caracter "scurte"  (Short string) si  "lungi" (Long string). Primele au maxim 8 caractere si pot fi incluse īn unele proceduri statistice (semnificatia diferentei īntre medii, de exemplu), pe cānd celelalte nu pot fi utilizate decāt īn operatii de listare (cazul variabilei de genul "nume", de ex.).

i    Desi  permisa, utilizarea variabilelor "string" nu este de preferat. Toate variabilele care suporta codificari vor fi, de preferinta, introduse cu valori numerice. Utilizarea acestora īn proceduri statistice nu este limitata de nici o restrictie.

Unitati de timp calendaristic sau orar [Date], care pot include valori de timp īntr-un format specificat, asa cum se vede īn imagine.

Proprietati

·        formatul de īntroducere, care poate fi unul din cele evidentiate īn caseta Define Variable Type/Date

Exemplu: dd-mmm-yyyy presupune introducerea unor valori de genul "21-FEB-2001" (luna fiind scrisa obligatoriu dupa prescurtarea ei īn engleza).

Exista o mare varietate de formate pentru acest tip de variabila, acoperind, practic, orice cerinta posibila din partea utilizatorului.

i    Variabilele de tip Date beneficiaza de functii speciale de tratare si analiza īn SPSS.

Nu vom prezenta si celelalte tipuri de variabile, ele fiind mai putin folosite, dar facem precizarea ca semnificatia lor poate fi gasita īn Help-ul casetei Define Variable Type.

i    Tipul unei variabile poate fi schimbat ulterior prin simpla redefinire a acesteia. Se va acorda atentie mesajelor care pot sa apara si care avertizeaza asupra eventualelor pierderi de informatie prin schimbarea tipului.  

i    Optiunile din zona Measurement (Scale, Ordinal, Nominal), care se regasesc doar la versiuni SPSS de la 7.0 īn sus, nu au īntotdeauna o utilitate practica dar marcarea lor corecta este necesara pentru anumite proceduri statistice sau grafice.   

Etichetarea variabilelor si a valorilor

Etichetarea este o forma de descriere explicita a continutului variabilei (avānd īn vederea ca numele variabilei nu poate fi mai mare de 8 caractere). Etichetarea se poate practica atāt la nivelul variabilei dar si la valorile pe care le contine, īn cazul variabilelor de tip nominal sau ordinal.

Pentru etichetare se apasa butonul Labels de pe caseta Define Variable.  Se deschide o noua caseta (Define Labels), care contine spatii pentru eticheta variabilei (Variable Label) si pentru etichetele valorilor (Value labels). 

i    Eticheta variabilei nu se supune restrictiilor pentru nume, putānd contine oricāte caractere (max. 255), dar si spatii sau alte semne grafice tiparibile.

i    Etichetele pentru valori vor fi introduse una cāte una, astfel:

§         se plaseaza valorea etichetataīn zona Value

§         se introduce eticheta corespunzatoare īn zona Value label

§         se actioneaza butonul Add

§         Operatiunea se reia pentru toate valorile pe care dorim sa le etichetam.

Imaginea prezinta etichetarea valorilor unei variabile care se refera la calificativul la un examen. Se observa ca valoarea 1 are eticheta SLAB, valoarea 2, eticheta MEDIU iar valoarea 3, eticheta BUN (īnca nu a fost actionat butonul Add pentru a fi finalizata declaratia etichetei acestei valori).

i    Desi nimic nu ne obliga sa aplicam etichete variabilelor si valorilor, este foarte recomandabil ca ele sa fie atribuite.

i    Etichetele ajuta la citirea mai usoara a rezultatelor (deoarece apar alaturi de acestea). Īn plus, etichetele sunt asociate prelucrarilor grafice (histograme, bare, etc.) fapt  care reduce necesitatea de a le introduce ulterior prin editarea respectivelor grafice.

i    Pentru a sti cum sa declaram etichetele, este bine sa ni le imaginam ca fiind īnscrise pe axele de referinta ale unui grafic. Daca "se potrivesc", atunci au fost bine definite.

i    Oricum, ele vor putea fi modificate ulterior sau editate direct īn SPSS Viewer.

Declararea valorilor lipsa (missing values)

Valorile lipsa sunt de doua tipuri:

Ų      valori lipsa de sistem (system missing values) adica valori care lipsesc din baza de date (nu au fost introduse). Forma lor de evidentiere pe ecran este un punct plasat īn celula respectiva.

Ų      valori lipsa declarate de utilizator (user missing values) adica valori pe care utilizatorul le declara ca atare. Acestea pot exista īn baza de date dar utilizatorul, din diverse motive, nu doreste sa fie luate īn calcul. Atentie, odata declarate, aceste valori nu sunt sterse si nici nu sunt marcate īn mod evident pe ecran. 

Pentru declararea valorilor lipsa se actioneaza butonul Missing Values din caseta Define Variables, care genereaza aparitia casetei de dialog alaturate.

Se observa ca exista mai multe optiuni:

Ų      declararea a trei valori distincte ca fiind lipsa (Discrete missing values)

Ų      declarea unui domeniu de valori lipsa (Range of missing values)

Ų      declararea unui domeniu la care se poate adauga si o valoare distincta (Range plus one discrete missing value)

i    Desi nu pare foarte evidenta acum, utilitatea functiei de declarare a valorilor lipsa nu trebuie subestimata. Foarte adesea suntem nevoiti sa scoatem din prelucrari anumite valori (care nu pot fi totusi, pur si simplu, sterse). Sa ne gāndim numai la valorile extreme ale unei distributii, a caror mentinere īn anumite prelucrari poate determina modifcari semnificative a rezultatelor.

Īn concluzie, declararea variabilelor se compune din urmatoarele operatiuni:

Ų      Atribuirea numelui (maxim 8 caractere)

Ų      Definirea tipului (numeric, caracter, data)

Ų      Atribuirea etichetei variabilei

Ų      Atribuirea etichetei valorilor, īn cazul variabilelor masurate pe scale nominale sau ordinale

Ų      Declararea valorilor lipsa (care nu au fost recoltate īn procesul de masurare, din diferite motive)

stergerea si inserarea variabilelor

Ų      stergerea unei variabile se face prin selectarea acesteia (clic pe capul de variabila) si actionarea tastei Delete (sau se comanda din meniul Edit-Cut).

Ų      Inserarea unei variabile se face prin plasarea cursorului-celula pe coloana variabilei īn stānga careia dorim sa inseram noua variabila (sau prin selectarea variabilei respective), dupa care se comanda, din meniul Data-Insert variable. Dupa aceasta, se defineste variabila inserata (nume, tip, etichete).

stergerea si inserarea cazurilor

Ų      stergerea cazurilor se face īn mod similar variabilelor, prin selectarea acestora (clic pe capul de linie) si tasta Delete (sau Edit-Cut). Se pot selecta mai multe cazuri simultan (drag cu mouse-ul pe capul liniilor) dupa care se sterg ca mai sus.

Ų      Inserarea cazurilor se face dupa plasarea cursorului pe linia deasupra careia dorim sa inseram un nou caz, dupa care se actioneaza īn meniul Data-Insert case.

i    Pentru versiunile de SPSS de la 7 īn sus, clic dreapta pe capul de coloana sau de linie, produce un meniu contextual care permite un acces mai rapid la functiile de inserare/stergere.

i    SPSS nu permite Undo (īn meniul Edit) decāt limitat la ultima actiune. Din acest motiv, stergerea variabilelor sau a cazurilor trebuie sa se faca cu atentie, pentru ca datele pot fi definitiv pierdute. Se va retine, totusi, ca baza de date se actualizeaza pe hard disk numai dupa salvarea comandata de utilizator. Ca urmare...

i    Orice modificare efectuata nu produce efecte decāt asupra datelor din memoria de lucru, fisierul ramānānd nemodificat.

i    Īn cazul unei actiuni care produce efecte nedorite asupra bazei de date, exista solutia īnchiderii bazei de date, fara a se accepta salvarea ceruta de program, dupa care se deschide fisierul respectiv din nou.

Erori frecvente

-          Aparitia unor cazuri inutile, (umplute cu system missing values) la sfārsitul unei baze de date. 

Explicatie: Introducerea inutila a unei valori īntr-o variabila, valoare care apoi este stearsa. Cu toate acestea, SPSS a creat deja un caz nou, pe care l-a umplut cu system missing values.

Solutie: Selectarea cazului prin apasarea pe capul de linie si actionarea tastei Delete (sau Edit-Cut).

-          Aparitia unor variabile inutile (nedorite).

Explicatie: La introducerea din greseala a unei valori īntr-o variabila nedefinita īn prealabil, SPSS creeaza automat o variabila implicita, pe care o denumeste VAR00001.

Solutie: Se selecteaza variabila resectiva (clic de mouse pe capul de coloana) si se actioneaza tasta Delete (sau Edit-Cut).

Exemplu practic de realizare a unei baze de date

Sa ne imaginam ca am aplicat testul Eysenck Personality Inventory, care vizeaza urmatoarele caracteristici de personalitate: extraversiunea, nevrozismul si atitudinea defensiva (scala Lie). Pentru analiza datelor suntem interesati sa raprtam rezultatele la o serie de caracteristic demografice ale subiectilor, sa zicem: sexul si vārsta. Īn plus, pentru a avea controlul datelor dorim sa inregistram si identitatea subiectilor.

Pentru fiecare dintre informatiile pe care dorim sa le introducem īn baza de date vom crea cāte o variabila.

Variabila

Numele variabilei

Tipul variabilei

Eticheta variabilei

Etichetele valorilor

Identitatea subiectielor (esentiala pentru a asigura identitatea fiecarei inregistrari inparte si pentru realizarea corespondentelor cu alte baze de date in care avem informatii cu privire la aceiasi subiecti)

COD (optam pentru un cod numeric daca nu avem nevoie de numele subiectilor)

numeric, Width 2, Decimal Places 0

(presupunem ca nu avem mai mult de 99 subiecti)

Identitate

Nu se aplica etichete decāt la valorile variabilelor de tip categorial (nominale sau ordinale)

Sexul

SEX

Numeric, Width 1, Decimal Places 0

Sex

1=feminin

2=masculin

Vārsta (īn ani īmpliniti; sau īn luni daca dorim mai multa precizie)

VIRSTA

Numeric, Width 2, Decimal Places 0

(presupunem ca nu avem subeicti cu vārsta peste 99 de ani)

Vārsta

Extraversiune

EXTRAV

Numeric, Width 2, Decimal Places 0

(nu se poate obtine o valoare mai mare de 100 si nu exista zecimale)

Extraversiune

Nevrozism

NEVRO

Numeric, Width 2, Decimal Places 0

(nu se poate obtine o valoare mai mare de 100 si nu exista zecimale)

Nevrozism

Lie

LIE

Numeric, Width 1, Decimal Places 0

(nu se poate obtine o valoare mai mare de 9 si nu exista zecimale)

"Minciuna"

 

Se observa faptul ca pentru variabile ale caror nume exprima exact continutul (SEX, VĀRSTA) se poate utiliza fara nici un inconvenient numele si ca eticheta. Pentru a fi mai expliciti, sa spunem ca numele variablei este util īn primul rānd SPSS-ului pentru a manipula variabilele, īn timp ce etichetele sunt necesare mai ales utilizatorului pentru a īntelege cu usurinta la ce se refera o variabila al carui nume prea scurt 

Avem alaturat, imaginea DATA EDITOR pentru primii trei subiecti introdusi cu variabilele de mai sus:

i    Insistam pe declararea, cu precadere, a variabilelor de tip numeric: SPSS este un program de prelucrare statistica, fapt care implica date numerice. Desi el poate opera si cu date de tip caracter, acestea nu sunt acceptate pentru toate tipurile de proceduri statistice. Pentru a nu avea surprize, este recomandabil sa fie utilizate variabile de tip numeric īn toate cazurile. De exemplu, variabila sex, poate fi declarata de tip caracter (cu valorile M si F) dar, la fel de bine, de tip numeric (cu valorile conventionale 1 si, respectiv, 2). Īn acest din urma caz, pentru explicitarea valorilor se vor folosi etichetele de valoare (value label).  

i    Introducerea unei variabile care sa contina numele subiectilor poate fi necesara doar daca ne propunem realizarea unor liste ale subiectilor din baza de date. Altfel, identificarea numerica a fiecarei īnregistrari este suficienta (si absolut necesara), scutind un mare volum de munca pe care l-ar implica introducerea numelor. Vom avea grija īnsa, ca pe documentul original sa scriem codul numeric aferent fiecarui subiect, astfel īncāt, la nevoie, sa se poata identifica numele (pentru corectii, de ex.)

i    Variabile multiple pentru īntrebari cu raspuns multiplu: De obicei, o īntrebare prezinta un singur raspuns, dar pot fi situatii īn care o īntrebare prezinta raspunsuri multiple care pot fi alese īn acelasi timp. De exemplu: "Ce activitati preferati pentru timpul liber? 1. sport; 2. filme; 3. petreceri cu prieteni...", etc.  Īntr-un asemenea caz ne putem astepta sa avem mai multe raspunsuri la aceeasi īntrebare. Solutia pentru introducerea datelor este, de aceea,  crearea mai multor variabile, cāte una pentru fiecare varianta de raspuns. Astfel, vom avea variabila "SPORT" care poate primi doua valori, sa zicem "1" daca este aleasa si "0" daca nu este aleasa, si asa mai departe. Īn acest mod vom putea analiza frecventa alegerilor pentru fiecare varianta de raspuns īn parte.

i    Evitarea variabilelor redundante: Daca la un test nu sunt posibile, de exemplu, decāt raspunsuri corecte sau gresite, atunci nu este necesar sa declaram o variabila pentru "corecte" si una pentru "gresite" daca suma lor da totalul raspunsurilor.

Salvarea bazei de date din Data Editor

            O baza de date aflata īn lucru nu are un corespondent īntr-un fisier decāt dupa ce se executa o salvare a acesteia. Acest lucru nu trebuie niciodata uitat. Spre deosebire de WORD de exemplu, SPSS nu are o functie de salvare automata dupa un interval de timp prestabilit. Cu alte cuvinte, indiferent ce modificari facem īn Data Editor pe ecran, datele respective vor fi salvate numai la comanda explicita a operatorului.

            Pentru o baza de date nou creata, salvarea se face īn mod similar cu orice alt program cunoscut: File-Save as, care deschide urmatoarea caseta de dialog:

Ų      Se alege locatia de salvare (Save in)

Ų      Se da un nume fisierului (File name)

Ų      Se verifica tipul de fisier (formatul implicit pentru baze de date SPSS are extensia .sav)

Ų      Se actioneaza Save

i    SPSS poate salva si īn alte formate, dintre cele mai importante fiind: Dbase sau FoxPro, Lotus 1-2-3, Excel. Salvarea īn aceste formate poate fi utila pentru transferul datelor pentru prelucrari ulterioare īn alte programe.

Deschiderea unei baze de date SPSS

O baza de date creata cu SPSS se deschide cu comanda File-Open, care activeaza urmatoarea caseta de dialog:

Ų      Se alege locatia de citire (Look in)

Ų      Se indica fisierul dorit (selectarea cu mouse-ul) īn fereastra de cautare

Ų      Se indica tipul de fisier ce urmeaza  a fi deschis (implicit este  de tip SPSS cu extensia .sav)

Ų      Se actioneaza Open

i    Īn cazul deschiderii unui fisier de alt tip decāt SPSS, se va alege tipul respectiv din lista Files of type. Īn cazul īn care SPSS nu recunoaste tipul de fisier īn care se afla datele noastre, putem īncerca transformarea lor prealabila din formatul original īntr-un format recunoscut de SPSS. Desi exista riscul pierderii unor aspecte ce tin de formatul de reprezentare a datelor, operatiunea scuteste totusi un mare volum de munca.

Operatii de transformare a variabilelor

            Daca privim variabilele SPSS din punctul de vedere al modului īn care au fost create, putem distinge doua categorii:

b)      variabile "primare" care includ valori rezultate direct din cercetare si au fost introduse, de regula, de la tastatura.

c)      variabile "secundare"  rezultate prin transformarile aplicate variabilelor primare.

Exemple de situatii īn care se impune transformarea variabilelor:

·        Avem mai multe variabile "primare" care contin raspunsurile la īntrebarile unei scale de tip Lickert si suntem interesati sa calculam (īntr-o variabila "secundara") suma raspunsurilor.

·        Avem un numar de variabile "primare" īn care se afla rezultatul partial pentru fiecare minut din cele 10 cāte dureaza un test de calcul aritmetic si dorim sa cream o noua variabila ( "secundara") īn care sa avem media performantei pe cele 10 minute sau abaterea standard a performantei pe cele 10 minute, pentru fiecare subiect,

·        Avem o variabila care contine data nasterii si dorim sa cream pe baza ei o alta variabila, care sa contina vārsta.

·        Dorim sa transformam variabila care contine vārsta, īntr-o alta variabila care contine valori pentru categorii de vārsta.

Pentru toate aceste situatii, care sunt unele dintre cele mai des īntālnite, dar si pentru multe altele īnca,  SPSS ofera proceduri de transformare īn meniul Transform.

Īn continuare, vom prezenta cāteva dintre cele mai frecvent utilizate functii de transformare a variabilelor.

Īnsumarea valorilor variabilelor

Se utilizeaza atunci cānd dorim sa obtinem o variabila prin adunarea valorilor din doua sau mai multe variabile.

Imaginea de mai jos prezinta o tabela de date SPSS care cuprinde scorurile la trei examene partiale (scor_1, scor_2 si scor_3). Dorim sa realizam o variabila care sa cuprinda un scor general, prin īnsumarea celor trei variabile. Se poate observa ca unii dintre subiecti nu au valori la toate cele trei scoruri (valori lipsa de sistem).

Deoarece prin calculare, o noua variabila este plasata dupa toate variabilele existente, am preferat sa inseram o noua variabila imediat dupa cele trei pe care dorim sa le īnsumam. Īn acest fel avem si posibilitatea sa controlam usor corectitudinea operatiei de īnsumare

Se apeleaza procedura Transform-Compute, care deschide caseta de mai jos:

Se efectueaza urmatoarea succesiune de operatii:

  1. Se introduce numele noii variabile īn zona Target Variable ("total").
  2. Se scrie expresia de īnsumare īn zona Numeric Expression.

Functia este SUM (expresie numerica, expresie numerica, ...), asa cum se vede si īn zona listei Functions: Ea poate fi scrisa de la tastatura sau selectata din lista de functii si "ridicata" prin actionarea butonului ▲. Atentie, sintaxa fiecarei functii trebuie respectata īntocmai. Īn cazul nostru, variabilele numerice se vor scrie īntre paranteze, una cāte una, cu virgula īntre ele. Variabilele pot fi scrise de la tastatura sau mutate la rāndul lor din lista de variabile cu butonul ►.

Daca variabilele ce vor fi īnsumate se afla īn baza de date una dupa alta, ca īn cazul exemplului nostru, atunci avem posibilitatea sa scriem o expresie de īnsumare simplificata, astfel SUM (prima_variabila TO ultima_variabila). Īn acest caz, clauza TO va fi cuprinsa īntre spatii, pentru a nu fi confundata cu un nume de variabila. Aceasta optiune ne sugereaza cāt de important poate fi sa aranjam corespunzator variabilele īn structura unei tabele SPSS.

  1. Se apasa butonul OK
  2. Deoarece variabila total exista, SPSS ne īntreaba daca dorim sa modificam continutul acesteia. Daca nu ar exista o variabila cu acest nume, rezultatul operatiei de calcul ar fi depus īntr-o variabila creata automat si amplasata dupa ultima variabila din baza de date. 

 

Raspundem OK, deoarece stim ca am creat aceasta variabila tocmai pentru a depune īn ea suma.  

Rezultatul operatiei se vede īn imaginea de mai jos:

Calcularea mediei a doua sau mai multe variabile

Presupunānd ca īn loc de suma, ne-ar interesa media valorilor de la mai multe variabile, se procedeaza īn mod similar. Expresia de calcul a mediei este MEAN (expresie_numerica, expresie_numerica, ...), unde ... arata ca putem pune oricāte variabile (sau valori) numerice, cu virgula īntre ele. Ca si īn cazul sumei, se poate realiza o expresie cu clauza TO, cu conditia ca variabilele pentru care se realizeaza media sa se afle una dupa alta īn tabela SPSS.

Reamintim ca functia MEAN poate fi scrisa de la tastatura sau poate fi adusa din lista de functii, prin selectare si actionarea butonului ▲.

Este de la sine īnteles ca expresia de calcul poate fi realizata si īntr-o maniera simpla si directa, fara utilizarea functiilor (SUM sau MEAN), astfel:

Pentru suma: scor_1+scor_2+scor_3

Pentru medie: (scor_1+scor_2+scor_3)/3

i    Se va face o distinctie clara īntre suma sau media astfel obtinute, care se refera la suma sau media valorilor de la mai multe variabile, pentru acelasi subiect, si suma sau media pe care am calcula-o pe verticala, la nivelul fiecarei variabile īn parte, pe īntreaga distributie

i    Se pot realiza diverse alte functii de transformare, utilizāndu-se marea varietate de functii care se gasesc īn lista Functions si a caror semnificatie se poate afla din Help-ul casetei Compute.

Extragerea anului dintr-o variabila de tip cronologic (date)

SPSS ofera functii de transformare cu variabilele de tip cronologic. Dintre acestea, vom exemplifica cu realizarea unei variabile care sa contina anul nasterii, sa zicem, scos dintr-o variabila care contine data nasterii. Imaginea de mai jos este extrasa din baza de date Employee data.sav

Observam ca variabila bdate, care contine data nasterii. Pentru a avea vārsta, trebuie sa calculam diferenta dintre anul curent (sa zicem, 2000) si anul nasterii: Pentru aceasta trebuie sa facem diferenta dintre anul curent (2000) si anul nasterii, care se afla īn cāmpul bdate.

Pentru a avea variabila ce urmeaza a fi creata īn apropierea variabilei bdate, vom insera o variabila (denumind-o "virsta", de tip numeric, cu doi īntregi). Apoi utilizam procedura Compute din meniul Transform:

Īn cāmpul Target variable introducem numele noii variabile (virsta).

Īn zona Numeric Expression vom scrie expresia de transformare, care se bazeaza pe functia XDATE.YEAR(). 

Aceasta functie are ca rezultat extragerea valorii care reprezinta anul dintr-o variabila de tip data calendaristica. Īn cazul nostru, XDATE.YEAR(bdate)=anul nasterii

Ca urmare, putem scrie expresia astfel: 2000-XDATE.YEAR(bdate)

Mai jos putem vedea rezultatul procedurii Compute:

Se observa īn variabila virsta, valorile rezultate prin transformare (corespunzatoare anului 2000).Desigur, transformarea putea fi efectuata si īn doua etape. Mai īntāi prin extragerea anului nasterii īntr-o variabila separata si, apoi, prin efectuarea unei noi transformari realizarea diferentei dintre anul curent si anul nasterii. Am preferat o solutie īntr-o "singura etapa" pentru ca este mai operativa.

i    Posibilitatile de transformare a variabilelor oferite de SPSS permit crearea unor noi variabile pe baza celor existente, īn functie de necesitatile de prelucrare pe care le avem. Īn toate cazurile, īnsa, nu se va alege solutia modificarii valorilor dintr-o variabila "primara" peste valorile deja existente. Cu alte cuvinte, este recomandabil sa cream prin transformare variabile noi, si nu sa modificam valorile existente din variabilele "primare" a caror pierdere ar necesita reintroducerea lor, īn caz de necesitate.

Recodificarea variabilelor

Recodificarea unei variabile īnseamna convertirea valorilor acesteia, cu scopul obtinerii unei distributii bazata pe frecvente cumulate. Procesul este similar cu crearea unei tabele de frecvente grupate si ne reamintim ca poate fi derulat īn maniera descrisa mai jos:

Pasi pentru gruparii de frecvente:

  • Se face diferenta dintre valoarea cea mai mare si valoarea cea mai mica a unei distributii
  • Se īmparte valoarea obtinuta la marimea posibila (estimata) a intervalului 
  • Se selecteaza marimea intervalului care conduce la un numar de clase cuprins īntre 5 si 15
  • Se determina limita inferioara a primului interval (trebuie sa fie un multiplu al marimii intervalului)
  • Se determina limita superioara a primului interval
  • Se construiesc intervalele de clasa pentru fiecare interval, fiind atenti sa avem clase "suprapuse" sau "intervale neacoperite"

           

Īn principiu, desi este recomandabila obtinerea unei grupari de frecvente pe 5-15 clase, se poate opta  pentru un numar de clase care serveste cel mai bine interesul de cercetare. De exemplu, īn cazul unei distributii de vārsta exprimata īn ani, este preferabil sa se opteze pentru clase  "cincinale" sau "decade", acestea avānd si o anumita semnificatie "psihologica".

Īn urma transformarii de mai sus, am obtinut variabila virsta. Utilizarea ei ca atare īn analize statistice este improprie, de aceea ar fi foarte utila obtinerea unei variabile care sa asocieze anumite valori conventionale pentru categorii de virsta. Pentru aceasta putem efectua "recodificarea" variabilei virsta pentru a obtine o distributie grupata de frecvente, astfel:

            Se lanseaza procedura Recode - Into Defferent Variables din meniul Transform:

Atentie, se poate alege si optiune Into Same Variables, dar nu este recomandabila deoarece, īn cazul unei erori, nu mai avem la dispozitie variabila initiala pentru o noua recodificare.

Pasi de efectuat la aparitia casetei Recode into Defferent Variable:

·        se trece variabila virsta īn zona Numeric Variable ® Output Variable. Semnul īntrebarii arata ca se asteapta numele variabilei ce urmeaza sa fie creata prin recodificare.

·        Acest nume se scrie īn zona: Name, dupa care se apasa butonul Change.

Am ales, absolut conventional, ca nume al variabilei recodificate, v_clase. 

Urmeaza acum sa descriem limitele claselor de recodificare. Pentru aceasta, se actioneaza butonul Old and New Values

Desi relativ complicata, caseta de declarare a noilor valori īn functie de cele vechi este usor de īnteles.

Īn zona Old value, se alege una dintre variantele de definire a valorilor de la care se pleaca. Sa zicem ca am ales solutia sa recodificam anii pe intervale de zece ani, primul interval fiind 29-39, al doilea 40-49, s.a.m.d.

Pentru aceasta activam optiunea Range si scriem valorile limite al intervalului dorit.

Dupa aceasta, īn zona New value oValue, scriem care este valoarea pe care o asignam acestei clase.

Īn fine, actionam butonul Add pentru a definitiva operatiunea si trecem la definirea urmatoarei clase, pāna terminam.

Īn zona Old®New se poate observa lista recodificarilor definite.

Se actioneaza butonul Continue si, la revenirea īn caseta anterioara, butonul OK. Rezultatul operatiuni se vede mai jos:

Se observa corespondenta dintre valoarea din variabila virsta, cu valoarea din variabila v_clase. Pentru valoarea 71, avem missing value īn variabila v_clase, deoarece nu am definit un interval care sa cuprinda aceasta vārsta. (De regula, aceasta situatie este determinata de o eroare de definire a intervalelor de clasa. Pentru a o repara, ar trebui sa intram din nou īn procedura Recode si sa redefinim clasele).

relua.

            Transformarea operata pe variabila vīrsta nu este de loc inutila. Daca am fi dorit sa vedem īn ce masura este o relatie īntre nivelul salariului si vārsta, ar fi fost oarecum impropriu (fara a fi propriu-zis o greseala ) sa utilizam o statistica parametrica (corelatia). Īn analizele statistice pe vārste este recomandabil, totusi, sa operam cu grupe de vārsta.

Ordonarea dupa rang a valorilor unei variabile

            Asa cum am spus īn cuprinsul primei parti a acestui volum, este posibil sa ne confruntam cu o variabila cantitativa ale carei valori nu respecta conditiile unei statistici parametrice (vezi figura din stānga, unde valoarea 250 este excesiva). Īntr-o situatie de acest gen, una din solutiile posibile este transformarea de rang, cu procedura Transform-Rank cases (caseta din dreapta):


            Variabila vizata (scor) este trecuta īn lista Variable(s), se seteaza modul de ordonare (am ales atribuirea rangului 1 valorii celei mai mari) iar apoi am actionat butonul OK. Procedura permite fixarea unor parametri de transformare cu ajutorul butoanelor Rank si Ties, asupra carora nu insistam aici.

Organizarea datelor pentru analiza

            SPSS permite efectuarea unor operatii de organizare a datelor care prezinta un interes aparte pentru faza de analiza. Acestea sunt: sortarea, īmpartirea fisierului īn subgrupuri, selectarea unor seturi de date, combinarea fisierelor (adaugarea de cazuri, adaugarea de variabile). Le vom trece īn revista, pe rānd.

Sortarea bazei de date

            Sortarea este operatia de aranjare a bazei de date īn functie de ordinea crescatoare/descrescatoare a valorilor unei variabile. Ea este utila mai ales pentru inspectarea directa a valorilor de la extrema unei distributii sau pentru listarea ordonata a bazei de date. Procedura utilizata este: Data-Sort.

           Baza de date nesortata

            Caseta Sort Cases

            Imaginea din caseta descrie sortarea bazei de date, crescator (Ascending), dupa valorile variabilei scor (rezultatul se vede īn imaginea de mai jos).

Se poate efectua sortarea simultana dupa mai multe variabile, fiecare īn sensul dorit, de exemplu: grup(Ascending) si scor(Descending).

Īmpartirea bazei de date īn subgrupuri

            Baza de date SPSS poate fi īmpartita īn subgrupuri, pentru analiza distincta. Atunci cānd datele sunt astfel organizate, orice procedura de analiza se va efectua distinct pentru fiecare subgrup.

Procedura este: Data-Split File iar caseta de dialog este cea de mai jos:

            Optiunile sunt:

  • Analyze all cases, do not create groups (pentru analiza integrala a datelor)
  • Compare groups (rezultatele vor fi afisate astfel īncāt sa poata fi usor comparate)
  • Organize output by groups (rezultatele vor fi afisate īn Viewer, separat pe grupuri)

i    Operatia nu produce nici o modificare vizibila asupra bazei de date. Singurul efect se vede īn zona de afisare a rezultatelor, unde toate procedurile de analiza vor fi afisate pentru fiecare subgrup īn parte.

i    Pentru a se reveni la analiza intergrala a datelor, se va reveni īn procedura Split File si se va seta optiunea Analyze all cases....

Selectarea unor seturi de date

            Selectarea unui set de date permite aplicarea procedurilor de analiza numai pe cazurile selectate. Daca nu se opteaza pentru stergerea datelor neselectate, ele vor fi pastrate si vor putea fi reintroduse īn analiza. Procedura este Data-Select Cases....

            Pentru exemplificare, sa ne propunem selectarea din baza de date din imaginea de mai sus a cazurilor apartinānd grupului 1.

            Imaginea prezinta:

  • Īn partea stānga, baza de date
  • La mijloc, caseta principala Select Cases care are:

o       Zona listei de variabile

o       Zona fixare a conditiilor de selectare Select, unde:

§         All  cases este setarea implicita si īnseamna ca toate datele intra īn analiza

§         If condition is satisfied, se bifeaza atunci cānd se doreste declararea unei conditii de selectare bazata pe o functie

§         IF este butonul de deschidere a casetei pentru declararea conditiei, care deschide caseta Select Cases: if. Īn cazul nostru, am trecut variabila grup īn zona de editare a functie si am declarat-o egala cu 1. Astfel, toate cazurile din baza de date care au grup=1 vor fi analizate, celelalte fiind ignorate. Exemplul se bazeaza pe o selectie simpla, dar sunt permise selectii bazate pe functii mai complicate sau care pot sa includa combinatii de variabile.

o       Random sample of cases, permite selectarea unui set aleator de cayuri din baya de date

o       Based on time por case range, permite selectarea cazurilor īn functie de pozitia din baza de date.

o       Use filter variable, selecteaza pe baza valorile unei variabile filtru

o       Unselected cases Are, permite optiunea de filtrare a cazurilor neselctate (Filtered) sau de eliminare a lor (Deleted). Īn acest din urmaa caz, cazurile neselectate vor fi sterse, dar baza de date, dar actualizarea fisierului de pe hard disk se va face numai dupa prima comanda Save.

            Dupa finalizarea operatiei de selectare de mai sus, baza de date se prezinta īn felul urmator:

            Se observa:

  • Marcarea cu o diagonala a capului de linie corespunzator cazurilor neselectate
  • Aparitia unei variabile de sistem filter_$ care contine valoarea 0 pentru cazurile neselectate si valoarea 1 pentru cazurile selectate. Aceasta variabila poate fi ulterior utilizata īn procedurile de analiza, ca variabila independenta (caz īn care se va anula situatia de selectare, prin bifarea optiunii All cases). 

i    Selectarea este utilizata īn mod obisnuit, pentru alegerea temporara a unui set de date. Adesea se uita anularea unei selectari existente, atunci cānd se doreste revenirea al analiza tuturor cazurilor. Efectul este obtinerea unor rezultate pe date partiale.

Alte operatii de organizare a datelor pentru analiza

           

            Optiunile SPSS pentru organizarea datelor sunt mult mai numeroase decāt cele descrise mai sus. Fara a le trata īn amanunt, ne vom multumi sa le prezentam sumar:

  • Agregarea cazurilor, atunci cānd exista īnregistrari multiple pentru fiecare subiect si se doreste pastrarea uneia singure (Data-Agregate)
  • Adaugarea unor cazuri din alta baza de date SPSS (Data-Merge Files-Add cases...)
  • Adaugarea unor variabile din alta baza de date SPSS (Data-Merge Files-Add variables...)
  • Inversarea liniilor cu coloanele (Data-Transpose...)

Calcularea indicatorilor statistici descriptivi

Reamintim faptul ca statistica descriptiva are ca obiectiv analiza caracteristicilor variabilelor.  Principalele elemente de statistica descriptiva sunt:

  • reprezentarea īntregii distributii, pe cale:
    • numerica (analiza de frecvente)
    • grafica (bara, histograma, box-plot, stem and leaf)
  • valorile tendintei centrale
    • mod
    • medie
    • mediana
  • valorile īmprastierii
    • amplitudine
    • abatere standard
  • valorile formei distributiei

o       indice de simetrie (skewness)

o       indice de boltire (kurtosis)

SPSS ofera posibilitati variate de reprezentare si de calcul a acestor indicatori. Īn acest sens exista, pe de o parte, proceduri specializate si, pe de alta parte, optiuni care pot fi accesate din interiorul altor proceduri. Fie si acest aspect numai, ar trebui sa sugereze ca analiza statistica descriptiva, īn ciuda caracterului ei "elementar", este o componenta indispensabila a analizei statistice.

            Īn ceea ce priveste procedurile specializate, ele se lanseaza din meniul Statistics-Summarize (sau Analyze-Descriptive statistics, pentru versiunile mai noi de SPSS) si sunt grupate īn trei proceduri: Frequencies, Descriptives si Explore. 

i    Aceste proceduri ofera prelucrari distincte dar contin si rezultate comune. Alegerea uneia sau alteia dintre ele depinde de necesitatile de analiza. 

Procedura Frequencies

            Este singura care permite analiza de frecvente.

La aparitia casetei Frequencies, variabila pe care dorim sa o supunem analizei va fi trecuta īn lista de calcul Variable(s), prin selectarea ei si actionarea butonului de transfer (►).  Pot fi incluse mai multe variabile īn aceasta lista, rezultatele fiind afisate distinct, pentru fiecare īn parte.

            Se va observa pe caseta de mai sus bifarea optiunii pentru tabela de frecvente, care este functia specifica a acestei proceduri. Īn plus, prin actionarea butoanelor din partea de jos a casetei se pot seta alte analize, astfel:

Butonul Statistics

Butonul Chart

Butonul Format

Se aleg indicatorii statistici descriptivi doriti

Se alege tipul de grafic dorit

Se aleg diverse moduri de prezentare a rezultatelor

Rezultatele sunt afisate īn SPSS Viewer  īn forma de mai jos (dar unele sub altele, nu alaturat, asa cum sunt aranjati aici):

Indicatorii statistici descriptivi

Tabelul de frecvente

Histograma

 


Procedura Descriptives

            Aceasta procedura vizeaza doar indicatorii statistici descriptivi. La lansare, Satistics-Descriptives, se deschide caseta principala Descriptives. 

Se trec variabilele vizate īn lista Variable(s)

(daca dorim calcularea scorurilor z, se bifeaza optiunea din stānga-jos a casetei )

Se aleg indicatorii doriti din Options

 

Rezultatul analizei, din Viewer

Imaginea bazei de date, īn care se vede aparitia variabilei zscor (denumita automat de progarm) cu valorile transformate īn scoruri z.

Procedura Explore

            Procedura Explore este cea mai complexa dintre toate procedurile statisticii descriptive si se poate utiliza atunci cānd se doreste o analiza exhaustiva a variabilei (sau variabilelor).

Caseta principala Explore

  • Īn Dependent List se includ variabilele  de analizat
  • Īn Factor List se includ eventualele variabile categoriale, īn functie de care se doreste analiza variabilei analizate
  • Label cases by, permite etichetarea cazurilor la afisare (rar utilizat)
  • Display, permite alegerea optiunilor de afisare a rezultatelor numerice (Statistics), grafice (Plots) sau ambele categorii (Both)
  • Butonul Statistics deschide caseta pentru alegerea unor indicatori (dar procedura analizeaza, implicit toti indicatorii statistici descriptivi, de baza)
  • Butonul Plots, permite alegerea reprezentarilor grafice dorite:

  • Butonul Options, permite setarea modului de tratare a valorilor lipsa

Rezultatele analizei Explore, definita mai sus, se prezinta astfel:

Indicatorii statistici

Reprezentarea stem-and-leaf

Reprezentarea Box plot


Teste parametrice

Testul z (t) pentru media unui singur esantion

Utilizare

            Testul z pentru un singur esantion este utilizat pentru se testa diferenta dintre media unui esantion fata de media cunoscuta a populatiei din care face parte. Atunci cānd volumul esantionului este mic (N<30) este utilizata o varianta denumita testul t pentru un singur esantion.

            Utilizarea acestui test statistic este conditionata de cunoasterea mediei populatiei. Daca populatia are o extindere mare, acest lucru este dificil de realizat (īn afara cazurilor īn care exista studii speciale, cum sunt cele antropometrice, de exemplu). Dintre variabilele psihologice ale carei medii pentru populatie este cunoscuta, este inteligenta, exprimata īn unitati QI (μ=100). Testul poate fi utilizat, īnsa, atunci cānd populatia are o extindere mai redusa. De exemplu, daca a fost evaluat nivelul de satisfactie īntr-o organizatie, se poate testa diferenta dintre nivelul de satisfactie la nivelul unei sectii fata de media satisfactiei la nivelul īntregii organizatii (populatie).

           

Conditii de aplicare

Conditia teoretica de baza este normalitatea distributiei de esantionare. Īn temeiul teoremei limitei centrale, cu cāt volumul esantionului este mai mare, cu atāt normalitatea distributiei de esantionare este mai sigura.

           

            Aranjarea datelor

            Datele supuse testarii trebuie sa fie incluse īntr-o variabila SPSS de tip numeric.

            Procedura: Statistics-Compare Means-One Sample T Test

Variabila testata

Caseta principala

Variabila testata este trecuta īn lista Test Variable(s)

Īn zona Test Value se īnscrie media populatiei (100 īn cazul nostru)

Caseta Options permite alegerea pragului de semnificatie.

Confidence Interval 95% este echivalent cu p=0.05 si este implicit pentru toate testele statistice


           

            Rezultate

            Primul tabel include statistica descriptiva a variabilei testate (N, media, ab.std, eroarea standard a mediei)

            Al doilea tabel include rezultatele testului statistic: t=6.254, df=4, p=0.03, diferenta fata de media populatiei (22.6) si limitele inferioara (12.57) si superioara (32.63) ale intervalului de īncredere pentru media populatiei estimata de esantionul de cercetare.

            Concluzia testului: media esantionului de cercetare difera semnificativ de QI=100, ca medie a populatiei. 

Testul t pentru esantioane independente

Utilizare

Testul t pentru esantioane independente este utilizat pentru testarea diferentei dintre mediile aceleiasi variabile dependente masurate pe doua grupuri, formate din subiecti diferiti. Exemplu: testarea diferentei dintre media scorului la o scala de sociabilitate aplicata unor copii crescuti  īn familie si unor copii crescuti īn institutii de ocrotire. Īn acest caz, scorul la sociabilitate este variabila dependenta, masurata pe scala cantitativa (interval/raport) iar mediul de educare este variabila independenta, exprimata pe scala nominala dihotomica (familie/institutie de ocrotire)

Conditii

Teoretic, testul t poate fi utilizat pentru esantioane oricāt de mici, daca distributia de esantionare pentru cele doua grupuri este normala si daca varianta valorilor īn cele doua grupuri nu difera semnificativ. Īn ce priveste conditia egalitatii variantei, ea este testata cu un teste specifice. Unul dintre acestea este testul Levene, iar īn functie daca rezultatul sau programul calculeaza testul t pe doua cai, asa cum vom vedea mai jos.

            Daca variabila dependenta nu īntruneste conditiile pentru testul t, se poate apela la teste neparametrice, astfel:

·        Testul z pentru proportii (compararea procentului de "sociabili" din cele doua grupuri)

·        Testul Mann-Whitney U, daca se transforma valorile variabilei "sociabilitate" īn valori de rang 

Aranjarea datelor

            Tabela de date SPSS va contine variabila dependenta, de tip numeric, si variabila independenta, de tip nominal, cu doua valori, īn functie de apartenenta la un grup sau altul. Variabila independenta poate fi de tip "string" (codificānd cele doua grupuri cu valori de genul "A" si "B") sau de tip numeric (cu codificarea conventionala 1 si 2). Din principiu, īnsa, recomandam cea de a doua varianta. 

Procedura: Statistics-Compare means-Indpendent Samples T Test

            Īn caseta principala se trece variabila dependenta (soc) īn lista Test Variable(s) (pot fi testate mai multe variabile simultan) iar variabila independenta (grup), īn zona Grouping Variable. Īn acest moment, programul ataseaza variabilei dependente doua semne de īntrebare, sugerānd introducerea valorilor care definesc cele doua grupuri. Concomitent, se activeaza butonul Define Groups a carui actionare deschide caseta secundara Define Groups, unde se introduc valorile care definesc cele doua grupuri comparate (ordinea lor nu este relevanta). Dupa actionarea butonului Continue, caseta principala devine completa si se poate actiona OK pentru efectuarea testului.


            Rezultate

Īn primul tabel (Group Statistics) avem statistica descriptiva a celor doua grupuri. Se va observa ca programul descrie grupurile prin intermediul etichetelor valorilor. Daca acestea nu ar fi fost definite, īn loc de "institutie" si "familie" ar fi aparut 1, respectiv, 2.

Al doilea tabel are doua linii:

Pe prima avem rezultatele testului t pentru cazul asumarii omogenitatii variantei (Levene's Test for Equality of Variances). Īn cazul nostru, ele sunt egale (Sig.=0.666, ceea ce se traduce ca o valoare p=0.666, deci  mai mare de 0.05 pentru distributia F a testului Levene, pe care nu o discutam aici). Ca urmare, vom citi pe aceasta linie rezultatul testului: t=-2.42, df=12, Sig.=0.045.

Pe a doua linie avem rezultatele testului t pentru cazul īn care nu s-ar īntruni conditia de omogenitate a variantei pentru cele doua grupuri. Daca semnificatia testului Levene ar fi fost mai mica sau egala cu 0.05, rezultatului testului t s-ar fi citit pe aceasta linie.

            Pentru exemplul nostru, rezultatul testului t permite acceptarea ipotezei cercetarii, conform careia copiii crescuti īn mediu familial sunt mai sociabili (m=22.00) decāt cei crescuti īn mediu institutional (m=17.71).

 

 Testul t pentru esantioane dependente (perechi)

Utilizare

Testul t al diferentei mediilor a doua esantioane dependente permite evaluarea semnificatiei variatiei unei anumite caracteristici la aceeasi indivizi īn doua situatii diferite (de exemplu, "īnainte" si "dupa" actiunea unei anumite conditii, ori īn doua contexte diferite, indiferent de momentul manifestarii acestora). Avantajul major al acestui model statistic este acela ca surprinde variatia numita "intrasubiect", prin faptul ca baza de calcul este diferenta dintre cele doua valori ale fiecarui subiect īn parte.

Exemplu: Un grup de subiecti efectueaza operatii aritmetice īn conditii de liniste si, ulterior, īn conditii de zgomot puternic. Ipoteza cercetarii este ca zgomotul determina o reducere a capacitatii de calcul numeric.

Conditii

Conditia teoretica a testului este normalitatea distributiei de esantionare a distributiei de diferente. Ca si īn celelalte cazuri, teorema limitei centrale determina normalizarea distributiei de esantionare pe masura ce volumul esantionului creste.

Īn situatia īn care conditia nu se īndeplineste, se pot utiliza teste neparametrice echivalente: testul semnului (pentru date nominale) sau testul Wilcoxon (pentru date ordinale).

Aranjarea datelor

Vor fi create doua variabile distincte, ambele cantitative, masurate pe scala de tip I/R, care primesc cāte o valoare pentru fiecare subiect.

Procedura: Statistics-Compare Means-Paired Sample T Test...

Se selecteaza cu un clic de mouse, pe rānd, fiecare dintre cele doua variabile. Astfel se constituie perechea de variabile īn zona Curent selection.

O data constituita, perechea de variabile se trece īn lista Paired Variables cu butonul de transfer (►). Pot fi create mai multe perechi de variabile si prelucrate simultan.


Caseta Options permite alegerea pragului de semnificatie (implicit 0.05).

Rezultate

Primul tabel contine statistica descriptiva pentru cele doua variabile.

Al doilea tabel contine testul de corelatie Pearson (r) dintre cele doua variabile. Evaluarea intensitatea asocierii liniare dintre cele doua variabile este legitima īn acest context, dar ofera o informatie diferita de testul diferentei dintre medii. Alegerea testului de corelatie sau al testului t se decide īn functie de obiectivul cercetarii.

Īn fine, ultimul tabel prezinta rezultatul testului: t=5.076, df=9, p=0.001. Acesta permite respingerea ipotezei de nul si acceptarea ipotezei cercetarii, zgomotul afecteaza capacitatea de calcul aritmetic.

Coeficientul de corelatie liniara Pearson (r)

            Utilizare

            Corelatia Pearson (r) masoara gradul de asociere dintre variabile. Aceasta se refera la gradul si sensul de variatie concomitenta a valorilor unei variabile īn raport cu cealalta, dupa un model de tip liniar.

            Domeniul de variatie a coeficientului de corelatie Pearson (r) este īntre r=-1 (corelatie perfecta negativa) si r=+1 (corelatie perfecta pozitiva). Absenta oricarei legaturi (corelatii) dintre variabile se traduce prin r=0.

            Exemplu: Testul de corelatie implica doua variabile dar, adesea, īntr-o cercetare psihologica numarul variabilelor supuse corelatiei este mai mare de doua. Acest fapt conduce la ceea ce se numeste o matrice de corelatii care este un tabel ale caror celule cuprind corelatiile dintre perechile de variabile. Pentru exemplificare, sa luam īn considerare situatia īn care se urmareste evidentierea legaturii (asocierii) dintre anxietate si agresivitate, pe de o parte, si preferinta pentru risc pe de alta parte.

           

            Conditii

            Conditia principala pentru calcularea coeficientului de corelatie liniara Pearson este ca variabilele implicate sa fie masurate pe scala de interval/raport (alaturi de existenta unei forme a distributiei care nu se abate sever de la curba normala).

            Testele neparametrice alternative, pentru cazul īn care conditiile pentru utilizarea testului Pearson nu se īndeplinesc, sunt: testul chi-patrat (pentru date nominale) sau coeficientii de corelatie Spearman sau Kendall (pentru date ordinale).

Aranjarea datelor

            Se creeaza variabile distincte pentru fiecare caracteristica supusa testarii.

            Procedura: Statistics-Corelate-Bivariate

            Variabilele supuse corelatiei vor fi trecute īn lista Variables:

            Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifa un altul (Kendall sau Spearman), daca datele sunt neparametrice.

            Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se poate alege unilateral (daca exista o justificare solida).

            Flag significant correlations, determina marcarea cu un asterisc a coeficientilor semnificativi la p=0.05 si cu doua asteriscuri a celor semnificativi la p=0.01. Acest lucru este util atunci cānd matricea de corelatie este mare, pentru a scoate īn evidenta valorile semnificative ale lui r.

           

            Rezultate

            Tabelul rezultatelor cuprinde matricea de corelatii a variabilelor analizate. El este redundant, deoarece prezinta aceleasi corelatii de doua ori, odata deasupra diagonalei, odata sub diagonala. Corelatiile variabilelor cu ele īnsele sunt perfect pozitive (r=1) si nu prezinta, desigur, nici un interes.

            Fiecare celula include urmatoarele informatii:

·        valoarea lui r

·        nivelul p

·        numarul de subiecti (N)

Īn cazul nostru, consemnam corelatii negative dar nesemnificative īntre anxietate si agresivitate (r=-0.38, p=0.26), pe de o parte, si īntre anxietate si preferinta pentru risc, pe de alta parte (r=-0.40, p=0.24). Īn acelasi timp, se constata o corelatie semnificativa (r=0.96, p<0.001) īntre agresivitate si preferinta pentru risc. Precizam faptul ca raportarea coeficientilor de corelatie se face cu doua zecimale, chiar daca programele īi calculeaza cu trei zecimale.

Dezavantajul acestui tip de tabel consta īn faptul ca avem de fapt o dubla prezentare a corelatiilor, deasupra diagonalei si sub diagonala. Pentru corelatii implicānd multe variabile tabelul se va cit cu relativa dificultate.

Sa presupunem ca suntem interesati de corelatiile dintre anxietate si agresivitate cu variabila preferinta pentru risc, nu si de corelatia dintre anxietate si agresivitate. Īn acest caz, īn caseta principala, Bivariate Correlations, prezentata mai sus, variabilele vor fi introduse astfel īncāt variabila "preferinta pentru risc" sa fie ultima din lista. Apoi se apasa butonul Paste, al carui efect este deschiderea domeniului Syntax, ca o fereastra distincta, īn care se afla sintaxa procedurii de corelatie. Acolo, pe linia /VARIABLES=anx agresiv risc, se insereaza cuvāntul WITH, avānd grija sa existe spatiu atāt īn stinga cāt si īn dreapta sa.

inserati WITH


 

Mai departe, se selecteaza īntreaga procedura (cu ajutorul mouse-ului) si se apasa pe butonul Run (►) de pe bara de comenzi a ferestrei

Rezultatul din Viewer va arata ca mai jos:

            Este evident ca aceasta modalitate se poate aplica pentru oricāt variabile, daca avem grija sa le asezam separat īn lista si sa includem clauza WITH īntre cele doua categorii de variabile. Nu pot fi incluse mai multe clauze WITH īn aceeasi procedura.

Ulterior, putem reveni īn fereastra Syntax pentru a o īnchide (cu File-Close), salvānd sau nu procedura astfel modificata.

Expresia grafica a corelatiei (Scatterplot)

Caracterul si intensitatea corelatiei dintre doua variabile se evidentiaza extrem de sugestiv cu ajutorul unei proceduri grafice specifice, numita scatterplot.

Aceasta se lanseaza din meniul principal Graphs-Scatter... care deschide urmatoarea caseta de dialog:

            Īn cazul nostru, sa presupunem ca dorim reprezentarea grafica a corelatiei dintre agresivitate si preferinta pentru risc, singura semnificativa. Īn acest scop, selectam pe caseta Scatterplot optiunea Simple si apasam Define.

           

            Trecem variabila Agresivitate pe axa Y si variabila Preferinta pentru risc pe axa Z (se poate la fel de bine si invers). Se apasa OK si se obtine graficul din imaginea urmatoare, care sugereaza foarte clar existenta unei asocieri de tip liniar īntre cele doua variabile.

            Reprezentarea grafica este sursa de informatii cu privire la natura relatiei dintre variabile, motiv pentru care este recomandabila utilizarea frecventa a acesteia. Mai mult, ea este necesara īn special atunci cānd valoarea corelatiei este redusa, sau nesemnificativa, deoarece graficul poate scoate īn evidenta o legatura de alt tip decāt liniara.

i    O corelatie r=0.92, ca cea obtinuta mai sus, īntre agresivitate si preferinta pentu risc, este improbabil sa se īntālneasca īntr-un studiu real. De fapt, daca s-ar īntāmpla sa apara, ar trebui sa concluzionam mai degraba ca cele doua variabile se confunda, decāt ca sunt distincte.

Regresia liniara simpla

            Utilizare

            Analiza de regresie este o aplicatie a corelatiei, utilizata īn scopuri de predictie. Daca evaluam agresivitatea ca trasatura de personalitate si preferinta pentru risc ca expresie a numarului de incidente īn trafic, la conducatorii auto, se poate estima pe baza agresivitatii riscul de accident īnca īnainte de dobāndirea carnetului de sofer. Acest tip de regresie, īn care exista o singura variabila predictor (agresivitatea) si o variabila criteriu (tendinta spre risc) se numeste regresie liniara simpla. Mai frecvent utilizata este regresia multipla, care efectueaza predictii bazate pe mai multe variabile predictor asupra unei variabile criteriu. Vom prezenta mai jos regresia liniara simpla, ca o forma de introducere īn analiza de regresie, mai usor de īnteles.

            Exemplu: Predictia rezultatului statistica pe baza cunostintelor de matematica, evaluate anterior īnceperii cursului de statistica.

            Conditii 

            Din punct de vedere statistic, conditiile variabilelor care sunt supuse analizei de regresie sunt aceleasi ca īn cazul corelatiei, deoarece regresia liniara este o aplicatie a acesteia.

            Din punct de vedere metodologic, predictia presupune, de regula, evaluarea variabilei predictor anterior variabilei criteriu. Acest fapt poate sugera o relatie de tip cauzal īntre variabile, dar numai daca sunt īntrunite si alte conditii (cum ar fi izolarea efectelor altor variabile).

            Aranjarea datelor

            Structura de variabile este similara analizei de corelatie.

            Procedura: Īn principiu, analiza de regresie īncepe cu coeficientul de corelatie dintre variabile si vizualizarea imaginii scatterplot. Īn cazul nostru, urmānd procedura prezentata mai sus, am obtinut o corelatie r=0.74 (p=0.002). Aceste valori confirma existenta unei legaturi pozitive semnificative, īntre cunostintele de matematica si performanta la statistica. O idee mai exacta ne ofera coeficientul de determinare r2=0,5476. Acesta ne spune ca 54% din variatia "performantei la statistica" este explicata de variatia valorilor la variabila "cunostinte de matematica". Deducem ca restul de 46% din performanta la statistica este explicata de alte variabile, necunoscute īn aceasta faza[1].

            Pe baza acestor concluzii se poate trece la analiza de regresie a carei finalitate este aceea de obtinere a coeficientilor a (termenul liber, sau originea dreptei de regresie) si b (panta dreptei de regresie), cu ajutorul carora se poate estima īn viitor performanta la statistica pe baza rezultatului la un test de cunostinte matematice aplicat īn prima zi de scoala. Neīndoielnic, o astfel de procedura s-ar justifica mai ales pentru identificarea studentilor cu potentiale dificultati si care, tocmai fiind avertizati īn legatura cu aceste dificultati vor putea sa acorde statisticii o atentie sporita, īn vederea obtinerii unui rezultat peste nivelul celui prezis.

            Lansarea procedurii: Statistics-Regression-Linear...

            Īn caseta principala Linear Regression, se trece variabila criteriu īn zona Dependent iar variabila criteriu īn zona Independent(s).

Īn caseta Statistics, bifam Estimates pentru obtinerea coeficientilor de regresie (optiune implicita)

Īn caseta Regression Save, bifam Predicted Values-Unstandardized si Residuals-Unstandardized, care vor avea ca efect crearea de variabile distincte īn baza de date.

Prediction interval (individual) va calcula limitele de īncredere pentru valorile prezise.


i    Valorile prezise sunt valorile rezultate pe baza modelului de predictie.

i    Valorile reziduale se calculeaza ca diferenta īntre valorile variabilei criteriu si cele prezise pe baza modelului de regresie.

Analiza rezultatelor

           

Tabelul Model Summary ofera valoarea coeficientului de regresie, notat cu R, care este identic cu coeficientul de corelatie dintre cele doua variabile. Daca modelul de regresie ar fi avut mai multe variabile predictor, R ar fi fost coeficientul de corelatie multipla dintre predictori si criteriu. Interpretarea este similara coeficientului de corelatie simpla, la fel ca si pentru R2, care este coeficientul de determinare al lui R. Valoarea lui ne spune ca 55% din variatia performantei la statistica este explicata de variatia variabilei "cunostinte de matematica". "Adjusted R Square" este o corectie a lui R2 īn functie de numarul de predictori si numarul de subiecti.

Tabelul Coefficients contine coeficientii B (nestandardizati) si coeficientul beta (standardizat), care pot fi utilizati, la alegere, īn ecuatia de predictie.

            Astfel, de exemplu, daca un student realizeaza un scor de 30 la testul de cunostinte de matematica, se poate estima performanta finala la statistica cu ajutorul relatiei:

unde 3.406 este originea iar 0.854 este panta dreptei de regresie.

            Sau, daca predictia se face pe baza unui scor standardizat z al variabilei mat_in (sa zicem, 0.93), atunci:

            Īn acest caz termenul liber are valoarea 0, deoarece originea dreptei pentru scoruri standardizate se afla īn 0.

Desigur, scorurile astfel prezise sunt estimari, atāta timp cāt corelatia dintre variabile nu este perfecta. Iar estimarile contin cu atāt mai multa eroare cu cāt corelatia dintre variabile este mai mica (punctele graficului de corelatie fiind mai īndepartate de dreapta de regresie).

            La finalul procedurii analizei de regresie, cu setarile de mai sus, īn baza de date apar cāteva variabile noi, asa cum se vede īn imaginea de mai jos.

            Variabila pre_1, contine valorile prezise pe baza modelului de regresie.

            Variabila res_1, contine diferenta dintre valoarea reala si valoarea prezisa

            Variabilele lici_1 si lici_2, contin limitele inferioara si superioara ale intervalului de īncredere pentru fiecare valoare īn parte. Pentru a īntelege mai bine problema limitelor, sa privim prima valoare prezisa de pe coloana pre_1 (25.598). Cu un nivel de īncredere de 95% (echivalent cu o probabilitate de eroare de 0.05), putem spune ca valoarea adevarata pentru stat_fin prezisa pe baza valorii mat_in=26, s-ar afla īn intervalul 21.77 si 29.41.

            Īn fine, rezultatele contin si imaginea scatterplot a relatiei dintre valorile mat_in si scorurile z ale variabilei pre_1.

            Imaginea este identica cu ceea ce am prezentat īn cazul corelatiei. Singura deosebire este data de trasarea dreptei. Aceasta se face de catre operator, īn felul urmator:

-         se actioneaza dublu clic de mouse pe imaginea graficului din Viewer. prin care...

-         graficul este trecut deschis īntr-o fereastra individuala de editare, īn care...

-         se executa procedura Chart-Options-Fit Line- Fit Options. La capatul acestei serii de actiuni apare caseta de mai jos unde se marcheaza Linear regression.


            Facem precizarea ca acest procedeu de trasare a liniei īn interiorul scatterplotului este utilizabil si īn cazul corelatiei. Daca se alege alt model decāt cel liniar (de exemplu, Quadratic regression) se va obtine linia de regresie sub forma curbilinie, punānd īn evidenta abaterile de la modelul liniar. Acest lucru este cu deosebire util atunci cānd corelatia este mica, fapt care se poate datora faptului ca relatia dintre variabile nu urmeaza un model liniar (vezi exemplul din prima sectiune a manualului, bazat pe corelatia dintre scorurile z si probabilitatile de sub curba normala).

Ce utilizam, corelatia sau regresia?

            Corelatia si regresia liniara sunt similare si, de aceea, usor de confundat. Īn unele situatii pot fi utilizate ambele proceduri.

Se calculeaza corelatia liniara:

  • atunci cānd exista doua variabile masurate pe aceiasi subiecti si se doreste evaluarea gradului de asociere īntre variabile
  • atunci cānd distributiile de esantionare ale celor doua variabile sunt normale (atunci cānd cel putin una dintre variabile este manipulata, nu se calculeaza corelatia Pearson)

Se calculeaza regresia liniara:

  • atunci cānd una dintre variabile precede si poate fi cauza celeilalte variabile
  • atunci cānd una dintre variabile este manipulata, se calculeaza regresia
  • atentie, calculele regresiei nu sunt simetrice, ca urmare, inversānd variabilele īn ecuatia de regresie se va obtine o linie de regresie diferita, īn timp ce daca se inverseaza ordinea variabilelor īn calcularea corelatiei, se obtine acelasi coeficient r.

 

Teste neparametrice nominale

Testul z al proportiei pentru un singur esantion

Utilizare

Testul z pentru proportii pentru un esantion, este utilizat īn cazul variabilelor dihotomice pentru a testa diferenta dintre proportiile valorilor īn esantion prin comparatie cu proportia la nivelul populatiei.

Exemplu: La īntrebarea "cine se uita la telenovele?" raspund DA 7 subiecti, dintre care 5 femei si 2 barbati. Īntrebarea cercetarii este daca femeile se uita īntr-o proportie mai mare decāt barbatii la telenovele.

Conditii

Cunoasterea proportiei la nivelul populatiei pentru valorile variabilei testate. Īn cazul nostru, raportul femei/barbati este cunoscut din studiile demografice (51%/49%)

Aranjarea datelor

Se creeaza variabila dihotomica cu valori numerice. Variabilele de tip "string" nu sunt acceptate de procedura SPSS. Īn cazul nostru, valorile sunt 1 pentru feminin si 2 pentru masculin.

Procedura: Statistics-Non Patametric Tests-Binomial...

·        Variabila testata este trecuta īn lista Test Variable List:

·        Īn zona Define Dichotomy se alege Get from data, daca variabila este dihotomica, sau Cut point, daca variabila este continua, prin fixarea unei valori care īmparte distributia īn doua categorii.

·        Īn zona Test proportion se introduce proportia primei categorii.

·        Butonul Options permite solicitarea statisticii descriptive pentru variabila testata.

Rezultate

Rezultatul īn cazul exemplului dat cuprinde frecventa pe categorii, procentul si semnificatia testului īn raport cu proportia la nivelul populatiei (p=0.243). Īn acest caz, se accepta ipoteza de nul si se respinge ipoteza cercetarii. Proportia femeilor care se uita la telenovele nu difera semnificativ de proportia barbatilor, prin raportare la proportia lor īn populatie.

Testul semnelor

Utilizare

Testul semnelor este utilizat pentru a testa diferenta dintre valori, utilizāndu-se semnul diferentei si nu valoarea acesteia, atunci cānd ambele valori sunt masurate pentru aceiasi subiecti . Daca nu ar exista nici o diferenta īntre valorile perechi, atunci numarul diferentelor pozitive ar trebui sa fie egal cu cel al diferentelor negative. Cu cāt numarul diferentelor de un anumit semn este mai mare comparativ cu cel al diferentelor de semn opus, cu atāt creste posibilitatea ca diferenta dintre variabile sa fie statistic semnificativa.

Exemplu: Īntr-un experiment cu privire la efectul motivarii asupra memorarii, subiectilor li se cere sa memoreze cuvinte dintr-o lista, īnainte si dupa introducerea unui factor motivant. Dat fiind faptul ca numarul  subiectilor este prea mic pentru asumarea normalitatii distributiei de esantionare, se alege testul semnului, īn locul testului t pentru esantioane dependente.

Conditii

Variabilele vor fi de tip numeric, iar valorile exprimate īn aceeasi unitate de masura, pentru a se putea face diferenta lor.

Aranjarea datelor

Imaginea de mai jos contine variabilele "inainte" si "dupa", care vor fi analizate.

Variabila "dif" contine rezultatul diferentei "dupa-inainte".

Variabila "semn", contine semnul diferentei. Ambele sunt prezentate numai pentru a face mai evident baza de calcul a testului deoarece, īn fapt, nu sunt relevante sub aspectul procedurii SPSS.

2.      Daca nu se dispune de valorile variabilelor ci numai de semnul diferentei, testul semnului va fi calculat manual, pe baza formulei 4.7.

Procedura: Statisstics-Nonparametric Tests-2 Related Samples...

Īn prima faza, cele doua variabile sunt selectate, pe rānd, prin clic de mouse pe fiecare, constituindu-se īn pereche. Acest fapt se observa īn partea de jos a casetei, īn zona Current Selections.

Se bifeaza Sign īn zona Test Type.

Apoi, perechea de variabile este trecuta īn lista Test Pair(s) List: prin actionarea butonului ►.

Daca este necesar, se pot testa simultan mai multe perechi de variabile.

                            

Rezultate

            Tabelul Sign Test cuprinde numarul diferentelor pozitive, respectiv negative, pentru cazurile din baza de date. Īn cazul nostru, exista 7 diferente pozitive si nici o diferenta negativa.

            Tabelul Test Statistics, prezinta semnificatia testului (p=0.016). Ipoteza de nul se respinge daca valoarea lui p este mai mica decāt pragul fixat si care, implicit, este 0.05. Īn exemplul dat, ipoteza de nul se respinge, acceptāndu-se ipoteza cercetarii (motivarea stimuleaza memorarea).

Testul Chi-patrat al asocierii (independetei)

Utilizare

Testul chi-patrat este utilizat pentru evidentierea gradului de asociere īntre doua variabile categoriale.

Exemplu: Sa presupunem ca am evaluat numarul femeilor si al barbatilor diagnosticati cu sindrom de stres postraumatic (PTSD) dintr-un mic oras, afectat de un cutremur de pamānt, iar datele sunt cele din urmatorul tabel de corespondenta:

Femei

Barbati

PTSD

20

10

Non-PTSD

30

40

Text Box: 	Femei	Barbati
PTSD	20	10
Non-PTSD	30	40

Problema cercetarii este daca incidenta PTSD este īn legatura cu caracteristica de sex.

Conditii

·         Cele doua variabile nu trebuie sa se "intersecteze" (sa nu existe subiecti care sa fie inclusi īn mai mult de o celula de tabel).

·         Este recomandabil ca frecventa asteptata sa nu ia valori mai mici de 5 (sau, cel putin, īn nu mai mult de 20% din celule).

·         Nici o celula nu trebuie sa aiba frecventa asteptata 0..

Aranjarea datelor

Datele pot fi incluse īn Data Editor īn doua moduri:

a.       Sub forma unor īnregistrari distincte pentru fiecare caz

            Acest mod poate fi extrem de dezavantajos atunci cānd sunt multe cazuri sau cānd exista deja o statistica globala a fenomenului PTSD īn raport cu sexul. 

b.      Sub forma unor īnregistrari distincte pentru valorile caracteristicii de sex:

            Īn aceasta situatie, se introduc frecventele PTSD pentru toate combinatiile valorilor celor doua variabile analizate si frecventele asociate fiecareia. Pentru a se realiza corespondenta dintre variabilele sex si PTSD cu variabila frecv, se apeleaza la procedura Data-Wheight Cases...:

            Facem precizarea ca īn tabelele de date din imaginile de mai sus variabilele au fost codificate numeric cu 1 respectiv 2, atāt pentru sex cāt si pentru PTSD, valorile fiind etichetate. Faptul ca īn celule apar etichetele si nu valorile, se obtine prin setarea Data-Value Labels.

i    Procedura Chi-patrat accepta si variabile de tip caracter (string) dar reamintim recomandarea de principiu ca toate variabilele sa fie declarate de tip numeric.

Procedura: Statistics-Summarize-Crosstabs...

Casetele de configurare sunt urmatoarele:


  • Īn caseta principala Crosstabs se trec variabilele analizate īn lista Row(s), respectiv Columns(s). Pot fi analizate mai multe perechi de variabile simultan. Rezultatul analizei nu depinde de modul de plasare a variabilelor pe linie sau pe coloana. Daca de doreste crearea unui grafic al corespondentei dintre variabile, se va bifa si Display clustered bar charts.
  • Īn caseta Statistics se bifeaza Chi-Square.
  • Īn caseta Cell Display se bifeaza Counts-Observed; Percentages-Row, Column, Total si Residuals-Unstandardized (bifarea optiunilor este īn functie de informatiile pe care le doreste analistul).

Rezultate

            Imaginea prezinta tabelul de corespondenta, avānd pe linii valorile caracteristicii de sex iar pe coloane valorile aferente variabilei PTSD. Īn celulele tabelului se afla valorile solicitate prin configurarea casetelor. Vom exemplifica pentru celula "feminin/da":

  • Count 20 indica numarul femeilor cu PTSD
  • %within Sex 40.0% indica procentul femeilor care au manifestat PTSD din totalul femeilor
  • %within PTSD indica procentul femeilor cu PTSD din totalul celor care au manifestat PTSD
  • % of Total indica procentul femeilor cu PTSD din totalul subiectilor
  • Residual indica diferenta dintre numarul de femei cu PTSD (frecventa observata) si frecventa asteptata (īn cazul nostru, +10)

Īn tabelul Chi-Square Tests citim valoarea testului Pearson Chi-Square (16.66) si, īn special, pragul de semnificatie al acestuia (p=0.000 care va fi citit ca p<0.001). Īn cazul particular al acestui exemplu, unde tabelul de corespondenta este format din doua linii si doua coloane, valoarea lui chi-patrat poate fi luata de pe linia Continuitiy Correction (15.04) cu valoarea aferenta a pragului de semnificatie: p<0.001.

Valoarea testului chi-patrat fiind mai mica decāt nivelul alfa 0.05, se respinge ipoteza de nul si se confirma ipoteza cercetarii: exista o incidenta mai mare a reactiei de stres postraumatic la femei decāt la barbati.

i    Īn raportarea statisticii chi-patrat va fi inclusa valoarea gradelor de libertate (df) si numarul cazurilor

i    Valoarea lui chi-patrat se raporteaza cu doua zecimale

            Graficul de tip bara permite vizualizarea relatiei dintre variabile. 

Testul Chi-patrat pentru corespondenta (goodness of fit)

Utilizare

Testul chi-patrat pentru gradul de corespondenta se utilizeaza atunci cānd dorim sa comparam frecventele observate unei singure variabile categoriale cu frecventele asteptate, dinainte cunoscute.

Exemplul 1: Avem evaluarea nivelului de inteligenta pe cinci categorii valorice, de la foarte slab, la foarte bun si dorim sa stim daca distributia acestor calificative se supune curbei normale, procentele aferente pe curba normala fiind cunoscute (2.5%, 14%, 67%, 14%, 2.5%).

Exemplul 2: Am solicitat unui grup de tineri sa īsi exprime genul muzical preferat si am obtinut frecvente diferite pentru mai multe genuri de muzica. Problema este daca diferentele dintre aceste frecvente sunt semnificative, presupunānd ca, daca nu ar fi semnificative proportiile preferintelor pentru genurilor muzicale, ar trebui sa fie identice (adica, daca ar fi trei genuri, fiecare ar trebui sa īntruneasca un procent de 33.33%).

Aranjarea datelor

Vom exemplifica pe o situatie corespunzatoare celui de-al doilea exemplu. Baza de date se poate constitui fie prin īnregistrarea fiecarui caz īn parte (avānd o variabila pentru genul muzical si o alta pentru exprimarea preferintei fata de acesta),  fie, ca īn exemplul anterior, prin īnregistrarea rezultatelor sintetice si ponderarea variabilei gen_muz cu variabila frecv prin operatia Data-Weight cases...:

Procedura: Statstics-NonParametric-Tests-Chi-Square...

·        Īn caseta Chi-Square Test se trece variabila analizata īn zona Test Variable List.

·        Se bifeaza All categories equal, acesta fiind modelul īn raport cu care dorim sa testam frecventele variabilei analizate

·        Daca am fi dorit sa le testam īn raport cu alte frecvente cunoscute, am fi bifat Values si, apoi, am fi introdus pe rānd acele frecvente (scriindu-le īn dreptul lui Values si īnregistrāndu-le prin butonul Add)

Rezultate

            Cele doua tabele cu rezultate din Viewer prezinta:

·        Frecventele observate, frecventele asteptate si valorile reziduale (diferenta dintre frecvente) pentru cele trei genuri muzicale

·        Valoarea testului Chi-patrat al corespondentei (12.17), df(2) si p=0.002

Acest rezultat justifica respingerea ipotezei de nul si acceptarea concluziei ca subiectii diferentele dintre preferintele pentru cele trei genuri muzicale sunt semnificative si nu se datoreaza variatiei īntāmplatoare de esantionare.



[1]               Facem precizarea ca valorile si aprecierile nu se bazeaza pe un studiu reale.


Document Info


Accesari: 20427
Apreciat:

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta


Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site

Copiaza codul
in pagina web a site-ului tau.

 


Copyright © Contact (SCRIGROUP Int. 2014 )