CALCULUL FRECVENTELOR SI AL UNOR INDICATORI DIN STATISTICA DESCRIPTIVA

Informatica

ALTE DOCUMENTE

Partile componente ale calculatorului.

Web style design

In functie de obiectele pe care le reprez. datele se clasifica:

Retele de calculatoare

Generalitati despre securizare

Microsoft a prezentat Origami, cel mai inovator produs IT din ultimii ani

MEMORIA CALCULATORULUI

Cunostinte incerte si rationament statistic

Sisteme de procesare a tranzactiilor (Transaction Processing System - TPS)

COMENZI UNIX

CALCULUL FRECVENŢELOR sI AL UNOR INDICATORI DIN STATISTICA DESCRIPTIVÃ

12.1. COMANDA FREQUENCIES

Comanda Frequencies permite sa se determine frecventele valorilor variabilelor numerice si de tip sir, sa se calculeze unii indicatori statistici si sa se realizeze reprezentari grafice prin diagrame în coloane si prin histograme.

Pentru a se executa aceasta comanda se alege din meniul Statistics optiunea Summarize, iar în meniul care apare se face un clic pe optiunea Frequencies.

Se deschide o cutie de dialog în care utilizatorul trebuie sa efectueze urmatoarele operatii:

. sa aleaga variabilele asupra carora se fac prelucrarile si sa mute numele lor din lista de variabile în cutia Variable(s);

. sa indicate daca sa se afiseze sau nu un tabel de frecvente (activeaza sau dezactiveaza optiunea Display frequencies table);

. sa aleaga indicatii statistici care vor fi calculati (efectueaza un clic pe butonul Statistics si completeaza informatiile necesare în cutia de dialog care apare);

. sa precizeze daca doreste reprezentarea grafica a frecventelor (în caz afirmativ, face un clic pe butonul Chart si indicata tipul graficului ce se va realiza, în cutia de dialog care se deschide);

. sa stabileasca modul în care vor fi afisate valorile variabilelor în tabelele de frecvente (efectueaza un clic pe butonul Format si, în cutia de dialog care apare, alege ordinea listarii 545j96f valorilor si dimensiunea maxima a tabelelor).

Un tabel de frecvente se refera la o singura variabila, numerica sau de tip sir, a carei eticheta sau, daca nu a fost definita eticheta, al carei nume figureaza ca titlu, si contine urmatoarele elemente pentru fiecare valoare a variabilei diferita de valorile absente:

. în prima coloana, eticheta valorii sau, daca nu a fost definita eticheta, valoarea variabilei;

. numarul cazurilor care au valoarea respectiva (în coloana Frequency);

. procentul cazurilor care au valoarea respectiva, din totalul cazurilor analizate (în coloana Percent);

. procentul cazurilor care au valoarea respectiva din totalul cazurilor care au valori diferite de valorile absente (în coloana Valid Percent);

. procentele cumulate crescator, adica suma numerelor afisate în coloana Valid Percent în linia curenta si în liniile precedente (în coloana Cumulative Percent).

Tabelul mai contine câte o linie pentru urmatoarele informatii:

. totalul cazurilor care au valori ale variabilei diferite de valorile absente (cazurile "valide") (Total);

. totalul cazurilor cu valori absente atribuite de sistem (Missing System);

. totalul cazurilor cu valori absente atribuite de utilizator (Missing);

. totalul cazurilor cu valori absente (Total);

. totalul cazurilor analizate (Total).

Ordinea în care sunt afisate valorile variabilei în tabelul de frecvente se stabileste în cutia de dialog care apare dupa efectuarea unui clic pe butonul Format. Se poate cere afisarea în ordinea:

. crescatoare a valorilor (optiunea Ascending values);

. descrescatoare a valorilor (optiunea Descending values);

. crescatoare a frecventelor valorilor (optiunea Ascending counts);

. descrescatoare a frecventelor valorilor (optiunea Descending counts).

Dar, daca în cadrul aceleiasi executii a comenzii Frequencies se reprezinta grafic frecventele valorilor variabilei prin histograme sau se calculeaza indicati alesi din zona Percentile Values a cutiei de dialog Statistics, afisarea valorilor variabilei se va face în ordine crescatoare.

Tot în cutia de dialog Format, se fixeaza numarul maxim de valori care pot fi afisate într-un tabel de frecvente. Pentru aceasta se marcheaza cutiuta de validare Suppress tables with more than n categories si se completeaza numarul respectiv (n). Pentru variabilele care au mai multe valori decât n nu se afiseaza tabele de frecvente.

Efectuarea unui clic pe butonul Statistics conduce la deschiderea unei cutii de dialog care serveste la stabilirea indicatorilor statistici care vor fi calculati. Pentru a cere calculul unui indicator se marcheaza cutiuta de validare plasata înaintea denumirii acestuia.

Cutia de dialog Statistics este împartita în patru zone. Sub denumirea fiecarei zone sunt notati indicatorii care pot fi calculati:

Percentiles Values

. cuartile (Quartiles);

. valorile sub care se gasesc

din totalul cazurilor valide, numarul întreg n fiind introdus de utilizator (Cut points for n equal group);

. centila p (valoarea sub care se gasesc p% dintre cazurile valide) pentru una sau mai multe valori p (Percentile(s), iar numerele reale p, cuprinse între 0 si 100, se introduc în cutia de editare text alaturata, efectuând câte un clic pe butonul Add dupa fiecare numar).

Central Tendency

. media (Mean);

. mediana (Median);

. modul (Mode);

. suma valorilor tuturor cazurilor valide (Sum).

Dispersion

. abaterea standard (Std. deviation);

. dispersia (Variance);

. amplitudinea (diferenta dintre valoarea maxima si valoarea minima) (Range);

. cea mai mica valoare (Minimum);

. cea mai mare valoare (Maximum);

. abaterea standard a mediei (S.E. mean).

Distribution

. coeficientul de asimetrie (Skewness);

. coeficientul de boltire (Kurtosis).

Daca fiecare valoare a variabilei reprezinta centrul unui interval de valori, se marcheaza cutiuta de validare Values are group midpoints, pentru ca în calculul medianei si al centilelor sa se utilizeze formulele valabile în cazul datelor grupate.

Indicatorii statistici calculati pentru toate variabilele sunt afisati într-un tabel, intitulat Statistics, care contine urmatoarele informatii:

. numarul cazurilor cu valori diferite de cele absente (N Valid);

. numarul cazurilor cu valori absente (N Missing);

. numele si valoarea fiecarui indicator calculat.

Observatii:

a. Pentru indicatorii din zona Percentile values se afiseaza atât procentele cât si valorile variabilei care le corespund.

b. Coeficientii de asimetrie si de boltire sunt afisati împreuna cu erorile standard.

c. Formula utilizata pentru calculul coeficientului de asimetrie conduce la valoarea 0 în cazul distributiilor simetrice, o valoare negativa pentru distributiile asimetrice în care apar cu frecvente mari valorile mari si o valoare pozitiva pentru distributiile asimetrice în care apar cu frecvente mari valorile mici.

d. Formula de calcul folosita pentru coeficientul de boltire furnizeaza valoarea 0 pentru distributiile normale, o valoare negativa pentru distributiile platikurtice (aplatizate) si o valoare pozitiva pentru distributiile leptokurtice (ascutite).

e. Daca distributia de frecvente este plurimodala (cea mai mare frecventa apare pentru mai multe valori ale variabilei), ca valoare a modului se afiseaza cea mai mica dintre valorile cu frecventa maxima, iar sub tabelul cu rezultate se mentioneaza acest lucru.

f. Pentru calculul dispersiei si al abaterii standard se folosesc formulele valabile pentru esantion (numitorul este egal cu numarul de cazuri minus 1).

Se pot cere reprezentari grafice ale frecventelor, efectuând un clic pe butonul Charts.

În cutia de dialog care apare se alege una dintre cele trei optiuni mutual exclusive:

. nici un desen (None);

. diagrama prin coloane (Bar chart(s)) - se deseneaza câte o coloana pentru fiecare valoare a variabilei;

. histograma (Histogram(s)) - se împarte automat intervalul de valori în subintervale de lungimi egale si se deseneaza câte o coloana pentru fiecare subinterval, având înaltimea proportionala cu frecventa cazurilor din subinterval.

Daca se doreste desenarea unei diagrame prin coloane trebuie sa se indice daca pe axa Ox sa se reprezinte frecvente absolute (Frequencies) sau procente (Percentages).

Este posibil ca peste histograma sa se deseneze curba normala care are media si abaterea standard egale cu cele din esantionul de cazuri folosit la realizarea histogramei. Pentru aceasta se marcheaza cutiuta de validare With normal curve.

12.2. COMANDA DESCRIPTIVES

Folosind aceasta comanda se pot calcula o parte dintre indicatorii statistici care se calculeaza si cu ajutorul comenzii Frequencies (mai putin mediana, modul, cuartilele, centilele si valorile sub care se gasesc un procent dat de cazuri) si, în plus fata de comanda Frequencies, se pot transforma valorile variabilelor numerice în cote z.

Comanda Descriptives figureaza în meniul Summarize, la care se ajunge din meniul Statistics.

Se deschide o cutie de dialog, în care:

. se aleg variabilele pentru care se fac calculele si se muta numele lor din lista de variabile în cutia Variable(s);

. se indica daca sa se calculeze sau nu cotele z (în caz afirmativ, se marcheaza cutiuta de validare Save standardized values as variables);

. daca se doreste sa se calculeze si alti indicatori statistici decât media, abaterea standard, valoarea minima, valoarea maxima si numarul cazurilor cu valori diferite de valorile absent, se efectueaza un clic pe butonul Options.

În cutia de dialog Options figureaza urmatorii indicatori statistici:

. media (Mean);

. suma valorilor variabilei, diferite de valorile absente (Sum);

. abaterea standard (Std. deviation);

. dispersia (Variance);

. amplitudinea (Range);

. cea mai mica valoare (Minimum);

. cea mai mare valoare (Maximum);

. abaterea standard a mediei (S.E. mean);

. coeficientul de boltire (Kurtosis);

. coeficientul de asimetrie (Skewness).

Utilizatorul alege indicatorii care se vor calcula, marcând cutiuta de validare din fata numelui lor.

Observatii:

a. Coeficientii de asimetrie si de boltire sunt afisati împreuna cu erorile standard.

b. Formula utilizata pentru calculul coeficientului de asimetrie conduce la valoarea 0 în cazul distributiilor simetrice, o valoare negativa pentru distributiile asimetrice în care apar cu frecvente mari valorile mari si o valoare pozitiva pentru distributiile asimetrice în care apar cu frecvente mari valorile mici.

c. Formula de calcul folosita pentru coeficientul de boltire furnizeaza valoarea 0 pentru distributiile normale, o valoare negativa pentru distributiile platikurtice (aplatizate) si o valoare pozitiva pentru distributiile leptokurtice (ascutite).

d. Pentru calculul dispersiei si al abaterii standard se folosesc formulele valabile pentru esantion (numitorul este egal cu numarul de cazuri minus 1).

Tot în cutia de dialog Options se poate alege ordinea în care sa se afiseze variabilele în tabelul cu rezultate:

. ordinea în care au figurat variabilele în cutia Variable(s) (Variable list);

. ordinea alfabetica a etichetelor variabilelor, iar daca nu au fost definite etichete, a numelor variabilelor (Alphabetic);

. ordinea crescatoare a mediilor (Ascending mean);

. ordinea descrescatoare a mediilor (Descending mean).

Ultimele doua variante de ordonare pot fi cerute chiar daca nu se cere calculul mediilor.

În tabelul cu rezultate care se afiseaza, intitulat Descriptives statistics, figureaza, pentru fiecare variabila urmatoarele informatii:

. eticheta variabilei sau, daca nu a fost definita eticheta, numele variabilei;

. numarul de cazuri care pentru variabila respectiva au o valoare diferita de valorile absente (N);

. valorile indicatorilor statistici ceruti de utilizator.

Ultima linie a tabelului contine numarul de cazuri care au valori diferite de valorile absente pentru toate variabilele din tabel (Valid N (listwise)).

Daca pentru o variabila s-a cerut transformarea valorilor în cote z, se va adauga în tabelul de date o variabila noua, al carei nume este format din litera z urmata de numele variabilei originale si ale carei valori sunt cotele z calculate. Aceasta variabila poate fi utilizata în prelucrarile ulterioare si poate fi salvata împreuna cu fisierul de date.

12.3. COMANDA CASE SUMMARIZE

Aceasta comanda permite sa se calculeze, cu mici exceptii aceiasi indicatori care se calculeaza cu ajutorul comenzii Descriptives, dar pentru grupe de cazuri, formate în functie de valorile uneia sau ale mai multor variabile. Se pot lista cazurile fiecarei clase.

Comanda Case summarize se gaseste în meniul care apare dupa ce se efectueaza un clic pe optiunea Summarize din meniul Statistics.

Se deschide o cutie de dialog în care utilizatorul efectueaza urmatoarele operatii:

. Alege variabilele pentru care se calculeaza indicatorii statistici si muta numele lor din lista de variabile în cutia Variable(s).

. Alege variabilele pe baza carora se grupeaza cazurile în clase. Fiecare clasa corespunde unei combinatii de valori ale variabilelor alese. Aceste variabile pot fi numerice sau de tip sir, dar cu putine valori, pentru a nu rezulta prea multe clase. Numele variabilelor se muta din lista de variabile în cutia Grouping Variable(s).

. Stabileste daca sa se listeze sau nu cazurile din fiecare clasa. În caz afirmativ, marcheaza cutiuta de validare Display cases, dupa care indica daca:

. se vor lista numai primele n cazuri din fiecare clasa (marcheaza cutiuta de validare Limit cases to first n si introduce numarul n) sau se vor lista toate cazurile (demarcheaza cutiuta de validare Limit cases to first ...);

. se vor lista numai cazurile care au valori diferite de valorile absente (marcheaza cutiuta de validare Show only valid cases);

. se va afisa pentru fiecare caz numarul sau de ordine în fisierul de date (marcheaza cutiuta de validare Show case number).

. Daca doreste sa se excluda din toate calculele cazurile care au valori absente pentru cel putin una dintre variabilele din cutia Variable(s), se face un clic pe butonul Options si în cutia de dialog care apare se marcheaza optiunea Exclude cases with missing values listwise. Tot în aceasta cutie de dialog se poate introduce un text care sa fie afisat atunci când pentru un caz o valoare este absenta si atunci când nu s-a putut calcula un indicator statistic. Textul respectiv se introduce în cutia de editare Missing statistics appear as.

. Efectueaza un clic pe butonul Statistics si din cutia de dialog care apare alege indicatorii care vor fi calculati pentru fiecare clasa, dintre urmatorii:

. media (Mean);

. mediana (Median);

. mediana calculata pentru valori grupate (Grouped Median);

. eroarea standard a mediei (Std. Error of Mean);

. suma valorilor variabilei (Sum);

. cea mai mica valoare a variabilei (Minimum);

. cea mai mare valoare a variabilei (Maximum);

. amplitudinea (Range);

. valoarea variabilei pentru primul caz din clasa (First);

. valoarea variabilei pentru ultimul caz din clasa (Last);

. abaterea standard (Standard Deviation);

. dispersia (Variance);

. coeficientul de boltire (Kurtosis);

. eroarea standard a coeficientului de boltire (Std. Error of Kurtosis);

. coeficientul de asimetrie (Skewness);

. eroarea standard a coeficientului de asimetrie (Std. Error of Skewness).

Dupa executia comenzii Case Summaries sunt afisate doua tabele.

Primul tabel, intitulat Case Processing Summary, contine câte o linie pentru fiecare combinatie de variabile formata dintr-o variabila din cutia Variable(s) si toate variabilele din cutia Grouping Variable(s). În prima coloana sunt notate etichetele sau, daca acestea nu au fost definite, numele variabilelor. Urmeaza trei grupe de câte doua coloane, care contin:

. numarul si procentul cazurilor care sunt utilizate pentru efectuarea calculelor (Included);

. numarul si procentul cazurilor care sunt excluse din calcule deoarece au valori absente (Excluded);

. numarul si procentul tuturor cazurilor analizate (Total).

Al doilea tabel afisat, intitulat Case Summaries, contine valorile indicatorilor calculati, pentru fiecare clasa.

Pentru a descrie mai clar continutul acestui tabel, sa notam cu v₁, v₂, ..., v_n variabilele din cutia Grouping Variables, în ordinea în care figureaza în aceasta cutie.

Pentru fiecare clasa formata pe baza variabilelor v₁, v₂, ..., v_n sunt notate în tabel valorile indicatorilor statistici calculati, fiecare pe câte o linie, numarul cazurilor folosite pentru efectuarea calculelor si, daca s-a cerut acest lucru, valorile cazurilor din clasa pentru toate variabilele din lista Variable(s). Clasa este identificata prin valorile variabilelor v₁, v₂, ..., v_n (daca au fost definite etichete ale valorilor, atunci în tabel figureaza aceste etichete).

Indicatorii statistici alesi de utilizator sunt afisati în tabel si pentru clasele formate în functie de valorile variabilelor:

v₁, v₂, ..., v_n-1

v₁, v₂, ..., v_n-2

...

v₁.

Aceste clase sunt recunoscute prin faptul ca au afisate denumirile indicatorilor calculati în coloana corespunzatoare primei variabile care lipseste din însiruirea v₁, v₂, ..., v_n. De exemplu, o clasa care corespunde unei combinatii de valori ale variabilelor v₁, v₂, ..., v_i (i<n) va avea denumirile indicatorilor în coloana variabilei v_i+1. Daca în cutia de dialog Options se marcheaza cutiuta de validare Subheadings for totals atunci deasupra denumirilor indicatorilor calculati se va scrie cuvântul "Total".

12.4. COMANDA CROSSTABS

Cu ajutorul aceste comenzi se construiesc tabele de frecvente pentru doua sau mai multe variabile, iar atunci când tabelele cuprind doar doua variabile, se pot calcula 22 de masuri ale asocierii variabilelor. Daca exista o grupare a cazurilor în clase în functie de una sau mai multe variabile, se construieste câte un tabel pentru fiecare clasa.

Comanda Crosstabs se gaseste în meniul Summarize, la care se ajunge din meniul Statistics.

În cutia de dialog care apare se efectueaza urmatoarele operatii:

a. Se aleg variabilele care vor fi reprezentate pe liniile tabelului si se muta numele lor în cutia Row(s).

Se aleg variabilele care vor fi reprezentate pe coloane si numele lor se muta în cutia Column(s).

În cadrul tabelului, valorile variabilelor care figureaza pe linii si pe coloane pot fi aranjate în ordine crescatoare sau descrescatoare. Stabilirea ordinii se realizeaza efectuând un clic pe butonul Format si selectând unul dintre butoanele de optiuni mutual exclusive Ascending (ordine crescatoare) si Descending (ordine descrescatoare).

Variabilele care se reprezinta în tabel trebuie sa fie numerice sau de tip sir scurt si sa aiba putine valori, pentru a nu se genera tabele prea mari.

b. Daca se doreste sa nu se afiseze tabelele de frecvente se marcheaza cutiuta de validare Suppress tables.

c. Se aleg variabilele în functie de care sunt grupate cazurile în clase. Acestea pot fi cuprinse în mai multe liste.

Numele variabilelor din fiecare lista se muta în cutia Layer n of n, unde n reprezinta numarul listei. Trecerea de la o lista la alta se realizeaza prin efectuarea unui clic pe butonul Previous (trecere la lista anterioara) sau pe butonul Next (trecere la lista urmatoare).

Se va afisa câte un tabel pentru fiecare combinatie care se formeaza luând câte o variabila din fiecare lista, o variabila dintre cele care se reprezinta pe linii si una dintre cele care se reprezinta pe coloane. Tabelul va fi împartit în subtabele, câte unul pentru fiecare combinatie de valori ale variabilelor care au servit la gruparea cazurilor.

De exemplu, sa presupunem ca:

. lista Row(s) contine variabilele r₁ si r₂;

. lista Column(s) contine variabilele c₁ si c₂;

. prima lista de variabile de grupare contine variabila a;

. a doua lista de variabile de grupare contine variabilele b₁ si b₂.

Se vor genera opt tabele corespunzatoare urmatoarelor combinatii de variabile:

a, b₁, r₁ si c₁

a, b₁, r₁ si c₂

a, b₁, r₂ si c₁

a, b₁, r₂ si c₂

a, b₂, r₁ si c₁

a, b₂, r₁ si c₂

a, b₂, r₂ si c₁

a, b₂, r₂ si c₂

În cadrul primului tabel va exista câte un subtabel pentru fiecare combinatie formata dintr-o valoare a variabilei a si o valoare a variabilei b₁.

d. Se stabileste continutul celulelor din tabelul de frecvente. Pentru aceasta se face un clic pe butonul Cells si, în cutia de dialog care se deschide, se marcheaza cutiutele de validare din fata denumirilor indicatorilor care vor fi afisati.

Valorile care se pot calcula si afiaa sunt grupate, în cutia de dialog, în urmatoarele trei clase:

. Tipul frecventelor din fiecare celula (Counts) :

. frecventele observate ale cazurilor (Observed) - numarul cazurilor din fiecare celula;

. frecventa asteptata (Expected) - frecventa folosita în formula de calcul a statisticii hi patrat;

. Modul de calcul al procentelor (Percentages):

. procente în cadrul liniilor (Row) - procentele sunt calculate pentru fiecare celula prin împartirea frecventei observate la totalul frecventelor observate pe linie si înmultire cu 100;

. procentele în cadrul coloanelor (Column) - procentele sunt caculate pentru fiecare celula prin împartirea frecventei observate la totalul frecventelor observate pe coloana si înmultire cu 100;

. procentele în cadrul tabelului (Column) - procentele sunt calculate pentru fiecare celula prin împartirea frecventei observate la totalul frecventelor observate din tabel si înmultire cu 100;

. Modul de calcul al reziduurilor (Residuals) (reziduurile sunt masuri ale deosebirii dintre frecventele observate si cele asteptate):

. nestandardizat (Unstandardized);

. standardizat (Standardized);

. standardizat ajustat (Adj. standardized).

Se pot alege oricâte optiuni din fiecare grup. Dar, frecventele asteptate si reziduurile se calculeaza numai pentru tabelele în care apare o variabila pe linii si una pe coloane.

Înaintea tabelelor cu frecvente este afisat un tabel, intitulat Case Processing Summary, care contine câte o linie pentru fiecare tabel de frecvente si indica numarul si procentul cazurilor din fisierul de date folosite pentru construirea tabelului de frecvente respectiv, grupate în trei categorii:

. cazuri care au valori diferite de valorile absente pentru variabilele reprezentate în tabel si pentru cele de clasificare a cazurilor (Included);

. cazuri care au valori absente pentru variabilele reprezentate în tabel sau pentru cele de clasificare a cazurilor (Excluded);

. total cazuri (Total).

e. Se face un clic pe butonul Statistics si se aleg statisticile care vor fi folosite si coeficientii care vor fi calculati. În cutia de dialog care se deschide figureaza: testul χ² (Chi-square), coeficientul de corelatie a rangurilor al lui Spearman (Correlations), coeficientul de contingenta (Contingency coefficient), coeficientul Ø si coeficientul V al lui Cramer (Phi and Cramér's V), coeficientul λ simetric si asimetric (Lambda), coeficientul de nesiguranta (Uncertainty coefficient), coeficientul γ (Gamma), coeficientul d al lui Somer (Somer's d), coeficientii τ_b si τ_c ai lui Kendall (Kendall's tau-b si Kendall's tau-c), coeficientul K al lui Cohen (Kappa), coeficientul η (Eta) si estimarea riscului (Risk).

Pentru unii coeficienti, SPSS calculeaza si pragul de semnificatie la care valoarea coeficientului difera de zero.

În continuare notam:

f_ij = frecventa observata în celula aflata pe linia i si pe coloana j;

r_i = suma frecventelor observate de pe linia i:

c_j = suma frecventelor observate pe coloana j:

N = numarul total al cazurilor observate:

Formulele de calcul folosite de comanda Crosstabs sunt urmatoarele:

. pentru frecventele asteptate:

. pentru reziduurile nestandardizate:

. pentru reziduurile standardizate:

. pentru reziduurile standardizate ajustate:

Tabelul afisat în fereastra Navigatorului de iesire sub denumirea Case Processing Summary contine o linie pentru fiecare combinatie care se formeaza luând câte o variabila din fiecare dintre listele din cutia Layer n of n, o variabila dintre cele care se reprezinta pe linii si una dintre cele care se reprezinta pe coloane. Sunt prezente urmatoarele informatii:

numele sau etichetele variabilelor ale caror valori ocupa liniile si coloanele si ale celor care au servit la gruparea cazurilor;

în coloanele cu titlul Valid: numarul de cazuri (N) care au valori diferite de valorile absente si procentul acestora (%);

în coloanele cu titlul Missing: numarul de cazuri (N) care au valori absente si procentul acestora (%);

în coloanele cu titlul Total: numarul de cazuri (N) care pentru care s-a construit tabelul de contingenta si procentul acestora (%).

În continuare, pentru fiecare linie din primul tabel:

daca nu a fost demarcata optiunea Suppress tables, este listat un tabel care contine câte un tabel de contingenta pentru fiecare combinatie de valori ale variabilelor care au servit la gruparea cazurilor;

pentru fiecare test statistic aplicat si pentru fiecare coeficient de corelatie sau de asociere calculat se afiseaza un tabel cu rezultate.

Daca s-a cerut aplicarea testului χ², apare tabelul intitulat Chi-Square Tests, care contine, pentru fiecare dintre testele aplicate: valoarea statisticii testului (Value), numarul gradelor de libertate (df) si pragul de semnificatie (Asymp. Sig. (2-tailed)). Se aplica urmatoarele teste:

χ² (Pearson Chi-Square);

χ² cu corectia pentru continuitate (Continuity Correction), daca tabelul de contingenta are dimensiunile 2x2;

testul exact al lui Fisher (Fisher's exact test), daca tabelul de contingenta are dimensiunile 2x2 si exista cel putin o frecventa asteptata mai mica decât 5;

raportul probabilitatilor (Likelihood Ratio), pentru care statistica urmeaza legea χ²;

testul de liniaritate al lui Mantel-Haenszel (Linear-by-Linear Association), a carui statistica urmeaza legea χ².

În cazul testului lui Fisher sunt afisate în tabelul cu rezultate pragurile de semnificatie pentru testul bilateral (Exact Sig. (2-tailed)) si pentru cel unilateral (Exact Sig. (1-tailed)).

Sub acest tabel sunt notate numarul si procentul frecventelor asteptate care sunt mai mici decât 5 si valoarea celei mai mici frecvente asteptate.

În functie de optiunile alese, se afiseaza un tabel cu titlul Directional Measures si/sau unul cu titlul Symmetric Measures.

În primul tabel sunt inclusi coeficientii:

Lambda (simetric si cei doi asimetrici);

tau al lui Goodman si Kruskal (doi coeficienti asimetrici);

coeficientii de incertitudine (simetric si doi asimetrici);

d ai lui Somers (simetric si doi asimetrici);

eta (doi coeficienti asimetrici).

În tabel figureaza:

valoarea fiecarui coeficient (Value);

eroarea standard a coeficientului, calculata asimptotic, fara a presupune adevarata ipoteza nula conform careia variabilele sunt independente între ele (Asymp. Std. Error) - pentru coeficientii Lambda, tau al lui Goodman si Kruskal, coeficientii de incertitudine si coeficientii d ai lui Somers;

eroarea standard a coeficientului, calculata asimptotic, presupunând adevarata ipoteza nula conform careia variabilele sunt independente între ele (Approx. T) - pentru coeficientii Lambda, coeficientii de incertitudine si coeficientii d ai lui Somers;

pragul de semnificatie (Approx. Sig.) - pentru coeficientii Lambda, tau al lui Goodman si Kruskal, coeficientii de incertitudine si coeficientii d ai lui Somers.

În al doilea tabel sunt inclusi coeficientii:

Phi;

coeficientul V al lui Cramer;

coeficientul de contingenta;

coeficientii tau-b si tau-c ai lui Kendall;

coeficientul Gamma;

coeficientul de corelatie a rangurilor al lui Spearman;

coeficientul de corelatie liniara al lui Pearson;

coeficientul Kappa.

In tabel figuereayas

valoarea fiecarui coeficient (Value) si pragul de semnificatie (Approx. Sig.);

eroarea standard calculata asimptotic fara a presupune adevarata ipoteza nula care afirma ca variabilele sunt independente (Asymp. Std. Error) si presupunând adevarata ipoteza nula (Approx. T) - pentru coeficientii tau-b si tau-c ai lui Kendall, Gamma, coeficientul de corelatie a rangurilor al lui Spearman, coeficientul de corelatie liniara si coeficientul Kappa.

Daca a fost marcata optiunea Risk, se afiseaza un tabel cu titlul Risk Estimate, care contine valoarea (Value) si limitele intervalul de încredere corespunzator probabilitatii 0.95 (95% Confidence Interval) pentru riscul relativ în trei situatii:

daca se cerceteaza toate cazurile (Odds Ratio for numele sau eticheta variabilei din lista Row(s));

daca se face un studiu al cohortelor pentru prima valoare/ a doua valoare a variabilei din lista Column(s) (For cohort numele sau eticheta variabilei din lista Column(s) = valoarea acestei variabile).

12.5. COMANDA EXPLORE

Comanda Explore calculeaza indicatori statistici, face reprezentari grafice si aplica teste statistice pentru cazuri grupate în clase sau negrupate.

În acest paragraf vor fi descrise doar calculul indicatorilor statistici si reprezentarile grafice.

Comanda Explore se gaseste în meniul Summarize, la care se ajunge din meniul Statistics.

În cutia de dialog care se deschide se efectueaza urmatoarele operatii:

. Se aleg variabilele pentru care se efectueaza prelucrari si numele lor se muta din lista de variabile în cutia Dependent List.

. Daca exista una sau mai multe grupari ale cazurilor în clase, fiecare realizata în functie de valorile unei variabile, se muta numele acestor variabile în cutia Factor List. Variabilele respective pot fi numerice sau de tip sir scurt, dar trebuie sa aiba un numar redus de valori.

. Daca se doreste ca fiecare caz sa fie identificat prin eticheta valorii sale pentru o anumita variabila, variabila respectiva se muta în cutia Label Cases by.

. Sub denumirea Display exista trei butoane de optiuni mutual exclusive:

. Both - permite sa se afiseze rezultatele statistice si sa se faca reprezentari grafice;

. Statistics - determina afisarea rezultatelor statistice si interzice desenarea graficelor (face inaccesibil butonul de comand_ Plots);

. Plots - are ca efect afisarea graficelor si interzicerea listarii indicatorilor statistici (face inaccesibil butonul de comanda Statistics).

. Pentru a se calcula indicatori statistici se face un clic pe butonul de comanda Statistics. Se deschide o cutie de dialog în care se marcheaza grupurile de indicatori care se vor calcula. Aceste grupuri sunt:

Descriptives indicatorii tendintei centrale (media, mediana, indicatorii variatiei (dispersia, abaterea standard, valoarea cea mai mica, valoarea cea mai mare, amplitudinea, intervalul intercuartil), indicatorii formei distributiei (coeficientul de asimetrie cu eroarea sa standard, coeficientul de boltire cu eroarea sa standard), intervalul de încredere pentru medie corespunzator unei probabilitati indicate de utilizator (în cutia de editare text Confidence interval for Mean).

M-estimators patru indicatori ai tendintei centrale (estimatorii lui Huber, Hampel, Andrew si Tukey), care difera între ei prin modul de ponderare a cazurilor.

Outliers cele mai mari si cele mai mici valori ale cazurilor (de obicei se afiseaza câte 5 valori, dar daca numarul cazurilor este mic, se reduc si volumele celor doua liste afisate).

Percentiles centilele 5, 10, 25, 50, 75, 90, 95.

. Pentru a se realiza reprezentari grafice se face un clic pe butonul de comanda Plots. Sunt posibile trei tipuri de reprezentari: diagrame "în cutie" (Box plots), diagrame "trunchi si frunza" (Stem-and-leaf) si histograme (Histogram).

Diagrama "în cutie" se prezinta sub forma unui dreptunghi (a unei "cutii") a carui lungime este proportionala cu lungimea intervalului intercuartil: L=Q₃-Q₁, unde Q₃ este cuartila 75 (valoarea sub care se gasesc 75% dintre valorile variabilei la cazurile analizate), iar Q₁ este cuartila 25 (valoarea sub care se gasesc 25% dintre valorile variabilei la cazurile analizate).

În interiorul cutiei este trasata o linie care indica pozitia medianei.

Cutia are în exterior doua segmente:

. unul are extremitatile în Q₁ si în adiacenta inferioara (cea mai mica valoare a variabilei, la cazurile analizate, care este mai mare decât Q₁-1.5L);

. celalalt are extremitatile în Q₃ si în adiacenta superioara (cea mai mare valoare a variabilei, la cazurile analizate, care este mai mica decât Q₃+1.5L).

Pe linia celor doua segmente, în exteriorul cutiei, sunt reprezentate printr-un anumit semn (*, patrat etc.) valorile variabilei la cazurile analizate care se afla în afara intervalului care are ca extremitati adiacenta inferioara si adiacenta superioara.

Acest tip de diagrama permite compararea mai multor distributii si reperarea eventualelor valori aberante (foarte mari sau foarte mici).

Diagrama "trunchi si frunza" este o reprezentare grafica asemanatoare histogramei, dar realizata pe orizontala, care permite si vizualizarea valorilor variabilei.

Ea se bazeaza pe descompunerea tuturor valorilor variabilei în sume de forma:

v = (10t+f)*10^k+r

unde :

v = valoarea variabilei;

t = o cifra cuprinsa între 0 si 9, care reprezinta "trunchiul"

f = o cifra cuprinsa între 0 si 9, care reprezinta "frunza";

r = restul, care nu se reprezinta.

Se considera ca "latime a trunchiului" (Stem width) valoarea 10^k+1.

Multimea valorilor variabilei se împarte în intervale cu proprietatea ca toate valorile dintr-un interval au acelasi trunchi. Pentru fiecare interval se afiseaza o linie orizontala compusa din cifra trunchiului, urmata de un separator si de frunzele valorilor cuprinse în interval, scrise în ordine crescatoare.

De exemplu, daca valorile variabilei sunt

2, 3, 3, 5, 5, 6, 6, 7, 7, 8

atunci toate pot fi scrise sub forma:

v = (10*0+v)*10⁰+0

Prin urmare, toate au trunchiul egal cu 0, iar frunza egala chiar cu valoarea variabilei (f=v).

SPSS realizeaza urmatoarea diagrama "trunchi si frunza":

0.233

0.5566

0.77

0.8

Pentru reprezentarea grafica prin diagrame "în cutie" exista în cutia de dialog Plots, în zona denumita Boxplots trei butoane de optiuni mutual exclusive:

. Factor levels together: Se face câte un desen pentru fiecare variabila din cutia Dependent list. Daca exista o grupare a cazurilor în clase, se realizeaza câte o diagrama în cutie pentru fiecare clasa, în caz contrar, se deseneaza o singura diagrama în cutie pentru variabila respectiva.

. Dependents together: Se face câte un desen pentru fiecare clasa sau, daca nu exista o împartire a cazurilor în clase, se realizeaza un singur desen. În cadrul desenului este prezenta o diagrama în cutie pentru fiecare variabila din cutia Dependent list.

. None: Nu se deseneaza diagrame in cutie.

Modul în care sunt tratate cazurile cu valori absente este indicat de utilizator în cutia de dialog care se deschide dupa ce se face un clic pe butonul de comanda Options. Sunt posibile urmatoarele situatii:

. Cazurile cu valori absente pentru una sau mai multe dintre variabile sunt excluse:

. din toate prelucrarile (se marcheaza optiunea Exclude cases listwise);

. numai din prelucrarile în care intervin variabilele respective (se marcheaza optiunea Exclude cases pairwise).

. Cazurile care au valori absente pentru variabilele din cutia Factor list:

. sunt cuprinse într-o clasa denumita Missing (se marcheaza optiunea Report Values);

. sunt excluse din prelucrari (se demarcheaza optiunea Report Values).

Pentru fiecare variabila din cutia Factor list se afiseaza:

. un tabel cu frecventele cazurilor pe clase, pentru fiecare variabila din cutia Dependent list, intitulat Case Processing Summary;

. în functie de optiunile alese din cutia Statistics, câte un tabel care contine, pentru fiecare variabila din cutia Dependent list, pe clase, intitulat Descriptives:

. indicatorii statisticii descriptive;

. estimatorii M;

. valorile extreme;

. centilele, calculate prin doua metode (Weighted Average si Tukey Hinges);

. reprezentarile grafice, în functie de optiunile alese din cutia Plots.

Primul tabel contine pentru fiecare variabila din cutia Dependent list, pe clase, numarul (N) si procentul (Percent):

. cazurilor care au valori diferite de valorile absente (Valid);

. cazurilor care au valori absente (Missing);

. tuturor cazurilor analizate (Total).

Daca s-a cerut calculul indicatorilor statisticii descriptive (optiunea Descriptives) atunci se afiseaza valorile indicatorilor calculati (în coloana Statistics), iar pentru medie, coeficientul de boltire si coeficientul de asimetrie se afiseaza si eroarea standard (în coloana Std. Error).

În tabelul (cerut prin optiunea Outliers) care contine valorile extreme din fiecare clasa pentru fiecare variabila, cazurile sunt identificate prin numarul lor de ordine în fisierul de date si, daca s-a introdus un nume de variabila în cutia Label Cases by, si prin eticheta valorii acestei variabile sau, daca nu s-au definit etichete de valori, prin valorile variabilei respective.

Document Info

Accesari: 7057
Apreciat:

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta

Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site

Copiaza codul:
in pagina web a site-ului tau.

eCoduri.com - coduri postale, contabile, CAEN sau bancare

Politica de confidentialitate | Termenii si conditii de utilizare