Varianta explicata
reprezinta variatia variabilei
rezultative (Y) datorata influentei variabilelor factoriale (), care arata împrasierea valorilor estimate
) în jurul mediei valorilor reale ale variabilei rezultative (
) si se determina dupa relatia:
σ=
Varianta totala
reprezinta variatia variabilei rezultative (Y) datorata
influentei tuturor factorilor ce actioneaza asupra sa (variabile
factoriale si factori întâmplatori, aleatori), care arata
împrastierea valorilor ale variatiei rezultative (y) în jurul mediei lor (
) si se determina conform relatiei:
σ=
Înlocuind cele doua variante din relatia 5.38 cu formulele lor de calcul, se obtine o noua relatie a raportului de corelatie multipla, astfel:
R=
În practica, mai des
utilizat este patratul raportului de corelatie multipla, care
poarta numele de coeficient de determinatie multipla () determinat dupa relatia:
=
Coeficientul de determinatie
multipla exprima ponderea influentei simultane a tuturor
variabilelor factoriale în totalul variatiei variabilei rezultative. În
aceste conditii, ponderea influentei factorilor aleatori,
necuprinsi în model, va fi 1-(coeficientul de nedeterminatie). Coeficientul de determinatie
multipla este întotdeauna pozitiv si ia valori în intervalul [0,1],
cu urmatoarele interpretari:
daca are valori apropiate
de 1, înseamna ca ponderea influentei variabilelor factoriale în
totalul variatiei variabilei rezultative este mare, adica exista
o corelatie multipla puternica;
daca are valori apropiate
de 0, acest lucru înseamna ca ponderea influentei variabilelor
factoriale în totalul variatiei variabilei rezultative este mica
si corelatia multipla este slaba sau chiar inexistenta.
În practica economica, se considera ca o corelatie multipla este suficient de puternica daca valoarea coeficientului de determinatie este mai mare de 0,7 ( sau 70%, în exprimare procentuala).
Coeficientul de determinatie prezinta, însa, dezavantajul
ca tine cont doar de valorile variatiilor lui y si , si nu de volumul esantioanelor studiate. O solutie de
rezolvare a acestei probleme o reprezinta utilizarea în locul variatiilor,
a estimatorilor variantelor aferente, calculate ca raport între
variatii si numarul de grade de libertate. Se obtine, astfel,
coeficientul de determinatie corectat (ajustat), notat cu
, dupa relatia:
=1-
(5.43)
în care este estimatorul
variabilei aleatoare, iar
este estimatorul
variantei totale a variabilei rezultative, determinate conform relatiilor:
=
(5.44)
=
(5.45)
unde k reprezinta numarul de variabile factoriale.
Din relatiile 5.43, 5.44, 5.45 rezulta ca:
=1-
= =
(5.48)
Relatiile dintre
coeficientul de determinatie si coeficientul
de determinatie corectat
este data de
formula 5.48 si, conform acesteia, se poate spune ca întotdeauna
între cei doi coeficienti va exista raportul de marime:
>
(deoarece volumul esantionului n si numarul de variabile
factoriale k sunt numere întregi pozitive). Cu cât volumul esantionului este
mai mare, cu atât cei doi coeficienti vor avea valori mai apropiate.
Alaturi de corelatia simpla, care arata legatura dintre o variabila rezultativa si una factoriala si de corelatia multipla, care caracterizeaza legatura dintre o variabila rezultativa si doua sau mai multe variabile factoriale, apare necesitatea studierii separate a influentei fiecarei variabile factoriale în parte. Aceasta se realizeaza cu ajutorul corelatiei partiale, care masoara dependenta dintre variabila rezultativa si una din variabilele factoriale, considerând influenta celorlalti factori ca fiind constanta. În functie de numarul variabilelor factoriale a caror influenta se considera constanta, coeficientii de corelatie partiala pot fi de ordinul întâi, doi s.a.m.d.
Cel mai adesea, coeficientii de corelatie partiala se determina pe baza coeficientilor de corelatie liniara simpla. Pentru exemplificare, vom lua cazul corelatiei multiple cu doua variabile factoriale (corelatia partiala de ordinul întai), astfel:
- coeficientul de corelatie partiala între Y si X1, excluzând influenta variabilei X2:
(5.49)
- coeficientul de corelatie partiala între Y si X2, excluzând influenta variabilei X1:
(5.50)
În prezent, mai des
utilizati sunt coeficientii de detreminatie partiala,
calculati ca patrat al coeficientilor de corelatie
partiala (
). Ei iau valori în intervalul [0,1] si arata
ponderea influentei fiecarei variabile factoriale în parte în totalul
variatiei variabilei rezultative. Cu cât valoarea unui coeficient de
determinatie partiala este mai apropiata de 1, cu atât respectiva variabila
factoriala are o influenta mai puternica asupra variabilei
rezultative, iar daca valoarea lui este mai apropiata de 0, atunci variabila
factoriala nu influenteaza semnificativ variabila
rezultativa.
5.3.3 Verificarea statistica a modelelor de regresie
Prin analiza de regresie si corelatie s-au stabilit forma, sensul si intensitatea legaturii dintre o variabila rezultativa si una sau mai multe variabile factoriale. Modelul rezultat în urma acestor operatiuni îsi propune sa aproximeze cât mai bine realitatea economica studiata. Gradul de îndeplinire a acestui deziderat se determina printr-un ansamblu de metode si teste statistice care reprezinta etapa de verificare statistica a modelului.
Aceasta etapa de verificare a modelelor de regresie pe baza unor teste statistice este absolut necesara, datorita faptului ca estimarea parametrilor modelelor se realizeaza pe seama unor esantioane de date, mai mult sau mai putin reprezentative. Astfel, pe baza unui numar redus de valori (uneori sub 30 de date) se doreste sa se ajunga la estimari valabile pentru o colectivitate generala formata din mii de cazuri. Orice modificare a volumului esantionului duce, de regula, la modificarea valorilor estimate, ceea ce înseamna ca aceste valori au un grad ridicat de relativitate.
În aceste conditii, apar probleme legate de masura în care solutiile unui model pot fi generalizate, de faptul ca estimatiile obtinute pot fi semnificative sau doar întâmplatoare, rezultat al unei conjuncturi de valori din cadrul esantionului, precum si de limitele în care estimatorii pot varia fara a influenta aprecierile initiale si concluziile referitoare la semnificatia lor.
Aceste probleme sunt rezolvate în general cu ajutorul testelor statistice, care studiaza semnificatia parametrilor modelului de regresie si calitatea acestuia de a descrie relatia de dependenta dintre variabila rezultativa si factorii de influenta luati în considerare. Pentru aceasta, în primul rând, trebuie cunoscuta legea de repartitie care caracterizeaza comportamentul variabilelor studiate - rezultativa, factoriale si aleatoare - si care, de regula, în economie, este legea normala.
Verificarea statistica este, de fapt, o operatiune de validare a modelului, în functie de concluziile ei luându-se decizia de confrmare sau de infirmare a posibilitatilor acestuia de a reflecta corect situatia reala. Setul de metode statistice care sta la baza verificarii unui model de regresie simpla sau mutipla contine, de regula, trei mari componente: determinarea erorilor standard, utilizarea unui test Fisher (F) de analiza a variatiei pe componente si determinarea valorilor unui test Student (t) de verificare a semnificatiei parametrilor regresiei.
1. Determinarea erorilor standard. Erorile standard reprezinta abateri ale valorilor estimate de la valorile reale si se determina astfel:
a) ca abatere a valorilor
estimate ale variabilei rezultative () fata de cele reale (
), caz în care se numeste eroare standard a functiei
de regresie (s
) si se
determina astfel:
(5.51)
unde k reprezinta numarul de variabile factoriale. În principiu, cu cât aceasta eroare este mai mica în raport cu valorile variabilei rezultative, cu atât modelul aproximeaza mai corect realitatea economica studiata. Interpretarea calitatii modelului în functie de valoarea erorii standard a functiei de regresie este destul de relativa, fapt pentru care utilitatea acesteia consta mai degraba în a sta la baza determinarii altor parametri statistici de validare a modelului;
b) ca abateri ale valorilor
estimate ale parametrilor functiei de regresie () de la valorile lor reale (
), caz în care se numesc erori standard ale parametrilor regresiei (
) si se determina pentru fiecare parametru în parte. În cazul regresiilor
liniare simple, cele doua erori standard ale parametrilor a si b
sunt:
(5.52)
(5.53)
Pentru regresiile multiple,
determinarea erorilor standard ale parametrilor este putin mai
dificila. La fel ca si în cazul regresiilor simple, erorile standard
ale parametrilor depind de eroarea standard a functiei de regresie
si de variantele
variabilelor factoriale
. Aceste variante sunt date de elementele de pe diagonala
inversei matricei asociate sistemului de
ecuatii prezentat în relatia 5.30, corespunzatoare variabilei
factoriale la care se refera. Daca se noteaza elementele
respective cu
unde j=k+1, atunci
eroarea standard a parametrului
se determina
conform relatiei:
(5.54)
Cu cât aceste erori sunt mai
mici în raport cu valorile absolute ale parametrilor pe care îl
caracterizeaza (), cu atât valorile estimate ale parametrilor respectivi sunt
mai apropiate de cele reale.
2. Testul Fisher de analiza a
variatiei variabilei rezultative verifica modalitatea în care modelul
de regresie reuseste sa conduca la reconstituirea valorilor
empirice ale variabilei rezultative () prin intermediul valorilor estimate (
). Testarea capacitatii modelului de a reconstitui
valorile reale ale variabilei rezultative prin intermediul valorilor estimate
se realizeaza prin parcurgerea urmatoarelor etape:
I. Se stabileste ipoteza
nula (), conform careia împrastierea valorilor ajustate
ale variabilei rezultative (
) datorita factorilor de influenta nu
difera semnificativ de împrastierea acelorasi valori
datorita întâmplarii. Aceasta ipoteza presupune, de fapt,
ca modelul este irelevant, iar etapele urmatoare ale testului vor confirma
sau vor infirma presupunerea;
II. Se alege repartitia utilizata
pentru efectuarea testului si nivelul de semnificatie . Repartitie pe baza careia se realizeaza
acest test este cea cunoscuta sub numele de Fisher-Snedecor;
III. Se determina
valoarea calculata () ca raport între estimatorul variantei explicate (
) si estimatorul variantei reziduale (
), astfel:
(5.55)
IV. Se alege valoarea tabelara sau
critica () din tabelul repartitiei Fisher-Snedecor în
functie de nivelul de semnificatie
si de numarul
de grade de libertate;
V. Se compara valoarea
calculata () cu valoarea tabelara (
), rezultând doua situatii:
◊ daca
, ipoteza nula se accepta cu probabilitatea p=1-
, ceea ce înseamna ca modelul trebuie reconsiderat,
fie în sensul alegerii altor factori de influenta sau a
suplimentarii lor, fie în sensul optarii pentru o alta
forma a functiei de regresie;
◊ daca , ipoteza nula se respinge cu probabilitatea p=1-
, ceea ce înseamna ca modelul a rezistat verificarii,
fiind util analizei si previzionarii variabilei rezultative.
3. Testul Student de verificare a semnificatiei parametrilor modelului. Media estimatorului fiecarui parametru, în ipoteza unei estimatii nedistorsionate, este marimea reala a parametrului. Varianta estimatorului fiecarui parametru, în cazul unei estimatii eficiente, depinde de împrastierea variabilei aleatoare si de împrastierea valorilor variabilelor factoriale.
Ceea ce intereseaza în
mod deosebit este semnificatia parametrilor corespunzatori
variabilelor factoriale, data fiind importanta lor în masurarea fiecarui
factor asupra evolutiei variabilei rezultative. Pentru aceasta se
calculeaza estimatorii variantelor acestor parametri () în functie de variantele variabilelor factoriale.
Etapele verificarii semnificatiei parametrilor cu ajutorul testului Student (t) decurg astfel:
I. Se stabileste ipoteza
nula () conform careia parametrii estimati
nu difera semnificativ de zero. Acest lucru înseamna
ca se porneste de la presupunerea ca modelul este irelevant;
II. Se stabileste nivelul
de semnificatie al testului, notat cu ;
III. Se determina
valorile calculate ale testului Student () pentru fiecare parametru în parte, ca raport între valoarea
absoluta a parametrului estimat (
) si eroarea sa standard (
), conform relatiei:
(5.56)
IV. Se determina din
tabelul aferent repartitiei Student valoarea tabelara a variabilei
standardizate () în functie de v=n-1 grade de libertate si de
probabilitatea
/2;
V. Se compara valoarea calculata cu valoarea tabelara si, în raport cu marimea lor, rezulta doua situatii:
◊ daca nivelul
calculat este mai mic decât cel tabelar (), ipoteza nula se accepta, adica se poate
spune cu probabilitatea p=1-
ca estimatorul nu difera semnificativ de zero si
rezultatul obtinut este înâmplator. În aceste conditii, datele
nu confirma existenta legaturii între variabila rezultativa
si factorii de influenta analizati, fiind necesara fie
alegerea altor factori, fie gasirea unei noi forme a legaturii;
◊ daca nivelul
calculat este mai mare decât cel tabelar (), ipoteza nula se respinge si se poate spune cu
probabilitatea p=1-
ca estimatorul difera semnificativ de zero,
adica parametrii estimati sunt semnificativi, iar modelul de regresie
este corect din punct de vedere statistic.
Parcurgerea tuturor acestor etape ale verificarii statistice a modelelor de regresie cu una sau mai multe variabile factoriale, precum si ale celor referitoare la verificarea parametrilor modelelor, duc la ideea unei anumite nesigurante privind calitatea rezultatelor obtinute. În urma acestor multiple verificari, bazate pe ipoteza repartitiei normale a variabilelor analizate( rezultativa, factoriala, aleatoare), aceasta nesiguranta dispare si, chiar daca nu exista incertitudini, exista convingerea ca, pentru o probabilitate suficient de mare, concluzia la care se ajunge este cea adevarata.
|