Indicatii generale Prin formularea unui model matematic explicit, un investigator doreste sa descrie cât de multa variatie din variabila raspuns (de exemplu din durata de supravietuire dupa diagnosticarea bolii pentru un grup de indivizi) poate fi explicata în termenii uneia sau a mai multor variabile predictor "statistic semnificative" cu care este corelata. În acest scop ar putea încerca exprimarea "probabilitatii de supravietuire" pe o durata mai mare decât d ca functie liniara de valorile variabilei (variabilelor) predictor. În cercetarea biologica este des folosita regresia logistica (logit). Iar prelucrarea datelor de supravietuire se face în primul rând cu tehnica Kaplan-Meyer. În aceasta lucrare practica veti învata sa lucrati: a) cu comanda Logistic Regression pentru analizarea legaturii între o variabila continua si una Booleana; b) cu comanda Kaplan-Meier Survival pentru prelucrarea datelor privind "supravietuirea" pacientilor; Softul ce va fi utilizat în lucrarea practica: Excel Epi Info |
Creati un document Word denumit nume_LOGIT.doc cu urmatorul continut:
Comanda Logistic Regression realizeaza asa-numita regresie logistica. În fereastra de comanda, variabila rezultat (Outcome Variable) este variabila dependenta Y, de obicei de tip Boolean, iar celelalte variabile (Other Variables) sunt variabilele independente X. În cazul cel mai simplu - dar si cel mai des întâlnit - avem de-a face cu o singura variabila independenta. Sa luam, ca exemplu, datele din fisierul An2_11_1.xls. În acesta dispuneti de rezultatele obtinute asupra unor soareci bolnavi, în urma aplicarii unei doze de concentratie diferita. Vindecarea este marcata cu valoarea 1 în coloana Event. Sexul soarecilor este înregistrat prin valorile 1 sau 2 în coloana Group Se observa ca "vindecari" apar începând cu concentratia de 20.6%, însa abia de la concentratia 23.4% putem fi "siguri" de vindecare. Ce se poate obtine folosind regresia logistica? Preluati fisierul An2_11_1.xls cu EpiInfo, dupa ce i-ati mai adaugat o înregistrare (corespunzând unei experiente pe care presupunem ca ati facut-o personal). |
Apelati comanda Logistic Regression din grupul Advanced Statistics. Evident, în caseta de dialog a comenzii veti cere ca Outcome Variable sa fie Event, iar pentru Other Variables va limitati la Dose. Rezultatul va fi prezentat (aproximativ) astfel:
Retineti de aici coeficientii, dar si faptul ca ei sunt "validati" de valorile p foarte mici. Asadar formula este suficient de buna pentru "prognozarea" probabilitatii de vindecare în functie de concentratia dozei injectate. Redenumiti nume_LOGISTIC.xls fisierul An2_11_1.xls. Pe singura sa foaie de calcul plasati în celula D1 textul "Prob", în celula D2 formula -26.2133+1.1993*A2 iar în celula E2 formula =D2/(1+D2) Extindeti aceste formule pe coloane, apoi folositi datele din coloanele A si E pentru a crea o diagrama de tipul X-Y. Ar trebui sa obtineti o logistica. |
||||||||||||||||||||||||
|
Creati un document Word denumit nume_SURVIVAL, cu urmatorul continut:
|
Comanda Kaplan-Meier Survival se foloseste pentru obtinerea unor grafice si realizarea unor teste în legatura cu grupuri de subiecti care au fost urmariti într-un studiu clinic. Probabil ca ceea ce intereseaza în primul rând este o comparatie între duratele de supravietuire. Fiecare subiect este înregistrat (luat în considerare) la un anumit moment de timp. Din acel moment (sa zicem ca este data operatiei) si pâna în momentul studiului trece un timp. Unii dintre subiectii aflati în studiu pot sa fie cenzurati, ceea ce înseamna ca pentru acei subiecti avem observatii incomplete despre durata de supravietuire. Pentru reprezentarea datelor de supravietuire, datorita cenzurarii, va trebui sa folosim doua variabile: o variabila ale carei valori sunt duratele de supravietuire (Time Variable), o alta variabila, binara, ale carei valori indica fie cenzurarea, fie necenzurarea (Censored Variable). De mentionat ca este necesara precizarea valorii care indica necenzurarea (Value for Uncensored) precum si a unitatii de timp folosite (Time Unit). De obicei suntem interesati în compararea eficacitatii a doua tratamente, din punctul de vedere al duratelor de supravietuire. Este nevoie de înca o variabila, ale carei valori sa specifice grupul caruia îi apartine fiecare observatie (Group Variable). În urma executiei comenzii se poate obtine graficul pentru curbele (functiile) de supravietuire pentru grupuri (Graph Type: Survival Probability) si rezultatele pentru testele care compara cele doua functii de supravietuire. Preluati fisierul An2_11_2.xls, în care veti gasi date referitoare la 199 de pacienti, de ambele sexe, dializati prin doua metode. Identificati cu usurinta data începerii tratamentului în coloana Dateinit si data decesului (daca este cazul) în coloana Datedeath. Adaugati o noua înregistrare, cenzurata (lasând asadar necompletata valoarea în coloana Datedeath), în care valoarea în coloana Dateinit este data d-voastra de nastere, iar în coloana Mode plasati una dintre valorile ce corespund modalitatilor de tratament. |
Salvati forma noua (cu 200 de înregistrari) cu numele nume_DIALIZA.xls. Preluati apoi acest fisier cu EpiInfo, modulul Analysis. Nu exista pacienti "pierduti din vedere". Adaugati înca o coloana, sa o numim Durata, în care sa plasam durata de supravietuire pentru pacienti (exprimata în saptamâni). Pentru cei necenzurati va trebui sa evaluam numarul de zile între data începerii tratamentului si data decesului, iar pentru cei cenzurati numarul de zile între data începerii tratamentului si data curenta (pe care o putem prelua din parametrul SYSTEMDATE al sistemului de operare). Adaugarea noii coloane se va face cu comanda Define din grupul Variables. Dupa care se va folosi comanda Assign pentru a completa valorile. Pentru început asignati variabilei Durata expresia =DAYS(DATEINIT,SYSTEMDATE)/7 care va avea efect asupra tuturor înregistrarilor, cenzurate sau nu. Observati comanda înregistrata în fereastra Program Editor (dreapta-jos). Continuati în aceasta fereastra, inserând prin tastare urmatorul program scurt: IF CENSURE="No" THEN =DAYS(DATEINIT,DATEDEATH)/7 END dupa care Run This Command Dispunem acum de duratele (în saptamâni) necesare pentru utilizarea comenzii Kaplan-Meier Survival din grupul Advanced Statistics Evident, dupa declansarea ei va trebui sa alegem variabilele si valorile dorite, în caseta de dialog a comenzii, ca în figura urmatoare. Observati ca drept variabila de grupare am ales Gender, iar unitatea de timp este, evident, saptamâna. |
|
Diagrama probabilitatilor de supravietuire ar trebui sa fie asemanatoare celei din figura de mai jos. Se poate observa ca exista o diferenta "sensibila" între cele doua curbe, cu impresia ca grupa "femeilor" beneficiaza de o supravietuire mai buna, pe termen lung, decât grupa "barbatilor". |
||||||||||||
|
|||||||||||||
Oare aceasta diferenta este "semnificativa"? Raspunsul poate fi sugerat de datele prezentate în tabelul anexat.
Valoarea p obtinuta prin testul Wilcoxon ar trebui sa ne faca însa destul de rezervati în a sustine afirmatia. Mai degraba ar trebui sa enuntam ca "nu dispunem de suficiente date pentru a afirma .". |
(Ipoteza nula afirma ca nu exista deosebiri între cele doua curbe de supravietuire!) Repetati comanda luând ca variabila de grupare Mode în loc de Gender. Folositi apoi comanda Select din grupul Select/If pentru a selecta doar pacientii de sex masculin si a compara, doar pentru ei, supravietuirea în urma celor doua modalitati de tratament. Preluati graficele (pe care EpiInfo le livreaza sub forma de fisiere de tipul JPG) si comentati-le în fisierul-document Word intitulat nume_COMENT.doc. Nu ar trebui sa lipseasca comentariul privind numarul de observatii de care ar trebui sa dispunem pentru a putea trage concluzii "certe" privind superioritatea unui tratament asupra altuia. În fisierul An2_11_3.xls gasiti urmatoarele date înregistrate pentru nou-nascutii cu greutatea la nastere sub 1 kg: - sexul, în coloana SEX, valori "F" sau "M"; - regiunea geografica de domiciliu a parintilor (5 valori, identificati-le), în coloana REGGEO; - data nasterii, în coloana DATANAST; - decedat, valori "Da" sau "Nu"; - data decesului, în coloana DATADECES (completata daca este cazul). Preluati cu EpiInfo acest fisier si încercati sa raspundeti - plasând raspunsurile în documentul Word nume_INFANT.doc - la urmatoarele întrebari: numarul de decedati (comanda Select); distributia decedatilor pe sexe, pe regiuni geografice (comanda Frequencies); distributia decedatilor pe sexe si pe regiuni geografice (comanda Tables). Creati o noua variabila, DurataVietii, în care plasati durata vietii fiecarui subiect decedat (în zile). Calculati media si mediana acestei noi variabile (comanda Means), apoi mediile pe sexe. Se poate afirma ca durata vietii la subiectii de sex feminin difera de cea a subiectilor de sex masculin? |
|