Testul Mann-Whitney nu este doar un test pentru mediane: diferentele legate de raspândire pot fi importante

Testul Mann-Whitney (sau Wilcoxon-Mann-Whitney) este folosit, uneori, in experimentele clinice pentru a compara eficienta a doua tratamente.

El reprezinta o alternativa la testul t, in cazul in care datele nu au o distributie normala. In timp ce testul t este relevant pentru media populationala, Mann-Whitney este folosit, de regula, pentru medianele populationale. Constatarea nu este adevarata stricto sensu, iar cei ce nu tin cont de acest amendament risca sa analizeze incorect datele.

Utilizarea testului Mann-Whitney

Testul Mann-Whitney este atât un test de localizare, cât si de forma.

Idei principale

Testul Mann-Whitney este utilizat ca alternativa la testul t când datele nu au o distributie normala

Testul poate detecta diferente atât in ceea ce priveste forma si raspândirea, cât si medianele

Deseori, diferentele medianelor populationale sunt insotite de diferente egale ale formei

Cercetatorii trebuie sa descrie si aspectele clinice importante ale datelor, nu sa se limiteze doar la a nota o valoare P

Daca se dau doua esantioane independente, el testeaza domeniul pe care o variabila tinde sa aiba valori mai ridicate decât o alta. Asa cum a aratat Altman, o forma a testului statistic este o estimare a probabilitatii ca o variabila sa fie mai mica decât alta,1 desi aceasta statistica nu este rezultanta mai multor prelucrari statistice. In cazul in care singura diferenta de distributie este o deplasare a localizarii, aceasta poate fi considerata, intr-adevar, drept o diferenta intre mediane. De exemplu, comanda online "help" din Minitab 10.51 stabileste ca testul Mann-Whitney este "un test de clasificare a doua esantioane pentru diferenta dintre doua mediane populationale... Se presupune ca datele sunt esantioane aleatorii independente, din doua populatii care au aceeasi configuratie." Figura 1 ilustreaza doua distributii pentru care este valabila afirmatia anterioara. O distributie este deplasata cu 0,75 unitati la dreapta: medianele difera cu 0,75 unitati, dar forma lor este identica.

Teoretic, in esantioanele mari, testul Mann-Whitney poate detecta diferente de raspândire chiar si atunci când medianele sunt foarte asemanatoare. Dar pentru o astfel de situatie este preferabila o forma alternativa a sa.2 Pe de alta parte, varianta alternativa nu este foarte eficienta daca medianele populationale sunt inegale si nu poate fi aplicata pe scara larga in prelucrarile statistice.

Diferentele dintre medianele populationale sunt insotite frecvent de alte diferente ale raspândirii si formei. Este posibil, de asemenea, ca diferenta medianelor sa nu fie cea mai evidenta sau cea mai importanta diferenta clinica. Este esential sa fie observate si analizate diferentele de distributie. Figura 2 arata un exemplu in care valorile mediane sunt 0,65 si 1,14 unitati. Distributia cu mediana mai mare are si o raspândire mai larga. Raspândirea este configurata clar in figura 3, care arata coloane de esantioane de 25 luate din cele doua distributii. (Valoarea P din testul Mann-Whitney este 0,02.) Daca se presupune ca diferenta este mai degraba o diferenta a medianelor, pot fi ignorate alte informatii importante clinic.


Fig 1 Doua distributii cu o diferenta de mediane, dar fara diferente ale formei si raspândirii

Metode

Am examinat utilizarea testului Mann-Whitney in articolele publicate in BMJ in perioada septembrie 1999 - august 2000. Am cautat pe Internet textele revistei electronice, folosind cuvintele-cheie Wilcoxon, Mann si Whitney. Am identificat cinci articole unde a fost folosit testul Mann-Whitney, dar in care, dupa parerea mea, informatia oferita sugera ca puteau exista diferente de distributie importante, altele decât o diferenta de localizare. Ele sunt descrise pe scurt, mai jos.

Exemple

Grande si colab au studiat impactul locului decesului intr-un camin pentru ingrijiri paliative.3 Autorii au observat o diferenta semnificativa in rândul pacientilor repartizati la spitalizare in camin: "pacientii din grupul de ingrijire spitaliceasca, internati in cadrul sectiei respective, au supravietuit dupa internare o perioada semnificativ mai indelungata fata de cei nespitalizati (16 v opt zile)." Au fost 112 pacienti internati in serviciu (mediana supravietuirii 16 zile, rangul interquartile 5-42,5) si 73 de subiecti neinternati (8,3-18 zile). Constatatea pe care o facem referitor la cele trei seturi de date statistice este ca fiecare grup este de aproximativ doua ori mai numeros fata de al doilea. Aceasta sugereaza ca diferenta dintre cele doua distributii poate sa nu fie doar una de opt zile: diferenta poate fi multiplicativa, si nu aditiva - ceea ce inseamna ca pacientii care au fost internati ar putea supravietui intr-o proportie dubla fata de cei nespitalizati.


Fig 2 Doua distributii cu mediane si forme diferite. Distributia cu mediana mai mare are si o raspândire mai larga

Williams si colab au efectuat un studiu de eficienta pentru accesul liber la supravegherea pentru colonul iritabil.4 Una dintre variabile a constituit-o costul total al ingrijirii secundare, care a fost comparat pentru doua grupuri: cel ce beneficia de acces liber si, respectiv, de vizite de rutina. Costul mediu (DS) a fost 582Ł (807,94Ł) pentru cei 77 de subiecti din grupul cu acces liber si 611Ł (475,47Ł) pentru cei 78 din grupul cu vizite de rutina. Desi media este mai mare in al doilea grup, deviatia standard are o valoare mult mai ridicata in primul, ceea ce inseamna ca valorile inregistrate in cadrul primului grup au variat intre limite foarte largi. Fara informatii suplimentare este greu sa fii sigur, dar pare sa existe o diferenta de distributie intre cele doua grupuri. Alegerea testului Mann-Whitney pentru un asemenea tip de date economice a fost analizata intr-un alt articol.5 Daca aspectul care primeaza ca interes este cel al cheltuielilor, atunci ar fi fost mult mai indicata utilizarea testului t.6 Daca interesul este axat pe distributie, este putin probabil ca numai medianele sa arate adecvat distributiile.


Fig 3 Coloane de esantioane de câte 25, luate din distributiile din figura. Liniile verticale reprezinta medianele, iar casetele rangul interquartilelor

Lux si colab au studiat raspunsurile comitetelor de etica locale.7 Una dintre concluzii a fost ca "numarul necesar de copii complete ale protocoalelor si documentelor... a fost semnificativ mai mic pentru comitetele locale care au utilizat un sistem de urmarire rapid." Cele 44 de comitete din grupul cu urmarire rapida au necesitat o mediana de trei copii (95% percentile 2 si 13), comparativ cu 11 (1 si15) copii pentru cele 55 de comitete din grupul standard. Nu numai ca medianele sunt diferite, dar si distributiile trebuie sa fie la fel. Aproximativ jumatate din comitetele grupului cu acces rapid au solicitat doua sau trei copii, in timp ce aproximativ jumatate din celelalte comitete au cerut 11-15 copii. Diferentele respective, pe care autorii nu le comenteaza, sunt corelate cu forma, dar si cu locatia distributiilor.

Macleod si colab au studiat femeile ce sufereau de cancer de sân din zone bogate si sarace.8 Una dintre concluziile lor a fost ca "intervalul de timp dintre data la care li s-a recomandat un consult de specialitate si vizita la clinica a fost cu o zi mai scurt la femeile din zonele bogate." Mediana (rangul interquartilei) timpului a fost de sase zile (1-13 zile) in zona bogata si de sapte zile (4-20) in zona saraca. Desi medianele difera cu o zi, datele statistice prezentate sugereaza ca datele din zona saraca sunt modificate intr-o masura mai mare, iar diferentele dintre cele doua grupuri pot fi mai accentuate pentru timpul de asteptare mai lung. Ar fi fost utila discutarea acestor aspecte in lucrare.

O observatie similara este chiar mai evidenta din datele dintr-un studiu al durerii in testarea glicemiei.9 A fost utilizata o scala vizuala analoga pentru inregistrarea durerii la nivelul urechii sau al policelui. Autorii semnaleaza ca "mediana scorului durerii era de 2 mm in grupul cu inregistrare la nivelul urechii si de 8,5 mm in cel cu inregistrare la nivelul policelui... diferenta intre mediana scorurilor pentru durere este mica." Desi constatarea este adevarata, coloanele din articol arata ca raspândirea scorurilor in grupul cu policele este mult mai larga decât cea din grupul cu urechea. In particular, minimum trei dintre cei 30 de oameni din grupul cu policele au semnalat un scor care reprezinta cel putin dublul valorii maxime din grupul cu urechea. In general, valorile par mai mari in grupul cu policele. Este o observatie importanta, deoarece pacientii sunt, probabil, mai preocupati de durerea cea mai mare pe care o percep decât de valoarea mediana.

Recomandari

Cercetatorii ar trebui sa aiba in vedere descrierea datelor si sa explice observatiile cele mai semnificative din punct de vedere clinic. Ei vor utiliza testul statistic cel mai relevant pentru ipotezele stabilite si vor descrie observatiile legate de datele care au dus la respingerea unei ipoteze. Asa cum se intâmpla intotdeauna, nu este suficient sa se semnaleze, pur si simplu, o valoare P. In cazul testului Mann-Whitney, diferentele de raspândire pot fi, uneori, la fel de importante clinic ca si cele dintre mediane, iar acestea trebuie sa fie prezentate clar cititorului.

Finantare: Nici una.

Conflict de interese: Nici unul declarat.

Mann-Whitney test is not just a test of medians: differences in spread can be important
BMJ 2001;323:391-3

Statistics Group, Faculty of Science, University of Central Lancashire, Preston PR1 2HE
Anna Hart principal lecturer
ahart@uclan.ac.uk

Bibliografie


1 Altman DGA. Practical statistics for medical research. London: Chapman and Hall, 1991.

2 Sprent P. Data driven statistical methods. London: Chapman and Hall, 1998.

3 Grande GE, Todd CJ, Barclay SIG, Farquhar MC. Does hospital at home for palliative care facilitate death at home? Randomised controlled trial. BMJ 1999;319:1472-5.

4 Williams JG, Cheung WY, Russell IT, Cohen DR, Longo M, Lervy B. Open access follow up for inflammatory bowel disease: pragmatic randomised trial and cost effectiveness study. BMJ 2000;320:544-8.

5 Barber JA, Thompson SG.Open access follow up for inflammatory bowel disease. Would have been better to use t test than Mann-Whitney U test. BMJ 2000;320:1730.

6 Thompson SG, Barber JA. How should cost data in pragmatic randomised trials be analysed? BMJ 2000;320:1197-200.

7 Lux AL, Edwards SW, Osborne JP. Responses of local research ethics committees to a study with approval from a multicentre research ethics committee. BMJ 2000;320:1182-3.

8 Macleod U, Ross S, Twelves C, George WD, Gillis C, Watt GC. Primary and secondary care management of women with early breast cancer from affluent and deprived areas: retrospective review of hospital and general practice records. BMJ 2000;320:1442-5.

9 Carley SD, Libetta C, Flavin B, Butler J, Tong J, Sammy I. An open prospective randomised trial to reduce the pain of blood glucose testing: ear versus thumb. BMJ 2000:321:20.

Rate this article: 
Încă nu sunt voturi
Bibliografie: 
Traducere: 
Dr Rodica Chirculescu
Autor: