Datele neuroimagistice în psihologie sau….ce ne poate învăța un somon mort?
Articol redactat de Andreea Bică
Puterea statistică – răul neintenționat din spatele crizei replicării?
Criza replicării a zdruncinat domeniul psihologiei într-o perioadă în care aceasta își câștiga valoarea științifică. Motivele pentru care o serie de rezultate nu trec testul replicării sunt diverse, și de multe ori conduse de practicile domeniului în sine. Presiunea de a publica un volum mare de studii într-un timp redus, promovarea academică în baza rezultatelor rapide, bias-ul de publicare către rezultatele pozitive (engl. the file drawer problem) fac parte din realitatea multor cercetători. Erorile de culegere a datelor ori folosirea unor procedee statistice neadecvate pot modifica semnificativ direcția acestora. Cu toate acestea, unul dintre cei mai detrimentali factori în progresul psihologiei ca știință ește poate și cel mai ușor de remediat: puterea statistică, înțeleasă în cel mai simplist mod (i.e., mărimea eșantionului).
În mod surprinzător, aceste probleme sunt cu atât mai acute într-unul dintre domeniile de top ale psihologiei – neuroștiințele. Puterea statistică (capacitatea unui design de a detecta un rezultat semnificativ statistic, atunci când acesta există în populatie) a studiilor neuroimagistice este estimată între 8% – 31%, având cel mai mic procent dintre toate ramurile psihologiei (Button et al., 2013; Szucs & Ioannidis, 2017). Un paradox al acestor observații este faptul că factorul de impact al jurnalului corelează negativ cu mărimea efectului (din moment ce studiile neuroimagistice ocupă paginile celor mai titrate jurnale) (Szucs & Ioannidis, 2017b). Desigur, nu putem omite cea mai probabilă cauză a lipsei de putere statistică în neuroștiințe – costurile extensive asociate aparaturii și remunerarea participanților pot ajunge la $1000 per participant. De altfel, cercetătorii par să aibă încredere în rezultatele obținute cu ajutorul scannerelor de rezonanță magnetică (fMRI), în parte datorită fidelității ridicate a rezultatelor. Cu toate acestea, nu putem confunda fidelitatea cu replicabilitatea unui studiu.
Datele estimează că 1 din 10 studii fMRI sunt afectate de erori ale soft-ului de analiză statistică ce ridică rata de fals-pozitiv la 70% (în loc de 5%). Într-o traducere tehnică, pachetele de analiză a datelor neuroimagistice nu realizează automat corecțiile impuse comparațiilor multiple, iar mulți cercetători omit acest pas important (Eklund, Nichols, & Knutsson, 2016). În eșantioanele mici, viciile de procedură sunt și mai nocive. Pe lângă costurile asociate testării unui număr reprezentativ de participanți, cercetătorii nu par să nu aibă o intuiție așa bună atunci când vine vorba despre puterea statistică asociată unui studiu. Aceștia fie supraestimează puterea unui anumit design (89% dintre respondenți), fie subestimează numarul necesar de participanți pentru a obține o anumită putere statistică (95%) (Bakker, Hartgerink, Wicherts, & van der Maas, 2016).
Ce putem învăța…de la un somon mort?
sursă imagine: blogs.scientificamerican.com
Studiului lui Bennett și colegii (2009, nepublicat) este deopotrivă amuzant și critic, fapt ce i-a adus și un cunoscut premiu Ig Nobel. Scopul inițial al studiului era de a determina expresiile emoționale provocate de anumite figuri umane. Procedura uzuală de verificare a condiției scannerului fMRI implică testarea unui balon umplut cu ulei. De această dată, cercetătorii au optat pentru texturi mai apropiate creierului uman, încercând inițial un dovleac și un pui întreg cumpărat. Nemulțumiți de calitatea semnalului, echipa a decis să cumpere un somon atlantic, a cărui structură este similară creierului uman (conținut ridicat de grăsime, piele și cartilaje). Aceștia au introdus somonul în scanner și au rulat experimentul ca într-un trial normal. Ce a urmat avea să schimbe radical metodologia studiilor neuroimagistice.
Aparatul fMRI a detectat activitate cerebrală în creierul peștelui ca răspuns la manipularea experimentală. Latura mai puțin amuzantă a acestui studiu este că până în anul 2010, în jur de 25% – 40% dintre studiile neuroimagistice au folosit exact aceeași metodologie precum Bennett și echipa (2009). Mai specific, analiza datelor neuroimaginstice nu implica în mod necesar corecții statistice pentru comparații multiple. Având multe ipoteze statistice măsurate pe același eșantion de date, există o mare posibilitate ca unul dintre rezultate să fie de fapt un fals-pozitiv (ipotezele au atașată o probabilitate de 5% de a respinge în mod incorect ipoteza de nul; dacă testăm mai multe ipoteze cu același test statistic, probabilitățile de 5% se adună pentru toate ipotezele). Autorii militează pentru folosirea restricțiilor statistice în cazul comparațiilor multiple. Reversul medaliei în acest caz este scăderea drastică a puterii, însă situația poate fi remediată folosind un eșantion potrivit modelului statistic.
Ce rămâne de făcut?
- Power up your study! Realizează de fiecare dată analize a-priori de stabilire a numărului de participanți necesari (vezi Gpower). Estimarea unui eșantion în baza studiilor anterioare sau utilizarea unor formule empirice (engl. rule of thumb) nu sunt suficiente.
- Raportează-te critic la studiile și rezultatele obținute. Mai multe jurnale încurajează o politică de tip Open Science, solicitând publicarea datelor online. Poți verifica pe cont propriu rezultatele spectaculoase.
- Dacă decizi să realizezi o replicare a unui studiu clasic, folosește întotdeauna un eșantion mai mare decât în studiul vizat.
- Noile statistici (engl. new statistics) acordă un interes central mărimii efectului (semnificația statistică nu reflectă toată povestea!).
- Utilizează corecțiile și rigorile statistice ori de câte ori se impune!
Bibliografie
Bakker, M., Hartgerink, C. H. J., Wicherts, J. M., & van der Maas, H. L. J. (2016). Researchers’ Intuitions About Power in Psychological Research. Psychological Science, 27(8), 1069–1077. https://doi.org/10.1177/0956797616647519
Bennett, C. M., Baird, A. A., Miller, M. B., & Wolford, G. L. (n.d.). Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: An argument for multiple comparisons correction. Retrieved from http://prefrontal.org/files/posters/Bennett-Salmon-2009.pdf
Button, K. S., Ioannidis, J. P. A., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S. J., & Munafò, M. R. (2013). Power failure: why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience, 14(5), 365–376. https://doi.org/10.1038/nrn3475
Eklund, A., Nichols, T. E., & Knutsson, H. (2016). Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates. Proceedings of the National Academy of Sciences of the United States of America, 113(28), 7900–7905. https://doi.org/10.1073/pnas.1602413113
Szucs, D., & Ioannidis, J. P. A. (2017). Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature. PLOS Biology, 15(3), e2000797. https://doi.org/10.1371/journal.pbio.2000797