Este Big Data viitorul cercetării psihologice?
Articol redactat de Eduard Gușan
Luând în considerare creșterea continuă a influenței Big Data și importanța datelor psihologice în cadrul acesteia, putem spune că psihologia este acum într-o ipostază de unde poate contribui atât la înțelegerea comportamentelor online, cât și la extinderea testării a propriilor asumptii teoretice. Seturile de date obținute din activitatea online a utilizatorilor pe platforme de socializare (ca Facebook sau Twitter etc.), conțin forme de interacțiune cu alți utilizatori, cu platforma în sine sau conținuturi media. Aceste interacțiuni sunt în esență comportamente, care standardizate și validate pot contribui la cercetarea psihologică (Adjerid & Kelley, 2018).
Seturile largi de date, astfel obținute, pot fi caracterizate prin intermediul a trei dimensiuni: volumul eșantionului (Big n), totalitatea variabilelor accesibile despre participanți (Big v) și velocitatea datelor (Big t) (Borgman, 2016). Platformele digitale, care dispun de instrumente sofisticate de colectare a datelor, pot oferi acces la informațiile miilor sau chiar milioanelor de utilizatori. Seturile de date extrase din platformele online oferă, de asemenea, un număr vast de variabile rezultate din interacțiunea utilizatorilor cu aceste platforme și de abilitatea platformelor de a înregistra comportamentele utilizatorilor cu un grad înalt de precizie. Pe lângă setul divers de date ce poate fi colectat, platformele online înregistrează comportamentul utilizatorilor pe perioade extinse sau din contra în intervale scurte de timp (Kosinski, Matz, Gosling, Popov, & Stillwell, 2015).
Dificultățile utilizării Big Data în cercetarea psihologică
Una din dificultățile asociate cu Big Data este accesibilitatea datelor din rețelele socializare, unde accesul este, asa cum e firesc, fie dificil sau chiar imposibil. O multitudine de date însă pot fi obținute din conținutul public a site-urilor, prin cererea explicită a accesului sau prin răspândirea instrumentelor de colectare a datelor pe alte platforme partenere (Peer, Samat, Brandimarte, & Acquisti, 2015).
O altă dificultate o reprezintă transformarea datelor selectate în caracteristici personale relevante studiului. O posibilitate în acest sens este echivalarea unor comportamente înregistrate pe platformele online cu proprietățile psihometrice tradiționale (Silvia, Kwapil, Walsh, & Myin-Germeys, 2014).
Mărimea vastă a eșantionului, diversitatea variabilelor și colectarea lor continuă pot, de asemenea, rezulta în provocări pentru prelucrarea lor statistică. Interpretarea relațiilor dintre un număr mare de variabile devine problematică datorită capacității limitate a procedeelor statistice tradiționale de a manevra seturi vaste de variabile. Pentru prelucrarea acestor date, psihologii vor fi nevoiți să apeleze la metode din științele computaționale, ca machine learning, ce sunt mai focalizate pe clasificarea datelor și recunoașterea pattern-urilor, fără a avea neapărat o teorie în spate (Domingos, 2012).
Principiile eticii de cercetare bazată pe Big Data sunt încă în proces de dezbatere, iar unii cercetători chiar sugerează ca experimentele pe seturi largi de date pot include persoane care nu cunosc faptul că sunt participanți (Goel, 2017). Chiar dacă utilizatorii oferă consimțământul pentru participare, exista pericolul ca studiul va analiza conținutul interacțiunii cu alți participanți care nu știu de derularea unui studiu.
Variații Big Data
Colectarea – și eventual prelucrarea seturilor vaste de date – poate fi ajustată astfel încât să corespundă cerințelor particulare ale unui studiu. Aceste variații, in modul in care se poate face cercetare cu ajutorul Big Data, pot fi clasificate în felul următor:
- Big n, Little v, Big t – Această variație oferă posibilitatea cercetării unui număr limitat de variabile, extrase din activitatea continuă a unui eșantion vast. Prelucrarea datelor poate fi în acest caz dificilă datorită bias-ului de omitere sau erorilor de măsurare. Un exemplu în acest sens este criteriul de clasificare a comentariilor ca fiind pozitive sau negative (Kramer, Guillory, & Hancock, 2014).
- Little n, Big v, Big t – Această variație este focalizată asupra unor date diversificate și dinamice, colectate de la un eșantion relativ mic de participanți. Wang et al. (2014), de exemplu, a acumulat 53 GB de date de la 48 de participanți cu scopul de a verifica valoarea predictivă a utilizării smartphone-ului asupra performantei academice. Exemplul sugerează dificultatea de a converti utilizarea telefonului cu comportamentele din viața de zi cu zi. O altă dificultatea este de a menține complianța participanților de-a lungul studiului, mai ales că colectarea datelor depinde direct de funcționarea tehnica continua a dispozitivelor.
- Big n, Big v, Little t – In acest tip de cercetare, atenția este concentrată pe variabile și participanți la un anumit moment, fără să fie necesară observația dinamica a acestor date in timp. Un exemplu este analiza textuală, unde comentariile colectate într-o perioadă fixă de timp face posibilă colectarea multor variabile de la un număr vast de utilizatori (Dehghani et al., 2016). Un impediment major il constituie aici filtrarea datelor irelevante și potentialul bias de măsurare.
- Big n, Big v, Big t – Acest tip de cercetare reprezintă potențialul maxim cel poate oferi Big Data cercetării psihologice. Un exemplu este studiul lui Iliev & Smirnova (2016), unde analiza textuală a zeci de mii utilizatori a urmărit modificările de conținut a comentariilor în și înafara perioadei unor evenimente istorice sau modificări sociale.
Deși este evident că cercetările Big Data sunt asociate cu riscuri și provocări unice ce necesită considerații atente, ele deschid noi oportunități pentru cercetarea psihologică.
Bibliografie
Adjerid, I., & Kelley, K. (2018). Big data in psychology: A framework for research advancement. American Psychologist, 73(7), 899-917. https://doi.org/10.1037/amp0000190
Borgman, C. L. (2016). Big data, little data, no data: scholarship in the networked world.
Dehghani, M., Johnson, K., Hoover, J., Sagi, E., Garten, J., Parmar, N. J., … Graham, J. (2016). Purity homophily in social networks. Journal of Experimental Psychology: General, 145(3), 366-375. https://doi.org/10.1037/xge0000139
Domingos, P. (2012). A few useful things to know about machine learning. Communications of the ACM, 55(10), 78. https://doi.org/10.1145/2347736.2347755
Goel, V. (2017, decembrie 20). As Data Overflows Online, Researchers Grapple With Ethics. The New York Times. Preluat în din https://www.nytimes.com/2014/08/13/technology/the-boon-of-online-data-puts-social-science-in-a-quandary.html
Iliev, R., & Smirnova, A. (2016). Revealing Word Order: Using Serial Position in Binomials to Predict Properties of the Speaker. Journal of Psycholinguistic Research, 45(2), 205-235. https://doi.org/10.1007/s10936-014-9341-3
Kosinski, M., Matz, S. C., Gosling, S. D., Popov, V., & Stillwell, D. (2015). Facebook as a research tool for the social sciences: Opportunities, challenges, ethical considerations, and practical guidelines. American Psychologist, 70(6), 543-556. https://doi.org/10.1037/a0039210
Kramer, A. D. I., Guillory, J. E., & Hancock, J. T. (2014). Experimental evidence of massive-scale emotional contagion through social networks. Proceedings of the National Academy of Sciences, 111(24), 8788-8790. https://doi.org/10.1073/pnas.1320040111
Peer, E., Samat, S., Brandimarte, L., & Acquisti, A. (2015). Beyond the Turk: An Empirical Comparison of Alternative Platforms for Online Behavioral Research. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.2594183
Silvia, P. J., Kwapil, T. R., Walsh, M. A., & Myin-Germeys, I. (2014). Planned missing-data designs in experience-sampling research: Monte Carlo simulations of efficient designs for assessing within-person constructs. Behavior Research Methods, 46(1), 41-54. https://doi.org/10.3758/s13428-013-0353-y
Wang, R., Chen, F., Chen, Z., Li, T., Harari, G., Tignor, S., … Campbell, A. T. (2014). StudentLife: assessing mental health, academic performance and behavioral trends of college students using smartphones. În Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing – UbiComp ’14 Adjunct (pp. 3-14). Seattle, Washington: ACM Press. https://doi.org/10.1145/2632048.2632054