Lage statistische power kan onderzoeksresultaten sterk vertekenen

24 november 2017

Lage statistische power in fMRI-onderzoek kan leiden tot zeer vervormde resultaten over de relatie tussen brein en gedrag. Daarnaast is een gevolg van lage statistische power in fMRI-onderzoek dat het niet repliceert. Dit laten klinisch-psycholoog Henk Cremers van de UvA en collega-onderzoekers uit de Verenigde Staten zien aan de hand van een simulatie en vergelijking met empirische data. Hun bevindingen zijn onlangs gepubliceerd in het open access-tijdschrift ‘PLOS ONE’.

Lage statistische power is een bekend probleem, onder meer in het neuroimaging-onderzoek. Zo leiden - bijvoorbeeld in onderzoek naar de neurale basis van gedrag - grote hoeveelheden variabelen en relatief kleine aantallen van observaties vaak tot lage statistische power. ‘Statistische power is de kans dat dat je een effect gaat vinden als dat effect ook echt bestaat. Hoe minder sterk het effect is, hoe groter de sample die je nodig hebt om voldoende statische power te hebben’, vertelt Cremers. Er is nog altijd veel onduidelijkheid over de gevolgen voor de conclusies die getrokken kunnen worden uit onderzoek met lage statistische power. Cremers en collega’s wierpen hun licht hierop en bekeken in welke mate lage statische power relevant is voor de huidige fMRI-literatuur.

Fictieve populatie

De onderzoekers ontwikkelden een simulatie om het verschil te illustreren tussen de correlaties tussen brein en gedrag in een zeer grote steekproef (illustratief voor de hele populatie) tegenover willekeurige kleine steekproeven (illustratief een enkel onderzoek). Cremers: ‘Normaal kijk je in relatief klein onderzoek naar de resultaten van bijvoorbeeld hersenactiviteit in relatie tot bepaald gedrag. Vervolgens verbind je daar generalisaties aan, conclusies die meer in zijn algemeenheid gelden. Wij zijn in ons onderzoek vanuit een ander startpunt vertrokken, vanuit de hypothetische situatie dat je beschikt over fMRI-data voor een hele populatie. We hebben gekeken wat er gebeurt als je een hypothetisch onderzoek gaat doen en maar een kleine sample gebruikt van de totale populatie, vergelijkbaar met hoe dat in werkelijkheid gebeurt.’

Twee scenario’s

Specifiek keken de onderzoekers naar twee mogelijke effecten (scenario’s) die te zien zijn in de hele populatie wat betreft de correlatie tussen hersenen en gedrag. In het eerste scenario gaat het om sterke en lokale effecten: een beperkt aantal hersengebieden vertoont een zeer sterke samenhang met een persoonlijkheidskenmerk. In het tweede scenario is er sprake van verspreide en kleine effecten: heel veel hersengebieden vertonen een zeer zwakke samenhang met een persoonlijkheidskenmerk. ‘Het eerste scenario lijkt vaak te volgen uit onderzoek; het tweede scenario achten wij theoretisch echter waarschijnlijker. We observeerden dat als er in werkelijkheid - in de gehele populatie - sprake was van verspreide, kleine effecten, random samples juist een sterk en lokaal effect aantonen, en daarmee dus een zeer vertekend beeld opleveren ten aanzien van de hele populatie’, aldus Cremers. Dat type resultaten, gebaseerd op een kleine steekproef, bleken bovendien niet repliceerbaar.

De onderzoekers hebben hun bevindingen nader getoetst aan de hand van eenzelfde analyse met data uit het Human Connectome Project, een van de grootste beschikbare databases met informatie over de hersenen en (onder meer) gedrag. Dit liet ook een enorme discrepantie zien: hetzelfde principe trad op bij analyses van een kleine sub-sample uit de grote sample. In werkelijkheid zijn er kleine en verspreide effecten, maar sub-samples laten sterke en lokale effecten zien. Ook trad met de empirische data het replicatieprobleem op. Dit heeft dus gevolgen voor de ideeën die wij hebben over de neurale basis van gedrag. Het is niet een enkel hersengebied dat betrokken is bij persoonlijkheid of psychopathologie, het gaat om heel veel gebieden, die met elkaar in verbinding staan en allemaal een kleine 'bijdrage' leveren.

Alternatieve analyses

Cremers komt met een aantal aanbevelingen: ‘De meest voor de hand liggende en eenvoudigste is dat het belangrijk is om een groot aantal deelnemers te werven voor een onderzoek. Dit is echter - zeker in bijvoorbeeld de klinische psychologie - niet altijd mogelijk.’ Ook wijst hij op het gebruik van een aantal andere statistische analyses die minder gevoelig zijn voor lage statistische power. ‘Denk aan multivariate fMRI-analyses - bijvoorbeeld machine learning en in bepaalde toepassingen ook netwerkanalyses -  zoals ontwikkeld door onder anderen Steven Scholte en Lourens Waldorp van de UvA.’ In vervolgonderzoek wil Cremers zich richten op toepassingen van deze multivariate methoden. Daarnaast zijn er belangrijke ontwikkelingen zoals geautomatiseerde meta-analyses van fMRI-data die onderzoekers kunnen helpen bij bijvoorbeeld het interpreteren van de specificiteit van bevindingen.

Publicatiegegevens

Henk R. Cremers, Tor D. Wager en Tal Yarkoni: ‘The relation between statistical power and inference in fMRI’, in: PLOS ONE (20 november 2017).

Gepubliceerd door  UvA Persvoorlichting