Wetenschap blog: inzichtvooruitzicht: Wat journalisten blijkbaar nog moeten leren: statistiek in de wetenschap

Het geheim van het winnen van Nobelprijzen? Drink melk en eet chocolade!

Althans, dat moeten we helaas geloven als we sommige kranten lezen. Vorig jaar kopte kranten over de hele wereld namelijk al met zo'n titel over chocolade (bijvoorbeeld in de Verenigde Staten, Frankrijk en ook in Nederland). Afgelopen week hetzelfde verhaal over melk en ook hier konden journalisten wereldwijd niet vanaf blijven (zoals in India, Zwitserland en België). Nu vind ik het een goede zaak dat wetenschappelijke ontdekkingen via de media bij de rest van de maatschappij terecht komen, maar dan moet het verhaal wel kloppen. Als journalist moet je de verantwoordelijkheid hebben om de waarheid te vertellen, zeker als het om wetenschap gaat. Pas na de waarheid kun je er een sensationele of grappige draai aan geven om het aantrekkelijk te maken om te lezen. Dus niet andersom.

Wat is er namelijk echt aan de hand? Beide verhalen zijn wel de wereld in gebracht door echte wetenschappers. Hun 'onderzoeken' zijn ook echt gepubliceerd in echte wetenschappelijke tijdschriften. Het artikeltje over chocolade stond zelf in de New England Journal of Medicine (NEJM): een van de meest invloedrijke medisch-wetenschappelijke tijdschiften. In beide gevallen was de bedoeling van wetenschappers echter om een waarschuwing te geven over het blind vertrouwen van statistiek. Ze wilden een discussie los krijgen in de wetenschappelijke wereld over dit belangrijke probleem. Hoe? Door een belachelijk onderzoek te publiceren, wat statistisch geweldig klopt, maar verder totaal niet logisch is.

De discussie over dit probleem kwam goed op gang onder wetenschappers. Jammer genoeg sloegen veel journalisten de plank volledig mis door juist de onzinnige onderzoeksresultaten de wereld in te sturen, in plaats van de echte boodschap. En wat helemaal jammer is, is dat het zeker niet een uitzondering is dat (wetenschaps)journalisten een onderzoek verkeerd naar buiten brengen of de beperkingen van de onderzoeken er niet bij vertellen. Als bonus heeft de wetenschappelijke wereld dus ook weer wat geleerd over de lakse houding van journalisten naar het checken van hun bronnen en de blinde 'sensatielust' van de media. Hopelijk hebben de journalisten ook iets bijgeleerd over statistiek.

De 'onderzoeken'

Arts-onderzoeker Franz Messerli leidt zijn chocolade-artikel (helaas niet Open Access) in met het citeren van eerdere onderzoeken over flavanolen, gezonde stoffen van de groep flavonoïden. Van deze flavanolen, dat onder andere veel in chocolade zit, is eerder al gevonden dat het goed is voor je congnitieve vaardigheden (zoals denkvermogen en geheugen). Om te zien of dat op populatie-niveau ook te merken is, wilde Messerli onderzoeken of de bevolking van landen waar veel chocolade gegeten ook slimmer is. Omdat er geen informatie te vinden is over bijvoorbeeld het gemiddelde IQ van een land, besloot hij voor de grap maar eens op Wikipedia te kijken naar het aantal Nobelprijzen per land. Vervolgens zette hij de chocolade-consumptie van de landen (gevonden op de websites van chocoladefabriekanten) uit tegenover de aantal Nobelprijzen. Wat blijkt: er is een zeer sterk statistisch verband (correlatie) tussen de twee! Dus statistisch gezien kun je concluderen dat je met de chocolade-consumptie van een land het aantal Nobelprijzen van dat land kunt voorspellen, en andersom.

Als luchtige reactie op dit 'onderzoek' van Messerli, beschrijven neurologen Sarah Linthwaite en Geraint Fuller hetzelfde voor melk (ook niet Open Access helaas). Ook tussen melk-consumptie en aantal Nobelprijzen blijkt een sterk statistisch verband te bestaan, hoewel iets minder sterk dan met chocolade. Als biologische verklaring geven deze onderzoekers aan dat melk veel vitamine D bevat, wat ook een erg goed is voor de hersenen.

Correlatie? Oorzaak? Toeval?

Met een beetje kritisch nadenken zal je tot de conclusie moeten komen dat hier meer achter moet zitten. De ‘onderzoeken’ klinken vergezocht en mager, dus als journalist zou je toch nog even verder moeten lezen. Wat beide groepen onderzoekers duidelijk in hun artikelen aangeven is dat een statistisch verband (correlatie) nog niet een oorzakelijk verband is. Wat ze hiermee willen zeggen is dat in realiteit zo'n correlatie het volgende kan betekenen:

Melk/chocolade-consumptie in een land verhoogt de kans op een Nobelprijs
Het winnen van een Nobelprijs verhoogt de melk/chocolade-consumptie in dat land
Iets ander beïnvloed zowel de kans op een Nobelprijs als de melk/chocolade-consumptie van een land
Het is volstrekt toeval dat er een correlatie gevonden wordt

Optie 1 wordt in de artikelen dus als grap besproken als betekenis van het statistische verband. Als we hier serieus op in gaan, dan is al duidelijk dat Nobelprijzen niet een goede maat zijn voor congitieve vaardigheden van een land. Gemiddeld IQ was bijvoorbeeld al beter geweest, maar het is hoe dan ook geen goed idee om een land als eenheid te nemen. Zeker omdat Wikipedia zowel het geboorteland, als het land van verblijf, als het land waar het onderzoek werd gedaan telt, waardoor rijkere onderzoekslanden veel vaker zullen voorkomen. Daarnaast zijn Wikipedia en chocoladefabrikanten niet echt geaccepteerde wetenschappelijke bronnen.

Als (biologische) oorzaak van de correlatie noemen de onderzoekers dus flavanolen in chocola en vitamine D in melk en het positieve effect van die stoffen op cognitieve vaardigheden. Als je dit had willen aantonen als wetenschapper, dan had je op z'n minst direct de melk/chocolade-consumptie van een Nobelprijswinnaar moeten onderzoeken. Bovendien, flavanolen komen ook heel veel voor in groene thee. Vitamine D zit verder heel veel in vis en schaaldieren, tofu en paddestoelen. Japan en China hebben de kans op het winnen van een Nobel prijs dus stevig in hun dieet zitten, maar toch staan ze in beide onderzoeken helemaal onderaan de lijst. Deze 'biologische oorzaak' klopt dus ook van geen kant.

China en Japan zouden een prima dieet hebben om Nobelprijzen te winnen, maar doen dat toch weinig.

Optie 2 zou betekenen dat Nobelprijzen winnen door het hele land wordt gevierd door het drinken van melk en het eten van chocolade; en dat jarenlang. Ook dit is niet erg waarschijnlijk.

Wat nog zou kunnen kloppen is optie 3: er is iets anders dat melk/concolade consumptie én het aantal Nobelprijzen beïnvloed. Daar wordt in beide artikelen dan ook op gewezen. Chocolade en melk worden nou eenmaal veel gegeten en gedronken ik de rijkere, Westerse landen. Deze landen hebben vaak een beter onderwijssysteem en investeren meer geld in wetenschappelijk onderzoek. Dat zou de verdeling Nobelprijzen veel beter verklaren dan de consumptie chocolade en melk.

Als laatste kan het natuurlijk nog puur toeval zijn dat deze sterke correlaties worden gevonden: optie 4 dus. Ze noemen echter de zogenaamde correlatiecoëfficient (aangeduid met een “r”): deze is boven de 0,75. Een correlatiecoëfficient kan tussen de -1 en +1 zijn en geeft aan hoe sterk een correlatie is tussen X (chocolade/melk consumptie) en Y (aantal Nobelprijzen). Als het -1 is, dan gedragen X en Y zich volledig tegenovergesteld. Bij 0 is er geen verband tussen de twee en als het +1 is, dan gedragen X en Y zich precies hetzelfde. Dat betekent dus dat “groter dan 0,75” een sterke correlatie is: X en Y gedragen zich dus bijna hetzelfde. Dus, zoals eerder gezegd kun je statistisch concluderen: de melk/chocolade-consumptie van een land kan het aantal Nobelprijzen van dat land voorspellen, en andersom.

De correlatiecoëfficient "r": een statistische maat voor samenhang tussen X en Y.

Beide artikelen noemen ook nog een andere waarde, aangeduid met een “p”. Deze p-waarde is een bijna heilige waarde in de statistiek en geeft eigenlijk aan hoe groot de kans is dat iets puur toeval is. Bij een p-waarde van 1 is de kans 100% dat wat je gevonden hebt toeval is, bij 0 is die kans 0%. Dus als je wilt kijken naar de kans dat een correlatie een echte correlatie is en niet toevallig gevonden wordt, dan kun je deze p-waarde gebruiken. In de wetenschap wordt vaak als regel gebruikt dat zo’n correlatie ‘echt’ is (“significant”), wanneer de p-waarde kleiner is dan 0,05. Dan is de kans dat deze correlatie toch toeval is (en je hypothese toch niet klopt) kleiner dan 5%. Die 5% kans om het toch fout te hebben is een risico dat wetenschappers acceptabel vinden. In beide artikelen wordt een p-waarde genoemd van kleiner dan 0,0001: de kans dat optie 4 klopt is dus kleiner dan 0,01%.

Het lijkt dus erg onwaarschijnlijk dat de gevonden correlaties toeval zijn, maar juist hier schuilt het gevaar! Voor dit gevaar probeerden Messerli, Linthwaite en Fuller dus te waarschuwen. Als voorbeeld hiervan heb ik mijn lichaamsgroei tussen mijn 10e en 18e vergeleken met wat statistieken van het CBS uit dezelfde tijd. De tweede vergelijking die ik deed gaf een al een correlatiecoëfficient van r = 0,970 en een p-waarde van kleiner dan 0,00001! Wat blijkt dus: er is een bijna perfecte correlatie tussen mijn lichaamsgroei tussen mijn 10e en 18e en het totale vruchtbaarheidscijfer (= gemiddeld aantal kinderen per vrouw) van Nederland! De kans dat deze correlatie puur toeval is, is ook nog eens enorm klein. Wat toch duidelijk is, is dat deze correlatie wel puur toeval is; hoe klein de kans daarop statistisch dan ook is. Mijn lichaamsgroei kan op geen enkele manier de aantal kinderen per vrouw beïnvloed hebben (optie 1), of andersom (optie 2). Ook kun je onmogelijk iets aanwijzen dat beide beïnvloed heeft (optie 3). Kortom: het kan statistisch nog wel helemaal kloppen en een heel sterke correlatie zijn, in realiteit hoeft dit niets te betekenen. Puur toeval dus.

Een statistisch bijna perfecte en zeer significante correlatie tussen mijn lichaamslengte en Nederland's vruchtbaarheidscijfer. De statistiek klopt: het verband niet!

Wat moeten we hiervan leren?

Wat de onderzoekers in hun artikelen dus wilden vertellen is dat je moet oppassen met statistische verbanden. Hoe goed en sterk die er ook uit zien, ze hoeven in realiteit niets te betekenen. Dit is tegenwoordig zeker een groot probleem, omdat computers het ons makkelijker maken grote databestanden statistisch met elkaar te vergelijken. Als je maar genoeg dingen met elkaar vergelijkt, kom je vanzelf dingen tegen die geheel toevallig een sterk statistisch verband hebben (zoals mijn lichaamsgroei en Nederland’s vruchtbaarheidscijfer).

De vraag is dan: kunnen we deze berekende correlaties dan nergens voor gebruiken? Je kunt ze inderdaad niet gebruiken om direct conclusies aan te verbinden nee. Maar, zoals Messerli ook in zijn artikel schrijft: je kunt het wel gebruiken als nieuwe hypothese. Oftewel, deze correlaties kunnen je een hint geven wat je verder moet gaan onderzoeken. Je hebt dan dus een aanwijzing welke dingen je in een echt experiment met elkaar zou moeten gaan vergelijken. De sterke statistische correlatie geeft je wat meer zekerheid dat er ook echt iets uit dat experiment gaat komen. Er kan net zo goed alsnog niets uit komen als de correlatie puur toeval blijkt te zijn, maar dit moet je eerst onderzoeken. Als wetenschapper moet je dus altijd uitzoeken of het statistische verband ook echt een oorzakelijk verband betekent. Oftewel, experimenten doen tot je de echte oorzaak hebt gevonden!

Een advies voor (wetenschaps)journalisten: kijk of een wetenschappelijk artikel alleen een statistisch verband noemt of dat het de conclusie is van vervolgonderzoek naar het oorzakelijke verband. Zeker in mijn eigen vakgebied (kankeronderzoek) kom ik zo vaak stukjes tegen in de kranten met de titel “... is kankerverwekkend!” (en ‘...’ lijkt echt alles te kunnen zijn). Als ik het echte onderzoek achter dat stukje bekijk, blijkt het vaak alleen een statistisch verband met een verhoogd risico te zijn: geen vervolgonderzoek. Hierdoor is ‘...’ de ene keer kankerverwekkend en de andere keer gezond. Dit zaait zoveel verwarring dat mensen vervolgens niets meer serieus gaan nemen. De wetenschap als geheel krijgt hierdoor een slechte en ongeloofwaardige naam. Dus journalisten, verdiep je graag een beetje in de echte boodschap van de wetenschappers. Schrijf liever geen stukjes over puur statistische verbanden en als je er toch echt over wil schrijven, zorg dan dat je titel en de inhoud van het artikeltje kloppen met de sterkte van het onderzoek. We rekenen op jullie!