Wiskundemeisjes
Archief voor april 2011
Deze column staat vandaag in de Volkskrant.
Toen ik twee weken geleden over het drie-deuren-probleem schreef, was ik eigenlijk bang dat het verhaal te bekend was en dat de Volkskrant-lezers in koor zouden roepen: “Wisselen natuurlijk!” Voor wie even kwijt is wat het probleem is, een korte herhaling. Een kandidate mag kiezen uit drie deuren, achter één deur staat een auto, achter de twee andere staan geiten. Ze kiest een deur. De presentator, die weet waar de auto staat, opent één van de andere deuren en laat zien dat daar een geit staat. (Merk op dat hij altijd een geit kan tonen, welke deur er ook gekozen is.) Dan biedt hij de kandidate aan dat ze nog mag wisselen naar de andere gesloten deur. Heeft dat zin? Zoals ik hier vorige keer schreef, is het verstandig om te wisselen. De kans dat de auto achter de deur van de eerste keus zit is ⅓ en de kans dat de auto achter de andere dichte deur zit is ⅔.
Veel lezers geloofden hier niets van, ik kreeg een recordaantal emails van lezers die dachten dat beide gesloten deuren een kans van ½ hadden. De krant plaatste een brief waarin zelfs werd beweerd dat de overgebleven deuren elk een kans van ⅔ hadden, wat weer een nieuwe regen van reacties opleverde. En op de twee brieven op de opiniepagina de dag daarna kwam weer een hele reeks mails binnen. Laat ik het daarom nog eens op een andere manier proberen uit te leggen.
Ook al lijken twee dingen hetzelfde, de kansen hoeven niet 50/50 zijn. Een collega van mij demonstreerde dit door me te laten raden wanneer hij jarig is. Ik gokte op 8 oktober en hij antwoordde dat hij op 8 oktober óf 18 augustus jarig is. Wilde ik dan bij mijn eerste gok blijven, of ging ik toch liever voor 18 augustus? In dit geval zal (hopelijk) niemand denken dat de beide data precies dezelfde kans hebben. Zoiets gebeurt ook bij het drie-deuren-probleem.
Eerst nog iets over de verborgen aannames. Elk van de drie deuren heeft aan het begin evenveel kans heeft om de auto te bevatten. Iets subtieler is dat we aannemen dat als de presentator uit twee deuren met geiten kan kiezen, hij er willekeurig één kiest (en bijvoorbeeld niet altijd de dichtstbijzijnde). Onder deze voorwaarden geeft wisselen een twee keer zo grote winkans.

Ik speelde het spel op de site van de New York Times (zie link hieronder) 200 keer: 100 keer met wisselen en 100 keer zonder. Zeer overtuigend resultaat, toch?
Als de kandidate één van de drie deuren kiest, dan heeft ze ⅓ kans op de auto en die kans blijft hetzelfde als ze niet wisselt. Bij wel-wisselen zijn er drie mogelijkheden:
1. Ze kiest geit A, presentator toont geit B, ze wisselt naar de auto.
Ze kiest geit B, presentator toont geit A, ze wisselt naar de auto.
Ze kiest de auto, presentator toont een geit, ze wisselt naar de andere geit.
Ze heeft dus een kans van 2 op 3 om te winnen als ze wisselt.
Wie het nu nog niet gelooft (en ik weet zeker dat er weer mensen tandenknarsend van ergernis achter de krant zitten), kan het eens domweg uitproberen. Verschillende lezers suggereerden om het spel thuis honderd keer na te spelen met een huisgenoot, ondoorzichtige bekers en muntjes. Bij wisselen zul je ongeveer 67 keer winnen, bij niet-wisselen 33 keer. Hoe vaker je speelt, hoe duidelijker de kansverdeling wordt. Voor wie geen huisgenoot (of geduld) heeft: probeer de online-simulatie van de New York Times. Zien is geloven. Eén lezer zag trouwens mogelijkheden om geld te verdienen door tegen overtuigde niet-wisselaars te spelen. Als ik een casino had zou ik dat idee zeker gebruiken.
Deze column staat vandaag in de Volkskrant.
In deze maand van de filosofie gaat het zelden over wiskunde. Vroeger waren veel filosofen wiskundigen (en andersom), maar tegenwoordig lijkt er een strikte scheiding te zijn tussen de vakgebieden. Dat is jammer, want wiskunde kan nog steeds helpen om anders en beter tegen dingen aan te kijken.
Het drie-deuren-probleem is een berucht voorbeeld onder wiskundigen. In een spelshow mag een kandidate kiezen uit drie deuren. Achter één deur staat een prachtige auto, achter de twee andere deuren staan mottige geiten. De kandidate wil graag de auto winnen en wijst één van de deuren aan. De presentator, die precies weet waar de auto staat, opent één van de andere twee deuren en laat zien dat daar een geit staat. De presentator vraagt de kandidate hoe zeker zij is van haar keus. Wil ze misschien nog van deur wisselen? Ze mag nu nog de andere gesloten deur kiezen! Heeft het op dit moment zin om te wisselen?

Stel dat deze situatie niet hypothetisch is. Bijvoorbeeld in de Amerikaanse quiz Let's make a deal.
Bijna iedereen denkt hier hetzelfde: “Natuurlijk maakt het niet uit of ze wisselt. Er zijn nu nog twee deuren en elke deur heeft een kans van 1/2 op de auto.” Intuïtief lijkt volkomen duidelijk dat er geen verschil is tussen die twee deuren. De kandidate zal waarschijnlijk bij haar eerste deur blijven, omdat ze daar in eerste instantie een goed gevoel bij had.
En dat is jammer, want de menselijke intuïtie zit er in dit geval behoorlijk naast. Als de kandidate van deur wisselt heeft ze namelijk 2/3 kans om te winnen. Als ze bij haar eerste deur blijft, is de kans om te winnen maar 1/3. Ze verdubbelt dus haar winkans als ze wisselt.
Toen dit probleem voor het eerst in de krant stond, werd de redactie bedolven onder grote stapels brieven. Lezers, waaronder grappig genoeg diverse wiskundigen, beweerden op hoge toon dat er niets van het antwoord klopte. Maar het klopt echt. De kandidate heeft als ze níet wisselt een kans van 1/3 om te winnen. Ze wint dan alleen als ze gelijk aan het begin die ene deur aanwijst waar de auto achter staat. Als ze wel wisselt, dan wint ze juist als ze oorspronkelijk een deur met een geit had aangewezen. En die kans is 2/3.
Wie het niet gelooft moet het thuis maar eens een paar keer naspelen. Het helpt ook om aan een variant met duizend deuren te denken. Als de presentator na de keuze 998 deuren opent (met een hele kudde geiten erachter), is het een stuk duidelijker dat de kandidate maar beter kan wisselen.
Dit voorbeeld laat zien hoe menselijke intuïtie het mis kan hebben. Wel zo handig om te weten voor filosofen. Een hoogleraar vertelde ooit dat hij dit probleem al jaren bij zijn college statistiek behandelde. Wiskundigen, economen, artsen, juristen, ze hadden het allemaal in eerste instantie fout. Aan het eind van zijn college was altijd iedereen overtuigd van het juiste antwoord. Behalve de juristen, die bleven erover in discussie gaan. Wat dat over hen zegt, is dan weer meer iets voor filosofen dan wiskundigen.
PVV-kamerlid Lilian Helder veroorzaakte vorige week ophef toen ze in de Tweede Kamer probeerde uit te leggen waarom haar partij vindt dat zwaardere straffen nodig zijn. Haar opponent haalde onderzoeken aan naar de effectiviteit van taakstraf ten opzichte van celstraf, en daaruit blijkt: na een taakstraf is de recidive kleiner dan na een celstraf. Helders reactie was tenenkrommend. Hieronder een paar van haar uitspraken, en tegelijk een korte inleiding in statistisch onderzoek.

“Die onderzoeken, ik vind het een beetje appels met peren vergelijken. (…) Iemand die een taakstraf opgelegd heeft gekregen en recidiveert, is wel iemand anders dan die een vrijheidsstraf opgelegd heeft gekregen en recidiveert. Diegene heeft een vrijheidsstraf ondergaan en geen taakstraf.”
Ja. Maar niet alleen in onderzoek naar recidivisten, in alle sociaal-wetenschappelijke statistische onderzoeken worden mensen met elkaar vergeleken, juist mensen die op een bepaald punt verschillen (rokers en niet-rokers, bijvoorbeeld).
Ze zegt ook: “Iemand die een vrijheidsstraf heeft ondergaan, misschien zou die anders gehandeld hebben wanneer die een taakstraf had ondergaan. Dat kunnen we niet meten, want hij heeft geen taakstraf ondergaan, hij heeft een vrijheidsstraf ondergaan.”
Dit is een redenering van het type: we kunnen niet meten of iemand die al dertig jaar lang elke dag een pakje sigaretten rookt óók longkanker gekregen zou hebben als hij dat niet gedaan had. Klopt. Daarom kijkt statistisch onderzoek naar groepen mensen, en niet naar individuen.
Als twee groepen mensen alleen van elkaar verschillen in rookgedrag, en rokers krijgen veel vaker longkanker dan niet-rokers, dan zijn we terecht geneigd die correlatie te aanvaarden, en zelfs te geloven in een oorzakelijk verband. Dat is hoe de oorzaken van ziektes aannemelijk worden gemaakt, hoe effectiviteit van medische behandelingen wordt aangetoond, enzovoorts.
Gelukkig vielen andere Tweede Kamerleden ook van verbazing van hun stoel: “Gelooft mevrouw Helder überhaupt niet in statistisch onderzoek?” Maar dat blijkt niet zo te zijn: “Dat vind ik nou echt appels met koeien vergelijken en iets er met de haren bijtrekken. (…) Persoon A is niet met persoon B te vergelijken. Dat is toch iets heel anders dan meetbare resultaten van succes van een medische weet ik veel wat u allemaal erbij wil gaan halen.” Nou, nee.
Wat Helder niet zegt, maar wat ze hopelijk bedoelt, is dat de rechter die de straf oplegt misschien naar persoonskenmerken, of de sociale situatie, of andere eigenschappen van de verdachte kijkt, en aan de hand daarvan bepaalt welke straf opgelegd wordt. Dan zou het kunnen zijn dat de groep mensen die een taakstraf krijgt anders van samenstelling is (en sowieso al minder vaak recidiveert) dan de groep die voor eenzelfde delict een celstraf krijgt. Maar als Helder reden heeft om te vermoeden dat de onderzoekers daar te weinig rekening mee gehouden hebben, moet ze dáárover praten.
Sharon Gesthuizen (SP) is in ieder geval geschokt: “Ik vind het heel erg verdrietig eigenlijk dat ik op deze manier moet debatteren.”
Ik vind het niet alleen verdrietig, ik vind het zelfs een beetje eng. Als politici statistisch onderzoek zonder goede argumenten de deur uitdoen, blijft alleen het onderbuikgevoel nog over.
Hieronder het filmpje op youtube:
Ype en Willem maakten een grappige fotostrip over deze kwestie.