Hur man (inte) ljuger med statistik

Såhär i valtider tar jag upp några mer & mindre kända risker (eller möjligheter) för feltolkning av statistik. När man tänker på hur stort tolkningsutrymmet är, och hur ofta det blir fel, är det märkligt att det inte finns journalistkörkort… Fyll gärna på med det jag glömt i kommentarerna!

  • > 90% = 100% = alla
    Det här är en förbisedd klassiker i statistisk klantighet. I värsta fall kan gränsen gå vid > 50 %, men den magiska tröskeln för "alla" ligger oftare kring 90 %. Botas lättast genom att tänka sig in i att själv vara en av de där 10 % som inte räknas.
  • Ökning i procent
    Risken för missförstånd - som kan vara avsiktliga – är som högst när det som har ökat/minskat i sin tur mäts i procent. Då kan man också röra till det med procentenheter, vilket lätt faller bort, så är det nästan omöjligt att rädda såna siffror genom medias visklek.
    Exempelvis har SL just en reklam där deras punktlighet sägs ha ökat med 10% under en 5-årsperiod. Det kan betyda att år 2004 gick 3% av turerna i tid, nu är det 3,3%. Eller 90% år 2004, och 99% (men inte alla!) idag. Så det vet man inte, vilket tror du?
  • Applicera statistiska egenskaper på individer
    En genomsnittlig skillnad mellan grupper tolkas som en garanterad (minsta) skillnad mellan individer i grupper, eller med hjälp av "> 90%-regeln" ovan som att alla visar denna skillnad och att undantagen - hur många eller få de är - inte räknas. Mellan vissa saker finns det genomsnittsskillnader som är högst relevanta; en 33 cl ölburk har i genomsnitt 67% av längden hos en 50 cl burk, och denna skillnad kan betraktas som absolut även om det finns en standardavvikelse någonstans i storleken 1%, dvs. två burkar av resp. typ har denna längdskillnad och skillnaden avviker i genomsnitt med 1% för ett par. Det här låter kanske som hårklyverier, men: i vissa andra sammanhang, där diskussioner om könsskillnader i förmåga är ett av de viktigaste exemplen, brukar standardavvikelsen vara enorm, ofta över 100% vilket innebär att - och det här har du nog hört förut - skillnaden mellan två individer är större (i genomsnitt) än skillnaden mellan grupperna. Ändå behandlar vi gärna könen som stora och lilla colaburken.
  • Missförstådd referenskategori
    Säg att risken för kraftiga diarée är 30-50% med ett visst stolpiller. Är det då vid varje toalettbesök, eller att det händer 30-50% av patienterna någon gång? Det är ganska stor skillnad. Och att tala om risk i procent säger inte vilket, och är som gjort för feltolkning av din favoritkvällstidning.
  • Samvariation ≠ kausalitet
    Det här går väl ingen på nuförtiden, eller? Antalet pirater minskar, och jordens medeltemperatur går upp. Där har vi förklaringen? Näää, bara två saker som händer samtidigt, med en annan, bakomliggande faktor eller av en slump. Detta är statistikens gräns, där det behövs förklaringsmodeller för att kunna säga något.
  • Extrapolering
    På 60-talet såg man framför sig hur jordens befolkning skulle öka tills det inte fanns sittplatser kvar. Och ökade gjorde den, men inte alls så mycket, av både väntade och ganska oförutsebara orsaker. Och det är just det som är problemet, när linjen ser ut att fortsätta i en viss riktning åt höger, då vet man inte.
Attribution Noncommercial Share Alike
This text, Hur man (inte) ljuger med statistik, by Arvid Rudling is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Sweden license.