torstai 3. marraskuuta 2016

Faktavahti kiittää: Yle luopui puoluekannatuskyselynsä virhemarginaalin virheellisestä laskutavasta


Kirjoittelen tätä postausta "Kukas kissan hännän nostaa, jollei kissa itse" -hengessä. Ylen uutiset nimittäin noteerasi korjauspyyntöni ja luopui puoluegallupinsa virhemarginaalin virheellisestä, yleisöä harhaan johtaneesta laskutavasta.

Julkaisen 27.10. lähetetyn korjauspyynnön postauksen lopussa. Pyynnöstä käy uskoakseni hyvin ilmi, mistä syystä korjaus oli tarpeen tehdä.

Tänään julkaistun tuoreimman kyselyn raportissa korjaus todettiin näin: "Huom: Syyskuuhun 2016 asti virhemarginaali on ilmoitettu kaikista tutkimukseen osallistuneista. Lokakuusta 2016 lähtien virhemarginaali ilmoitetaan kantansa ilmoittaneista."

Näin virhemarginaalit lokakuun 2016 raportissa sitten ilmoitettiin: "Kannatusarvion virhemarginaalit ovat 95 prosentin luottamustasolla suurimpien puolueiden osalta tällä mittausjaksolla noin ± 2,1 prosenttiyksikköä."

Jostakin minulle tuntemattomasta syystä Yle ei ilmoita virhemarginaaleja puolueittain edes gallup-raportissaan.

Menettely edustaa huonoa julkista palvelua; kansalaisten tulisi totta kai saada tietää virhemarginaalit puolueittain voidakseen arvioida pienempienkin puolueiden kannatuslukuihin liittyvää epävarmuutta.

Laskin virhemarginaalit puolueittain Ylen tuoreimman kyselyn luvuista ja sovelsin tavanomaisia pyöristyssääntöjä, kun kiusasin taskulaskintani:

SDP ± 2,1, Vas. ± 1,5, Kok. ± 2,0, Kesk. ± 2,1, RKP ± 1,0, KD ± 0,9, Vihr. ± 1,8 ja PS ± 1,4 prosenttiyksikköä.

Virhemarginaalit siis vaihtelevat puolueittain ± 0,9 prosenttiyksiköstä ± 2,1 prosenttiyksikköön. En keksi mitään järjellistä syytä siihen, että Yle panttaa näitä tietoja eikä palvele kunnolla yleisöjään.

Kiinnitin korjauspyynnössäni Ylen uutistoimituksen huomiota kahteen muuhunkin virhemarginaalien uutisoinnin ongelmaan.

Toinen näistä ongelmista on se, että Yle uutisoi hyvinkin pieniin osaotoksiin perustuvia tuloksia, mutta ei kerro yleisölle mitään niihin liittyvästä todella suuresta epävarmuudesta.

Osaotosten koot ja osaotoksiin perustuvien tulosten virhemarginaalit pitäisi ilman muuta kertoa. Ellei niitä kerrota, yleisö tulee tosiasiassa harhaan johdetuksi.

En ole tässä asiassa mielipiteineni ihan yksin. Osaotosten koon ja osaotoksiin perustuvien tulosten epävarmuuden ilmoittamista edellyttävät monet surveyn vastuulliset ammattilaiset ja järjestöt.

Yksi näistä järjestöistä on Yhdysvalloissa vaikuttava AAPOR. Meillä osaotosten ongelmaan ovat kiinnittäneet huomiota mm. Turun yliopiston tutkijat Siiri-Maija Heino ja Matti Wiberg (ks. Politiikka 54:1, s. 73–82, 2012).

Toinen ongelma liittyy siihen, että kun kerrotaan kannatuksen muutoksesta edellisestä mittauksesta, jätetään kertomatta muutoksen virhemarginaalista. Se on paljon isompi kuin yksittäisen mittauksen virhemarginaali, koska verrataan keskenään kahta epävarmaa kannatuslukua.

Tuoreimmasta gallupista kertoessaan Yle näytti hehkuttavan kokoomuksen kannatuksen kasvua 1,7 prosenttiyksiköllä 17,1 prosentista 18,8 prosenttiin. Muutoksen olisi kuitenkin pitänyt olla vähintään 3 prosenttiyksikköä, jotta se ei enää olisi mahtunut virhemarginaaliin. Miksi Yle ei tätä yleisöilleen kerro?

Päätoimittaja Atte Jääskeläiselle 27.10. lähetetty korjauspyyntö Pekka Kinnusen 7.10. jutun "SDP kiri keskustan rinnalle – perussuomalaisille valoa kuilun pohjalle" virheestä:

Hei,

Pekka Kinnusen jutussa todetaan, että ”mittauksen virhemarginaali on suurimpien puolueiden osalta noin 1,8 prosenttiyksikköä ylös- tai alaspäin”. Sama ± 1,8 prosenttiyksikköä kerrottiin mittauksen virhemarginaaliksi myös tv-uutisten juttujen (7.10. klo 7.00 ja 20.30) grafiikassa.

Tieto tilastollisesta ± 1,8 prosenttiyksikön virhemarginaalista on virheellinen. Suurimpien puolueiden kohdalla kyselyn tilastollinen virhemarginaali on tosiasiassa paljon isompi, lähes ± 2,4 prosenttiyksikköä.

Jotta Ylen uutisten nettisivuille ei jää virheellistä, lukijoita harhaan johtavaa tietoa puoluekannatuskyselyn ulkoisesta luotettavuudesta, väärä tieto on syytä korjata (JO 20).

Kinnusen jutusta käy ilmi, että Taloustutkimus haastatteli kannatusarviota varten 1941 henkilöä. Puoluekantansa heistä kertoi vain 58,3 prosenttia eli 1132 vastaajaa.

Yleisölle kerrottu ± 1,8 prosenttiyksikön virhemarginaali näyttää lasketun niin, että otoskokona on käytetty lukua 1941 eli haastateltujen koko määrää, vaikka tieto puoluekannasta saatiin vain 1132 vastaajalta.

Kyselyn tulosten yleistettävyyden arvioimiseksi siis oli saatu tiedot vain 1132 vastaajalta, mutta yleistettävyyttä eli kyselyn ulkoista luotettavuutta koskeva tieto virhemarginaalista esitettiin yleisölle kuitenkin ikään kuin tiedot olisi saatu 1941 vastaajalta. Näin ei voi menetellä.

Ottamalla virhemarginaalin laskemista varten mukaan 809 (1941–1132) sellaista haastateltua, joiden puoluekannasta ei ollut mitään tietoa, Yle tuli liioitelleeksi rajusti puoluekannatuskyselyn ulkoista luotettavuutta. Virhemarginaali olisi pitänyt laskea vain saatujen vastausten perusteella.

Virhemarginaalin laskukaava 95 %:n luottamustasolla on muotoa ± 1,96 * √ (p * q ÷ n). Kaavassa p on havaittu prosenttiluku, q on 100 % – p ja n on otoskoko. Keskustan ja sdp:n tapauksessa kaavan olisi pitänyt olla tällainen: ± 1,96 * √ (20,5 * 79,5 ÷ 1132). Tulokseksi tulee ± 2,35 eli pyöristettynä ± 2,4 prosenttiyksikköä.

Kiinnitän tässä korjauspyynnössäni huomiota myös kahteen muuhun virhemarginaaliongelmaan Ylen puoluekannatusuutisissa. Niissä kerrotaan aika ajoin tuloksista, jotka perustuvat erittäin pieniin osaotoksiin. Sellaisissa tuloksissa on hurjan paljon satunnaisotantaan liittyvää epävarmuutta, mutta tästä tosiasiasta Yle ei koskaan yleisöä varoita.

Hilkka Säävälä esimerkiksi kertoi 7.10. jutussaan (klo 7.00), että perussuomalaiset on työttömien parissa ykköspuolue: ”Syyskuun mittauksessa yli viidennes työttömistä kannatti puoluetta. Perussuomalaista työministeriä tiuhaan arvostelevat vasemmistopuolueet jäivät kauas kannatuslukemista.”

Jos työttömiä oli puoluekantansa kertoneiden joukossa samassa suhteessa kuin 18–79-vuotiaiden suomalaisten perusjoukossa, heitä oli noin 60 (Tilastokeskuksen mittaustavalla). 

Jos ajatellaan edelleen, että ”yli viidennes” oli vaikkapa 23 prosenttia, virhemarginaalin kaava näytti tältä: ± 1,96 * √ (23 * 77 ÷ 60). Tulokseksi saatiin, että tilastollinen virhemarginaali oli ± 10,6 prosenttiyksikköä. 

Se oli siis valtavan paljon isompi kuin katsojille kerrottu ± 1,8 prosenttiyksikön virhemarginaali. Jotta Ylen yleisöt eivät tulisi huiputetuiksi, heille pitäisi kertoa osaotosten koot ja muistuttaa heitä osaotoksiin perustuvien tulosten todella suuresta epävarmuudesta.

Ylen puoluekannatusuutisissa ei kerrota koskaan siitäkään, että tarkasteltaessa kannatusten muutoksia edellisestä kyselystä muutosten virhemarginaalit ovat paljon isompia kuin yksittäisen mittauksen virhemarginaalit. Tämä seuraa siitä, että verrataan keskenään kahta lukua, joissa kummassakin on satunnaisotantaan liittyvää epävarmuutta.

Laskin elo- ja syyskuun mittauksista, että esimerkiksi sdp:n tapauksessa kannatusmuutoksen olisi pitänyt olla reilut 3 prosenttiyksikköä, jotta muutos ei olisi enää mahtunut virhemarginaaliin. Nyt kannatuksen muutos oli vain 0,5 prosenttiyksikköä. Niinpä emme tiedä sitä, oliko kyse kannatuksen todellisesta muutoksesta vai pelkästään satunnaisotantaan liittyvästä ilmiöstä.

Ei kommentteja:

Lähetä kommentti