Markkinatutkimus, Menetelmät, Tutkimus, Yleinen

Virhemarginaalista puhuminen – virhe sinänsä?

Teemu Putto
17.11.2021

Mistä syntyy kyselytutkimuksen luotettavuus?

Kun kyselytutkimuksia tehdään, ovat ne sitten markkina-, henkilöstö- tai asiakastutkimuksia, syntyy tuloksiin epätarkkuuksia ja epävarmuustekijöitä.

Voidaan puhua validiteetista ja reliabiteetista, harhasta ja hajonnasta. Yksinkertaistettuna kyse on kuitenkin siitä, miten osuva mittarimme on ja miten paljon mittarimme tuottamiin tuloksiin syntyy hajontaa. Tai vaikka ammuntatermein – onko iskemäkeskipiste kohdallaan, ja onko kasa riittävän pieni.

KUVA 1: Olennaisinta on, että mittari on harhaton – muuten tuloksista ei voi tehdä luotettavia johtopäätöksiä.

Virhemarginaali – mikä se on?

Kyselytutkimuksen tuloksia esiteltäessä saatetaan esittää tulosten virhemarginaali. Virhemarginaali mittaa otannan tuomaa epävarmuutta tuloksiin – eli sitä hintaa, mikä joudutaan maksamaan siitä, että emme haastattele koko kohderyhmää, vaan ainoastaan siitä valittua osajoukkoa.

Kun katsotaan esimerkiksi puoluekannatusmittauksia, on hyvä huomioida, että jokaisella esitetyllä prosenttiosuudella on oma virhemarginaalinsa, joka riippuu prosenttiluvun suuruudesta. Usein yksinkertaisuuden vuoksi virhemarginaali ilmoitetaan kuitenkin maksimina – joko perustuen 50 %:n osuuteen tai yleisemmin siihen prosenttilukuun, jonka virhemarginaali on ilmoitetuissa tuloksissa kaikkein suurin.

Miksi virhemarginaalin käyttö olisi ongelma?

Usein ei ymmärretä tai huomioida sitä, että virhemarginaali on todellisuudessa vain otannan virhemarginaali. Tutkimuksen virhemarginaali on todellisuudessa aivan jotain muuta – suurempaa ja vaikeammin estimoitavaa.

Toisaalta kyselytutkimusten kohdalla virhemarginaalin laskemisen edellytyksetkään eivät yleensä täyty:

  • Virhemarginaalin laskemiseksi kaikilla tutkittavan kohderyhmän jäsenillä olisi oltava yhtä suuri mahdollisuus tulla valituksi tutkimusotokseen
  • Virhemarginaalin laskemisessa oletetaan, että kaikki tutkimusotokseen kutsutut vastaavat kysymyksiin – ja tekevät sen huolellisesti ja ajatuksella

Ja yleisemmällä tasolla – virhemarginaalilla tutkimustulosten luotettavuutta mitattaessa oletetaan, että ei ole mitään muita virhelähteitä kuin otannasta johtuvat lähteet.

Joskus näkee jopa sitä, että virhemarginaali ilmoitetaan asiakas- tai henkilöstötutkimuksessa, jossa tutkimukseen on kutsuttu koko tutkittava kohderyhmä (kaikki asiakkaat, kaikki työntekijät). Mutta tällöinhän otantavirhettä ei edes synny, vaan kaikki poikkeamat ovat otannasta johtumattomia tekijöitä.

Virhemarginaali saatetaan silti laskea olettamalla, että tutkimukseen vastanneet ovat esimerkiksi satunnaisotos koko henkilökunnasta – oletus, joka on paitsi väärä, myös vaarallinen.

Ymmärretäänkö virhemarginaalin käsitettä?

Kysymys ei ole siitä, ovatko kyselytutkimukset luotettavia. Ne ovat, kun ne ovat huolellisesti suunniteltuja ja tarkan prosessin kautta läpivietyjä. Kysymys on vain siitä, kertooko virhemarginaali mitään tutkimustulosten luotettavuudesta.

Usein virhemarginaalin käsitettä ja sen taustaa ei ymmärretä. Mutta on myös tilanteita, missä se ymmärretään, mutta mittaria käytetään silti. Voidaan puhua osin ”sosiaalisesta pakosta” – asiakkaat tai vaikkapa lukijat haluavat tulosten luotettavuudelle jonkin lukuarvoisen mittarin, ja mitään parempaa ei käytännössä ole tarjota.

Mutta voiko virhemarginaali pahimmillaan tuottaa vain valheellisen luotettavuuden tunteen?

Otanta ei ole ainoa eikä edes merkittävin virhelähde

Haaste ei ole pelkästään otannassa tai otantakehikossa (joukko, josta otos oikeasti valitaan). Ja jälkimmäinen voidaan siis jo luokitella ”otannasta johtumattomaksi virheeksi”, jonka suuruutta virhemarginaali ei mittaa.

Kun kyselytutkimuksia tehdään, on muitakin potentiaalisia virhelähteitä runsaasti – ja näiden vaikutus luotettavuuteen voidaan usein arvioida huomattavasti suuremmaksi, mutta ongelma on siinä, että näiden tuottamalle epävarmuudelle on huomattavasti vaikeampi laskea määrällistä mittaria.

Näihin muihin tulosten epävarmuutta lisääviin tekijöihin kuuluvat esimerkiksi seuraavat:

  • Haastateltaviksi kutsutut vastaajat jättävät vastaamatta tutkimukseen (tai osaan siitä)
  • Kysymykset eivät onnistu mittaamaan tutkittavaa asiaa
  • Haastateltavat eivät ymmärrä kysymyksiä – tai tulkitsevat ne eri tavoin
  • Datan käsittelyssä tapahtuu virheitä
  • Aineiston käsittelyssä hyödynnetään painotus- tai paikkausmenetelmiä

Olennaista on se, että päinvastoin kuin otantavirheen kohdalla, näiden tekijöiden vaikutukselle ei ole oikeastaan mitään merkitystä sillä, kuinka suuri otoskoko on. Lisähaastatteluilla näiden tekijöiden tuomaa harhaa ei pystytä poistamaan.

Mitä asialle voi tehdä?

Otantavirheen minimoinnista kannattaa toki aina huolehtia. Otoskoon merkitys tulosten luotettavuudelle on kuitenkin verrattain pieni, kuten alla olevasta kuviosta näkyy.

KUVA 2: Virhemarginaali 50 % prosenttiosuudelle, jos laajaa populaatiota (esim. Suomen väestöä) tutkitaan (maksimivirhemarginaali)

Tutkimuksen otoskokoa mietittäessä tutkimuksen luotettavuus kokonaistasolla harvoin onkaan avainasemassa, vaan otoskoko määräytyy yleensä sen mukaan, millaisia osajoukkoja halutaan tarkastella – jolloin kokonaisotoskoko on yleensä huomattavasti suurempi kuin mitä sen tarvitsisi olla, jos olisimme kiinnostuneita vain päätason tuloksista.

Mutta entä otannasta johtumattomat virheet? Mitä niille voi tehdä?

Tähän kohtaan ainoa vastaus on käytännössä – ennaltaehkäistä!

  • Ole huolellinen kysymyslomakkeesi kanssa.
    • Varmista, että kysymyksesi mittaavat oikeita asioita
    • Varmista, että kysymyksesi ovat selkeitä ja yksiselitteisiä
  • Ole huolellinen tiedonkeruulähteesi kanssa
    • Varmista, että käyttämäsi internetpaneeli on mahdollisimman edustava ja huolellisesti hallinnoitu
    • Muista, että voit lähtökohtaisesti yleistää tuloksesi vain siihen joukkoon, jota tutkimusotos edustaa.
    • Jos keräät dataa esimerkiksi jakamalla kutsua sosiaalisen median verkostoissa, mieti tarkkaan, ovatko tulokset lainkaan yleistettävissä vastanneiden ulkopuolelle
  • Minimoi vastauskato
    • Tee lomakkeistasi mahdollisimman lyhyitä ja vastaajaystävällisiä.
    • Pyri maksimoimaan vastaamisen aloittaneiden määrää ja minimoimaan vastaamisen keskeyttäneiden määrää
  • Varaa tiedonkeräämiselle riittävästi aikaa
    • Nopeus on harhattomuuden vihollinen. Jos otat mukaan vain nopeimmat vastaajat, voit yleistää tulokset koskemaan vain nopeita vastaajia
  • Siivoa data ennen analysointia
    • Varmista, että voit tunnistaa datastasi huonolaatuiset vastaajat – ylinopeat, läpinaputtelijat ja vastauksissaan selkeästi epäloogiset havainnot.
    • Poista nämä vastaajat datasta, sillä ilman niitä datasta tehtävät johtopäätökset ovat jo lähtökohtaisesti harhaisia.

Yhteenvetona

Et tule saamaan yhtä lukua, joka kertoo siitä kuinka luotettavia tutkimustulokset ovat.

Ja jos haluat silti katsoa virhemarginaalia, suhtaudu siihen suurella varauksella. Tiedosta, että virhemarginaalin luottamustasolle ei ole kyselytutkimuksissa olemassa mitään taianomaista lukua – sitä ei ole 95 % eikä sitä ole mikään muukaan. Ja muista aina, että virhemarginaali kertoo luotettavuudesta huomattavasti vähemmän kuin mitä se jättää kertomatta.

Siksi – keskity enemmän ennaltaehkäisemään virheitä kuin mittaamaan niiden suuruutta! Kuten muussakin tutkimuksessa, pelkästään mittaamalla tapahtunutta olet aina askeleen jäljessä.