Menetelmät, Tiedon visualisointi, Yleinen

Anscomben nelikko ja graafisen tarkastelun tärkeys

Teemu Putto
21.3.2022

Datan analysoinnin ihanuus nykyaikana on sen helppous. Dataa ohjelmistoon, muutama klikkaus ja kas – tuloksia saatiin.

Mutta sama ulottuvuus on myös datan analysoinnin pelottavuus. Ohjelmistot harvemmin ottavat kantaa siihen, ovatko saadut tulokset millään tasolla luotettavia tai mielekkäitä.

Käsitellään sarjassamme ”katsauksia tilastollisen analyysin klassikoihin” tällä kertaa Anscomben nelikko.

Englantilainen tilastotieteilijä Francis Anscombe kehitteli vuonna 1973 aineiston, jonka avulla hän halusi korostaa data-aineistojen visuaalisen tarkastelun kriittisyyttä ennen siirtymistä varsinaiseen tilastolliseen analysointiin. Tätä tarkoitusta varten hän kehitti neljä yhdentoista havainnon aineistoa.

Kun näitä aineistoja tarkastellaan perustunnuslukujen valossa, ne ovat käytännössä identtiset. Keskiarvot, varianssit, Pearsonin korrelaatiokertoimet, lineaariset regressiosuorat – mitkään näistä eivät käytännössä eroa toisistaan aineistojen välillä.

Mutta ovatko aineistot siis luonteeltaan samanlaisia? Tarkastellaanpa niitä graafisesti.

Kaaviossa A on nähtävissä selkeä lineaarinen riippuvuus.

Kaaviossa B on nähtävissä selkeä riippuvuus, mutta se ei ole luonteeltaan lineaarista.

Kaaviossa C meillä on täydellinen lineaarinen riippuvuus – paitsi että meillä on yksi poikkeava havainto y-akselin suhteen.

Ja kaaviossa D meillä ei ole minkäänlaista hajontaa x:n arvojen suhteen – lukuunottamatta yhtä havaintoa, joka seikkailee omissa sfääreissään.

Tämän graafisen tarkastelun jälkeen on selvää, että vain kaavion A esittämään aineistoon saa sellaisenaan käyttää lineaarisia menetelmiä. Toki teknisestihän se on aina mahdollista, ja eri aineistoihin lisättynä lineaarinen regressiosuora näyttäisi seuraavalta:

Jos nyt lähdettäisiin analyysin perusteella tekemään esimerkiksi ennusteita siitä, mihin seuraavaksi kannattaa panostaa ja mitä siitä seuraa, niin kolmessa tapauksessa neljästä johtopäätelmät olisivat pahasti pielessä. Roskaa sisään ja roskaa ulos.

Summa Summarum: klassinen Anscomben nelikko on edelleen hyvä keino alleviivata muutamaa kriittistä ulottuvuutta liittyen aineistojen analysointiin:

  • Älä tee tulkintoja datasta luottaen vain kuvaileviin peruslukuihin.
  • Älä vähättele datan graafisen tarkastelun merkitystä.
  • Siivoa datasi aina ennen analysointia.
  • Jos käytät lineaarisia lähestymiskulmia, varmistu että ne todellakin ovat aineistoosi käyttökelpoisia.