Tiedon visualisointi on mitä erinomaisin tapa havainnollistaa asioita.

Miljoonan rivin Excel harvoin kertoo kenellekäään yhtään mitään.

Excelistä loihdittu visualisointi vastaavasti voi kertoa vaikka mitä. Power BI:n ansiosta kuka tahansa aiheesta kiinnostunut voi rakentaa datasta upeita visualisointeja. Harrastelija-analyytikoissa (johon myös itse lukeudun) piilee kuitenkin omat riskinsä.

Datan pöyhimistä ei kannata kuitenkaan kenenkään lopettaa. Kunhan pitää mielessään seuraavat perusasiat.

Kiinnostava havainto vai virhe datassa?

Ei voi pitää paikkaansa.

Tämä on usein ensimmäinen ajatus, kun olen aikani pyöritellyt tekemääni visualisointia. Välillä luulen löytäneeni jotain mielenkiintoista. Yleensä kyseessä kuitenkin on virhe aineistossani.

Älä silti surkuttele kun et löytänytkään mitään merkittävää. Virheiden löytäminen datasta on arvokasta ja visualisointi on erinomainen keino löytää näitä virheitä.

Virheellisen datan pohjalta tehdyt päätökset voivat johtaa katastrofiin.

Kirjoitin aiemmin jutun Suomen autokannasta. Visualisointien outouksien penkominen paljasti nopeasti aineistosta seuraavat erikoisuudet.

  • Erikoisen suuri joukko autoja oli 114 vuotta vanhoja
  • Joillain autoilla oli ajettu negatiivinen määrä kilometrejä
  • Alle 2v vanhoilla autoilla oli ajettu keskimäärin 120 000 km vuodessa
  • Osalla autoista oli ajettu kymmeniä miljoonia kilometreja

Mikään näistä ei tietenkään pitänyt paikkaansa, vaan johtuivat erilaisista virheistä sekä aineistossa että tavassa miten olin sitä tulkinnut.

Moka visualisoinneissa tai laskennassa?

Vaikka olet varma että datasi on kunnossa, et ole vielä kuivilla. Lukuisia kertoja mielenkiintoisille tai sekopäisille luvuille on löytynyt selitys yhdestä ja samasta paikasta. Nimittäin visualisoinnin arvokentän (Values) laskennasta.

measures.png

Uskomattoman suuret luvut johtuvat usein siitä että visualisonnissa käytetään arvoina summaa (sum), kun pitäisi käyttää lukumäärää (count). Pahimmassa tilanteessa väärä valinta antaa mittaluokaltaan oikeankaltaisia lukuja, mutta vääriä. Itse tarkistan jokaisesta visualisoinnista, että laskukaava on varmasti se minkä sen haluankin olevan.

Vielä hankalammaksi menee, mikäli olet tehnyt omia laskettuja sarakkeita (calculated columns) tai mittareita (measurements). Niiden oikeellisuus on syytä tarkistaa huolella, ennen kuin menee löydöksiään esittelemään johtoryhmälle.

Ammattilaisille kuvaamani kaltaisia virheitä sattuu harvemmin. Mutta aloittelijoiden on syytä olla tarkkana.

Aito analysointi vs. omien teorioiden pönkittäminen

Jos haluat kovasti jotain, Excelit saa kyllä pyöriteltyä tukemaan hankintaa.

Monille tuttu tilanne. Töistä tai kotoa. Ensin tunnetasolla päätetään mitä halutaan. Sitten tehdään valtava Excel, jolla jo tehty päätös perustellaan itselle ja ympäröiville ihmisille. Power BI:n kanssa pitää olla varovainen, ettei sorru samaan.

Tällaisesta kevyestä manipuloinnista hyvä esimerkki on hieman kieli poskella tekemäni kirjoitus opiskelujen vaikutuksesta tuloihin. Kirjoituksen tarkoitus oli demota Power BI:n mainiota karttavisualisointia. Aineistona käytin postinumerokohtaista dataa asukkaiden koulutusasteista ja tuloista.

Ideana oli selvittää korreloivatko nämä kaksi tekijää. Postinumeron keskitulot on selkeä vertailtava numero, toisin kuin koulutustaso. Ensimmäiseksi pitikin koulututasolle määritellä olemassa olevan tiedon pohjalta joku vertailtava indeksi. Vedin hihasta seuraavanlaisen laskentakaavan:

Koulutusindexi = (Perusasteen suorittaneet + Ammatillisen tutkinnon suorittaneet * 3 + Alemman korkeakoulututkinnon suorittaneet * 6 + Ylemmän korkeakoulututkinnon suorittaneet * 9) / 18 vuotta täyttäneet yhteensä

Eli perusasteesta saa 3 pistettä, alemmasta korkeakoulututkinnosta 6 pistettä ja ylemmästä korkeakoulututkinnosta 9 pistettä. Näitä painoarvoja muokkaamalla voi koulutuksen vaikutusta korostaa sopivaksi katsomallaan tavalla. Tällä on merkittävä vaikutus lopputulokseen.

Myös visualisointeja voi säätää korostamaan toivottua lopputulosta. Samassa esimerkissä esitin keskitulot kartalla postinumeroittain. Karttavisualisoinnissa voi määritellä käytetyt minimi-, keski- ja maksimiarvot. Allaolevassa kuvassa postinumerot, joissa keskitulot ovat 16000€/v tai alle, näytetään punaisella. Vastaavasti mikäli tulot ovat 28000€/v tai yli, näytetään alue vihreänä.

Näitä raja-arvoja säätämällä visualisointi saadaan näyttämään tarpeen mukaan hyvinkin erilaiselta.

Petkuhuiputusta.

map tulot manipulate.png

Yhteenveto

Avointa ja organisaatioiden sisäistä dataa on saatavilla uskomaton määrä. Henkilöt jotka osaavat analysoida sitä ovat useissa tilanteissa vahvoilla. He pystyvät esittämään faktaa väitteidensä ja ehdotuksiensa tueksi.

Muista kuitenkin että todellisestakin datasta tehtyjen kauniiden visualisointien takana voi olla monta asiaa pielessä. Varsinkin jos analyysin on tehnyt harrastelija. Tai jos esittäjällä on selvä henkilökohtainen agenda, jonka tueksi visualisoinnit on rakennettu.

Mikäli taas rakennat visualisointeja itse, niin

  • opettele haarukoimaan ja poistamaan virheet datasta
  • ole tarkkana mitä arvoja ja valmiita laskentoja missäkin käytät
  • kerro visualisoinnin käyttäjille millä logiikalla omat laskennat on tehty (resurssin käyttöaste, postinumeron koulutustasoa kuvaava indeksi jne)
  • kerro visualisoinnin käyttäjille mikäli visualisoinnista on rajattu osa aineistosta pois

Tiedolla johtamisesta tulee muuten vahingossa (tai tahallaan) tiedolla harhaanjohtamista.