Miksi mun pitää käydä koulua?

Lapseni ovat vasta alakoulussa, mutta päätin valmistella heille aiheesta motivointipuheen. Opiskelemalla enemmän pääsee usein mielekkäämpiin töihin. Vaikkei raha teekkään onnelliseksi, päätin lähestyä aihetta kuitenkin tulojen kautta.

Visualisoidaan postinumerotasolla kartalle asukkaiden keskituloja ja koulutusasteita. Jos sen kautta jälkikasvulle avautuisi paremmin opiskelujen vaikutus tulotasoon.

Aineiston hakeminen

Käytetään lähdedatana tilastokeskuksen mainiota aineistoa. Ensin haetaan asukkaiden käytettävissä olevat rahatulot postinumeroittain Excel-tiedostoon.

Valitaan tilastokeskusen sivulta ”2017 julkaistu aineisto”.

paavo poiminta 1.png

Tämän jälkeen kohdasta ”Asukkaiden käytettävissä olevat rahatulot 2014” valitaan ”Tee poiminta taulukosta”.

paavo poiminta.png

Näin päästään suorittamaan aineistosta varsinainen poiminta. Valitaan:

  • Postinumeroalueeksi kaikki postinumerot
  • Tiedoiksi Asukkaiden keskitulot 2014
  • Tallennusmuodoksi ”Excel (xlsx) (koodi ja teksti sarakkeilla)

Tallennetaan Excel-tiedosto (Jatka-painike).

paavo step 1png.png

 

Seuraavaksi haetaan vastaavalla tapaa tiedot postinumeroitten koulutusasteista (Asukkaiden koulutusaste 2014).  Valitaan:

  • Postinumeroalueeksi kaikki postinumerot
  • Tiedoiksi kaikki tiedot
  • Tallennusmuodoksi ”Excel (xlsx) (koodi ja teksti sarakkeilla)

Tallennetaan Excel-tiedosto (Jatka-painike).

paavo step 2

 

Aineiston lataaminen Power BI:hin

Keskitulot postinumeroittain

Ladataan keskitulotiedot sisältävä Excel Power BI:hin ja avataan kyselyeditori (Query Editor).

paavo load keskitulot

Tehdään nopeasti seuraavat korjaukset ja muotoilut:

  • Poistetaan kolme ylintä riviä jotka sisältävät otsikkotietoja
  • Joidenkin postinumeroiden keskitulo arvona on  ”.” tai ”..”.  Korvataan nämä arvot tyhjällä jotta sarakkeiden arvoja voidaan käyttää laskennassa.
  • Poistetaan turhat sarakkeet, annetaan lopuille kuvaavat nimet
  • Muunnetaan keskitulojen tietotyypiksi fixed decimal number

Karttavisualisointia varten tarvitsemme sarakkeen jossa on postinumero ja kaupunki. Aineiston sarake on muotoa: postinumero kaupunginosa (kaupunki). Erotetetaan kaupungin nimi omaan sarakkeeseensa:

  • Jaetaan sarake kahteen osaan ”(” merkin kohdalta
  • Jaetaan syntynyt sarake kahteen osaan välilyönnin kohdalta

paavo edit keskitulot.png

Nyt meillä on omassa sarakkeessaan kaupungin nimi. Yhdistetään postinumero ja kaupunki omaksi postiosoite -sarakkeekseen. Käytetään Add Column by examples -toimintoa.

  • Valitaan esimerkin sarakkeiksi postinumero ja kaupunki
  • Kirjoitetaan ensimmäiselle riville esimerkiksi ”00100 Helsinki”

paavo edit keskitulot by example.png

Poistetaan muut kuin keskitulot, postiosoite ja postinumero -sarakkeet.

paavo edit keskitulot ready2.png

Koulutusasteet postinumeroittain

Ladataan seuraavaksi koulutustiedot postinumeroittain sisältävä Excel-tiedosto ja tehdään aineistolle vastaavat muokkaukset.

paavo edit koulutus ready.png

Koulutustietoaineistossamme on nyt seuraavat sarakkeet:

  • 18 vuotta täyttäneet yhteensä
  • perusasteen suorittaneet
  • koulutetut yhteensä
  • ylioppilastutkinnon suorittaneet
  • ammatillisen tutkinnon suorittannet
  • alemman korkeakoulututkinnon suorittaneet
  • ylemmän korkeakoulututkinnon suorittaneet
  • postinumero
  • postiosoite

Ladataan aineistot Power BI:hin (Close & Apply) jatkotyöstöä varten.

Aineiston jatkojalostaminen Power BI:ssä

Koulutusindeksi

Tehdään oma sarake joka kuvaa postinumeron asukkaiden koulutustasoa. Nimetään tämä koulutusindeksiksi ja käytetään kaavana:

Koulutusindexi = (Perusasteen suorittaneet + Ammatillisen tutkinnon suorittaneet * 3 + Alemman korkeakoulututkinnon suorittaneet * 6 + Ylemmän korkeakoulututkinnon suorittaneet * 9) / 18 vuotta täyttäneet yhteensä

Indeksi on sitä suurempi mitä korkeammin koulutettuja postinumeron asukkaat keskimäärin ovat.

Koulutusasteiden prosenttiosuudet

Postinumeroalueilla asuu eri määrä ihmisiä joten lukumääriä kiinnostavampaa on eri koulutusasteiden (ammatti, alempi korkeakoulu, ylempi korkeakoulu) prosentiosuudet 18 vuotta täyttäneistä. Lasketaan nämä omiin sarakkeisiinsa.

paavo edit koulutus

Avainlukujen Min, Max ja Avg arvot

Selvitetään visualisointia varten avainlukujen Min, Max ja Avg arvot ja luodaan kullekin avainluvulle näitä arvoja varten oma taulu.

Arvot saa selvitettyä tekemällä kortti-visualisoinnin kustakin avainluvusta ja poimimalla arvoksi vuoronperään Average, Minimum ja Maximum.

paavo avgminmax find out.png

Fiksumpaa olisi tehdä näistä oma Excel, mutta oikaistaan ja laitetaan ne suoraan Power BI:n tauluihin (joita on hankala jälkikäteen editoida).

paavo avgminmax

Tietomallin luonti

Yhdistetään lopuksi keskitulot ja koulutusasteet sisältävät taulut toisiinsa postinumeron avulla.

paavo tietomalli.png

Visualisoinnit

Tehdään visualisointi jossa on vierekkäin kaksi karttaa. Toinen kuvaa tuloja postinumeroittain ja toinen taas koulutusastetta (keksimäni koulutusindeksi).

Ensimmäisen kartan location arvoksi raahataan postiosoite ja Value arvoksi asukkaiden keskitulot (ja siitä keskiarvo).

Kartan värit ovat oletusarvoisesti kamalat joten vaihdetaan värit liukumaan punaisesta keltaisen kautta vihreään.

map tulot.png

Tehdään vastaava visualisointi koulutusasteesta ja nyt meillä on vierekkäin kaksi karttaa. Vasemmanpuoleinen kuvaa postinumeroiden tulotasoja ja oikeanpuoleinen koulutusastetta. Korrelaatio ei ole täydellinen, mutta se on selvästi havaittavissa.

map tulot ja koulutus.png

Tehdään toinen visualisointi jossa käytetään samaa asukkaiden keskituloja kuvaavaa karttaa. Lisätään kartan viereen:

Kortit (Card):

  • Valitun alueen postiosoite (näytetään ensimmäinen)
  • Valitun alueen 18 vuotta täyttäneiden lukumäärä

Mittarit (Gauge):

  • keskiarvo asukkaiden keskituloista
  • keskiarvo ylemmän korkeakoulututkinnon suorittaneiden prosenttiosuuksista
  • keskiarvo alemman korkeakoulututkinnon suorittaneiden prosenttiosuuksista
  • keskiarvo ammattitutkinnon suorittaneiden prosenttiosuuksista
  • keskiarvo koulutusindeksistä

Kuhunkin mittariin asetetaan vielä:

  • min: koko maan min arvo
  • max: koko maan max arvo
  • target: koko maan avg arvo

Näin valitusta alueesta näkee helposti ovatko arvot yli vai alle maan keskiarvon ja miten lähellä min ja max arvoja. Valitusta postinumerosta (90310 Oulu) näkee että tulot ovat reilusti yli maan keskitason, mutta niin on koulutuskin. Hyvä viesti jälkikasvulle!

map oulu.png

Yhteenveto

Power BI:ssa on erinomaiset mahdollisuudet visualisoida asioita karttapohjalle. Postinumeron tarkkuudella karttavisualisoinnin piirtäminen on kuitenkin hidasta. Tämä kannattaa huomioida visualisointia suunniteltaessa.

Tämä kirjoitus on osa laajempaa sarjaa jossa käyn läpi Office 365:n työkaluja. Mistä niissä on kyse ja miten niitä voisi hyödyntää.