Miksi mun pitää käydä koulua?
Lapseni ovat vasta alakoulussa, mutta päätin valmistella heille aiheesta motivointipuheen. Opiskelemalla enemmän pääsee usein mielekkäämpiin töihin. Vaikkei raha teekkään onnelliseksi, päätin lähestyä aihetta kuitenkin tulojen kautta.
Visualisoidaan postinumerotasolla kartalle asukkaiden keskituloja ja koulutusasteita. Jos sen kautta jälkikasvulle avautuisi paremmin opiskelujen vaikutus tulotasoon.
Aineiston hakeminen
Käytetään lähdedatana tilastokeskuksen mainiota aineistoa. Ensin haetaan asukkaiden käytettävissä olevat rahatulot postinumeroittain Excel-tiedostoon.
Valitaan tilastokeskusen sivulta ”2017 julkaistu aineisto”.
Tämän jälkeen kohdasta ”Asukkaiden käytettävissä olevat rahatulot 2014” valitaan ”Tee poiminta taulukosta”.
Näin päästään suorittamaan aineistosta varsinainen poiminta. Valitaan:
- Postinumeroalueeksi kaikki postinumerot
- Tiedoiksi Asukkaiden keskitulot 2014
- Tallennusmuodoksi ”Excel (xlsx) (koodi ja teksti sarakkeilla)
Tallennetaan Excel-tiedosto (Jatka-painike).
Seuraavaksi haetaan vastaavalla tapaa tiedot postinumeroitten koulutusasteista (Asukkaiden koulutusaste 2014). Valitaan:
- Postinumeroalueeksi kaikki postinumerot
- Tiedoiksi kaikki tiedot
- Tallennusmuodoksi ”Excel (xlsx) (koodi ja teksti sarakkeilla)
Tallennetaan Excel-tiedosto (Jatka-painike).
Aineiston lataaminen Power BI:hin
Keskitulot postinumeroittain
Ladataan keskitulotiedot sisältävä Excel Power BI:hin ja avataan kyselyeditori (Query Editor).
Tehdään nopeasti seuraavat korjaukset ja muotoilut:
- Poistetaan kolme ylintä riviä jotka sisältävät otsikkotietoja
- Joidenkin postinumeroiden keskitulo arvona on ”.” tai ”..”. Korvataan nämä arvot tyhjällä jotta sarakkeiden arvoja voidaan käyttää laskennassa.
- Poistetaan turhat sarakkeet, annetaan lopuille kuvaavat nimet
- Muunnetaan keskitulojen tietotyypiksi fixed decimal number
Karttavisualisointia varten tarvitsemme sarakkeen jossa on postinumero ja kaupunki. Aineiston sarake on muotoa: postinumero kaupunginosa (kaupunki). Erotetetaan kaupungin nimi omaan sarakkeeseensa:
- Jaetaan sarake kahteen osaan ”(” merkin kohdalta
- Jaetaan syntynyt sarake kahteen osaan välilyönnin kohdalta
Nyt meillä on omassa sarakkeessaan kaupungin nimi. Yhdistetään postinumero ja kaupunki omaksi postiosoite -sarakkeekseen. Käytetään Add Column by examples -toimintoa.
- Valitaan esimerkin sarakkeiksi postinumero ja kaupunki
- Kirjoitetaan ensimmäiselle riville esimerkiksi ”00100 Helsinki”
Poistetaan muut kuin keskitulot, postiosoite ja postinumero -sarakkeet.
Koulutusasteet postinumeroittain
Ladataan seuraavaksi koulutustiedot postinumeroittain sisältävä Excel-tiedosto ja tehdään aineistolle vastaavat muokkaukset.
Koulutustietoaineistossamme on nyt seuraavat sarakkeet:
- 18 vuotta täyttäneet yhteensä
- perusasteen suorittaneet
- koulutetut yhteensä
- ylioppilastutkinnon suorittaneet
- ammatillisen tutkinnon suorittannet
- alemman korkeakoulututkinnon suorittaneet
- ylemmän korkeakoulututkinnon suorittaneet
- postinumero
- postiosoite
Ladataan aineistot Power BI:hin (Close & Apply) jatkotyöstöä varten.
Aineiston jatkojalostaminen Power BI:ssä
Koulutusindeksi
Tehdään oma sarake joka kuvaa postinumeron asukkaiden koulutustasoa. Nimetään tämä koulutusindeksiksi ja käytetään kaavana:
Koulutusindexi = (Perusasteen suorittaneet + Ammatillisen tutkinnon suorittaneet * 3 + Alemman korkeakoulututkinnon suorittaneet * 6 + Ylemmän korkeakoulututkinnon suorittaneet * 9) / 18 vuotta täyttäneet yhteensä
Indeksi on sitä suurempi mitä korkeammin koulutettuja postinumeron asukkaat keskimäärin ovat.
Koulutusasteiden prosenttiosuudet
Postinumeroalueilla asuu eri määrä ihmisiä joten lukumääriä kiinnostavampaa on eri koulutusasteiden (ammatti, alempi korkeakoulu, ylempi korkeakoulu) prosentiosuudet 18 vuotta täyttäneistä. Lasketaan nämä omiin sarakkeisiinsa.
Avainlukujen Min, Max ja Avg arvot
Selvitetään visualisointia varten avainlukujen Min, Max ja Avg arvot ja luodaan kullekin avainluvulle näitä arvoja varten oma taulu.
Arvot saa selvitettyä tekemällä kortti-visualisoinnin kustakin avainluvusta ja poimimalla arvoksi vuoronperään Average, Minimum ja Maximum.
Fiksumpaa olisi tehdä näistä oma Excel, mutta oikaistaan ja laitetaan ne suoraan Power BI:n tauluihin (joita on hankala jälkikäteen editoida).
Tietomallin luonti
Yhdistetään lopuksi keskitulot ja koulutusasteet sisältävät taulut toisiinsa postinumeron avulla.
Visualisoinnit
Tehdään visualisointi jossa on vierekkäin kaksi karttaa. Toinen kuvaa tuloja postinumeroittain ja toinen taas koulutusastetta (keksimäni koulutusindeksi).
Ensimmäisen kartan location arvoksi raahataan postiosoite ja Value arvoksi asukkaiden keskitulot (ja siitä keskiarvo).
Kartan värit ovat oletusarvoisesti kamalat joten vaihdetaan värit liukumaan punaisesta keltaisen kautta vihreään.
Tehdään vastaava visualisointi koulutusasteesta ja nyt meillä on vierekkäin kaksi karttaa. Vasemmanpuoleinen kuvaa postinumeroiden tulotasoja ja oikeanpuoleinen koulutusastetta. Korrelaatio ei ole täydellinen, mutta se on selvästi havaittavissa.
Tehdään toinen visualisointi jossa käytetään samaa asukkaiden keskituloja kuvaavaa karttaa. Lisätään kartan viereen:
Kortit (Card):
- Valitun alueen postiosoite (näytetään ensimmäinen)
- Valitun alueen 18 vuotta täyttäneiden lukumäärä
Mittarit (Gauge):
- keskiarvo asukkaiden keskituloista
- keskiarvo ylemmän korkeakoulututkinnon suorittaneiden prosenttiosuuksista
- keskiarvo alemman korkeakoulututkinnon suorittaneiden prosenttiosuuksista
- keskiarvo ammattitutkinnon suorittaneiden prosenttiosuuksista
- keskiarvo koulutusindeksistä
Kuhunkin mittariin asetetaan vielä:
- min: koko maan min arvo
- max: koko maan max arvo
- target: koko maan avg arvo
Näin valitusta alueesta näkee helposti ovatko arvot yli vai alle maan keskiarvon ja miten lähellä min ja max arvoja. Valitusta postinumerosta (90310 Oulu) näkee että tulot ovat reilusti yli maan keskitason, mutta niin on koulutuskin. Hyvä viesti jälkikasvulle!
Yhteenveto
Power BI:ssa on erinomaiset mahdollisuudet visualisoida asioita karttapohjalle. Postinumeron tarkkuudella karttavisualisoinnin piirtäminen on kuitenkin hidasta. Tämä kannattaa huomioida visualisointia suunniteltaessa.
Tämä kirjoitus on osa laajempaa sarjaa jossa käyn läpi Office 365:n työkaluja. Mistä niissä on kyse ja miten niitä voisi hyödyntää.
Tikkasen Vesan Power BI Query Generatorilla olisi voinut hypätä tuon Tilastokeskuksen Excelin generoinnin yli. https://stat.qumio.com/
TykkääTykkää
Totta! Tuo Vesan toteuttama palvelu on aivan huippu.
TykkääTykkää