Tutkitaan tällä kertaa Suomen kuntia käyttäen Power BI:tä ja avointa dataa.
Käytetään apuna Vesa Tikkasen Q4OpenData -palvelua, joka on todellinen aarreaitta avoimesta datasta kiinnostuneille. Palvelun avulla voi selata mitä tietoja eri virastojen tarjoama avoin data sisältää. Käyttäjä voi valita häntä kiinnostavat tiedot ja palvelu muodostaa Power Query -kyselyn, jota käyttäen valittu aineisto ilmestyy tietojoukoksi Power BI:hin.
Todella kätevää.
Palvelun avulla pääsee käsiksi Verottajan, Tilastokeskuksen ja Luonnonvarakeskuksen tilastojen lisäksi useampaan ulkomaalaiseen avoimen datan lähteeseen.
Tällä kertaa olemme kiinnostuneita kunnista, joten keskitytään aineistoihin joista löytyy kuntakohtaista tietoa.
Tilastokeskuksen viralliset tilastot
Ensimmäinen tietolähteemme on Tilastokeskuksen alueelliset indikaattorisarjat vuosilta 1987-2013. Aineisto sisältää muun muassa väkiluvun, eläkeläisten, opiskelijoiden ja työttömien määrät kunnittain.
Q4OpenData -palvelun tarjoaman Power Queryn avulla syntyy seuraavanlainen aineisto.
Vuosiluvut ovat aineistoissa omissa sarakkeisaan. Tämä on huono juttu visualisointien kannalta. Onneksi asian voi helposti korjata. Valitaan vuosilukusarakket ja valitaan hiiren oikealla ”Unpivot Only Selected Columns”.
Tehdään lopuksi seuraavat muotoilut:
- Nimetään uudet Attribute ja Value -kentät paremmin (Vuosi ja Arvo).
- Poistetaan turhat sarakkeet
- Muutetaan tietotyypit oikeiksi (Vuosi = päivä ja Arvo = desimaalinumero)
- Osassa alueen nimissä on mukana ruotsinkielinen nimi (tyyliin Espoo – Esbo). Jaetaan Alue -sarake kahtia (Split by Delimeter) ”-” merkin kohdalta ja poistetaan syntynyt uusi sarake joka sisältää mahdollisen ruotsinkielisen nimen
Aineisto näyttää käsittelyn jälkeen paljon yksinkertaisemmalta.
Verohallinnon tilastokanta
Poimitaan verohallinnon tilastokannasta vuoden 2015 verotiedot. Verotiedoissa on valittavana todella kattavasti eri tietoja. Otetaan mukaan verotettava ansiotulo verotuksessa ikäryhmittäin.
Poistetaan turhat sarakkeet, korvataan Summa-sarakkeen tyhjät (null) arvot nollilla sekä korjataan tietotyypit. Nyt aineisto näyttää tältä.
Wikipedian Luettelo Suomen kunnista -sivu
Viimeiseksi tietolähteeksi otetaan Wikipedian Luettelo Suomen kunnista -sivulta löytyvä kuntaluettelo. Web-sivuja voi käyttää Power BI:ssä tietolähteinä (Get data -> Web), mikäli ne vain sisältävät taulukkomuotoista tietoa.
Wikipedian tiedot täydentävät mukavasti muuta aineistoamme.
Tietomalli
Kolme aineistoa pitää vielä liittää toisiinsa jotta ne toimivat yhteen. Siirrytään Relationships -välilehdelle ja valitaan Manage Relationships -toiminto.
Liitetään tilastoaineistojen Alue -sarakkeet yksitellen Wikipedia aineiston Kunta -sarakkeeseen.
Lopputuloksena tietomalli näyttää tältä.
Kaikki on valmista visualisointeja varten.
Visualisoinnit
Tehdään ensin yleisnäkymä Suomen kunnista. Poimitaan tähän mukaan:
- Kunnat joissa on eniten opiskelijoita (pylväskaavio)
- Kunnat joissa on eniten eläkeläisiä (pylväskaavio)
- Kunnat joissa on suurin nuorisotyöttömysaste (pylväskaavio)
- Kartta jossa jokaisesta kunnasta esitetään
- Värillä väestötiheys (as/km2). Harvaan asutut kunnat esitetään punaisella ja tiheään asutut vihreällä.
- Pallon koolla työttömyysaste (%).
Visualisoinnissa esitetään wikipedian ja tilastokeskuksen tietoja. Tilastokeskuksen aineistossa on tiedot usealta vuodelta. Lisätään sivutason suodatin vuosiluvulle, jolloin nähdään ainoastaan tuoreimmat luvut.
Yleiskuva kunnista näyttää tältä.
Seuraavaksi tehdään yksityiskohtaisempi visualisointi yhdestä kunnasta. Poimitaan siihen mukaan seuraavat tiedot:
- Nimi (kortti)
- Perustietoja: maakunta, kunta vai kapupunki, kokonaispinta-ala, väestötiheys ja työttmyysaste (monirivinen kortti)
- Väkiluvun kehitys (viivakaavio)
- Tulojen jakautuminen eri ikäluokkien välillä (pylväskaavio)
- Sukupuolijakauma (räätälöity visualisointi, tehty Infographic Designer -lisäosalla)
- Miten suuri osa asukkaista on korkeakoulutettuja / tutkinnon suorittaneita / opiskelijoita (nauhakaavio).
- Ikäjakauma (piirakkakaavio)
- Asumismuoto: vuokra vs omistusasujat (piirakkakaavio)
Yhteenveto yhden kunnan avaintiedoista näyttää tältä.
Hetkinen… Miten tässä visualisoinnissa valitaan kunta jonka tiedot näytetään?
Power BI:sä on mahdollista tehdä porautumisraportteja (drillthrough). Määritellään tekemämme kunta-visualisointi tällaiseksi porautumisrapotiksi. Raahataan kunnan nimi suodattimien joukosta löytyvään Drillthrough Filters -kohtaan.
Nyt yhteenvetovisualisoinnista voi klikata minkä tahansa kunnan kohdalta (kartalta tai pylväskaavioista) hiiren oikealla ja valita Drillthrough -> Kunta.
Jolloin pääsee katsomaan valitun kunnan yksityiskohtaisempia tietoja!
Drillthrough-visualisoinnit ovat todella käyttökelpoisia. Visualisoinnit ovat tyypillisesti yhteenvetoja ja vertailuja. Miten kätevää kun yhteenvedosta voi suoraan siirtyä katsomaan yksittäisen myyjän, tiimin, osaston, tuotteen, tuoteperheen, alueen, liiketoiminnan tms. yhteenvetovisualisointia.
Tämä kirjoitus on osa laajempaa sarjaa jossa käyn läpi Office 365:n työkaluja. Mistä niissä on kyse ja miten niitä voisi hyödyntää.
Miten Q4OpenData saadaan luettua PowerBI:hin?
TykkääLiked by 1 henkilö
Moi! Vesan Blogista löytyy hyvä ohje: https://www.qumio.com/Blog/Lists/Posts/Post.aspx?ID=46
TykkääTykkää