08/06/21
Her blir Mars Climate Orbiter testet. Romsonden skulle nå Mars i september 1999, men det skjedde aldri. Foto: NASA
Flere og flere nyskapende tjenester bruker maskinlæring og kunstig intelligens. En utfordring er at store mengder av data kan være vanskelig tilgjengelig eller lite brukelige. Hva gjør du da?
NASA skjøt i 1998 opp romfartøyet Mars Climate Orbiter som skulle undersøke klima, atmosfære og overflateendringer på Mars, men romfartøyet forsvant på mystisk vis. Feilen viste seg å være en enkel, men kritisk misforståelse i bruk av måleenheter. Et eksternt team brukte nemlig pund per sekund, mens NASAs team brukte newton per sekund. Dette resulterte i at beregnet posisjon på satellitten ble feil, og den krasjet sannsynligvis i atmosfæren eller ble slynget tilbake i rommet. I ettertid viste havariundersøkelsen at minst to navigatører hadde uttrykt bekymring om avviket, men at disse ikke hadde blitt fulgt opp.
Data governance tar tak i behovet for å vite hvor data kommer fra, hva de betyr og hvordan de skal tolkes. Data governance innebærer også prosesser og rutiner for å jobbe med strukturerte tiltak for å løpende korrigere feil i viktige data. Hadde NASA hatt kontroll på dette, ville sannsynligvis romfartøyet ikke ha kræsjet.
Med økende bruk av ny teknologi for å bruke data til å skape nye tjenester, blir data governance for big data en kritisk suksessfaktor. Data– og analysepulsen 2019 viser at mange plages med “big data-floken”: Vanskelig tilgang til data med god kvalitet er en av de viktigste grunnene til at kunstig intelligens-prosjekter ikke lykkes. Dette er en vanlig utfordring i virksomheter som bearbeider og kobler store datamengder fra ulike systemer. Noe forenklet kan datakvalitet forklares med i hvilken grad data som skal brukes passer til formålet.
Utfordringer med datakvalitet er ikke et nytt fenomen, og med store og varierte datasett («Big Data»), vil omfanget av utfordringene øke i minst like stor grad som datavolumet. Big data har de siste årene gått fra å være en hype til å bli en permanent komponent i virksomhetsarkitekturen hos svært mange organisasjoner.
Big data lagres i en data lake. En data lake er systemer som lagrer data uten en predefinert struktur. Eksempler på slike systemer er lagringstjenester som Apache Hadoop, Microsoft Azure Data Lake, Amazon S3 og Google Cloud Storage. En data lake lagrer som regel virksomhetens rådata, men kan også lagre de samme datasettene i bearbeidet form.
Lagringen av big data i seg selv gir ingen verdi. Det er først når man klarer å analysere dataene og lage ny innsikt at verdien genereres. Analyse, modellering, datavask og strukturering foregår først når data skal brukes til et bestemt formål. Tilnærmingen med å lagre data uten at de er bearbeidet gir muligheter for å oppbevare data uten stor innsats i forkant, og uten at bruksområdet for datasettet er tydelig analysert. I etterkant kan Data Scientists analysere datasettene for å utvikle nye og verdiskapende bruksområder.
Dårlige data oppdages dermed ikke nødvendigvis før analysene skal utarbeides. Men man kan også oppdage at det man trodde var dårlige data faktisk inneholder signaler som er nyttige eller verdifulle. Når analysene utarbeides kan ulike analytikere i forskjellige prosjekter utvikle ulike måter å behandle samme datasett på til samme formål. Det er derfor nødvendig å ha verktøyer som sentraliserer håndteringen av metadata så man unngår dobbeltarbeid og overflødige datasett.
Lagring av data i seg selv gir ingen verdi. Verdiene genereres først når dataene analyseres. Illustrasjon: Adobe Stock
Et eksempel på god data er ansattes kontonummer som registreres i lønnssystemet. De færreste er registrert med feil kontonummer, både fordi det er lett å oppdage feilen når lønnsutbetalingen uteblir, men også fordi man har gode insentiver til å legge inn riktig verdi. Når man skal sammenstille data fra ulike kilder og bruke disse i analyser, er ikke nødvendigvis dataene registrert og kvalitetssikret for bruk i de ulike analysene som skal utarbeides. Et eksempel på dette er arbeidstakers postadresse. Adressen er høyst sannsynlig riktig i en periode like etter at den blir registrert, men ikke nødvendigvis senere.
Kompletthet: All delene av dataene er samlet inn. Uten tilstrekkelig kompletthet, vil de andre dimensjonene ikke nødvendigvis være relevante.
Tilgjengelighet: Data er tilgjengelig i den formen som forventes. Uten riktig format vil data ikke være gyldig eller ikke relatere seg til andre data som forventet.
Validitet: Verdiene er innenfor de lovlige verdiene som forventes i datasettet. Uten validitet vil dataene per definisjon ikke være riktig.
Integritet: Ulike deler av datasettet forholder seg til hverandre på måter som er forventet. Uten integritet så kan dataene ikke brukes på forutsatt måte.
Konsistens: Data følger forventede mønstre. Uten konsistens, må det følges opp hvorfor mønsteret ikke følges. Skyldes det feil forventninger til mønsteret eller feil i dataene?
Prosesser som henter inn data fra eksterne kilder.
Prosesser som medfører avtakende kvalitet.
Prosesser som endrer data.
Oppkjøp og fusjoner med etterfølgende systemkonsolideringer, manuell inntasting av data, og datautveksling i grensesnitt mellom systemer er alle eksempler på manuelle eller automatiske prosesser som kan forårsake dårlig datakvalitet når man henter inn data fra eksterne kilder.
Data kan bli upresise over tid også uten at det skjer noen fysiske endringer. Dette kan skje når kompetente medarbeidere slutter, når systemer oppgraderes og når endringer som skjer i virkeligheten ikke blir registrert i dataene. Verdiene forblir altså uendret, men presisjonen går likevel ned. Dette kan for eksempel skje i dagligvarehandelen når ulike strekkoder gjenbrukes for ulike fysiske varer eller ulike distribusjonspakker. Strekkoden vil kunne være unik i en butikk eller i et avgrenset geografisk område, men ikke globalt. Når data analyseres globalt blir det vanskelig eller umulig å skille mellom unike varer.
Datavaskejobber, sletting av data og berikelse av data kan forårsake dårlig datakvalitet. Men hvordan? Her er svarene mange og ulike, men en fellesnevner er menneskelig involvering. Prosessering av data utføres med verktøyer som kan ha feil i sin kode, eller feil kan introduseres i koden for prosesseringen av data.
Et eksempel på en aktuell feilkilde for berikelse av sensordata, som strømmer hurtig inn i en data lake eller til et datavarehus, er timingproblematikk. Datastrømmer i sanntid eller nær-sanntid krever små mengder og hyppig frekvens og overføres gjerne i form av en identifikator, et tidsstempel og en verdi. Verdien er målingen fra sensoren, mens identifikatoren brukes til å slå opp informasjon om konteksten, altså om verdien er en temperatur, en hastighet eller en tilstand, og hvor målingen fysisk er gjort. Konteksten er helt nødvendig informasjon for å kunne utføre analyse av dataene. Siden datamengden som gir informasjon om konteksten er langt større enn måleverdien og mindre skiftende over tid, overføres disse dataene sjeldnere fra kildesystemet. Informasjon om konteksten må slås opp og legges til målingen i etterkant. Tidspunktet for når dette gjøres vil kunne påvirke datakvaliteten. Dess tidligere oppslaget mellom måleverdien og konteksten gjøres, dess høyere risiko for at konteksten inneholder feil. Slike feil kan oppstå som følge av midlertidig feil kontekstinformasjon i kildesystemet, tekniske feil i dataoverføringen, eller forsinkelser i dataoverføringen. Verdien av tidlig tilgang til informasjon må altså balanseres med risikoen for og konsekvensen av feil.
Hvor man før måtte bruke manuelle prosesser, kan man nå bruke maskinlæring for å scanne, profilere og katalogisere datasett. Illustrasjon: Adobe Stock
Applikasjoner som bruker teknologier som maskinlæring og kunstig intelligens er avhengig av enorme datasett med tilstrekkelig kvalitet. Der man tidligere har klart seg med manuell håndtering av metadata og enkeltinitiativer for å korrigere datakvalitet, vil man med store og varierte datasett få store utfordringer med å skalere satsingen på digitalisering. Manglende datakvalitet adresseres ofte i form av egne arbeidsstrømmer eller egne prosjekter. Problemet med en slik tilnærming er at den gjerne er tidsavgrenset, fokusert på smale områder og mangler mandat til å adressere den strategiske styringen av virksomhetens samlede data. Data governance er nødvendig for å sikre at datakvaliteten holder seg innenfor definerte rammer, og for å håndtere data som en strategisk eiendel.
Innenfor tradisjonelle databasesystemer er det etablert ulike rammeverk for data governance. Data governance består av en kombinasjon av mennesker, organisering og arbeidsprosesser som ved hjelp av tekniske verktøy forenkler og automatiserer prosessene som strukturerer og sikrer at virksomhetens data er tilgjengelig for bruk.
Bygge en sentralisert driftsmodell, skalerbar plattform og organisasjonsmessig rammeverk for utvikling og bruk av data som kritisk eiendel.
Etablere eierskap og ansvarsfordeling for datarelaterte beslutninger.
Definere og implementere regler for håndtering av livssyklusen for data på virksomhetsnivå, forretningsområdenivå og forretningsprosessnivå.
Etablere standardiserte definisjoner, regler og prosedyrer for behandling av data på tvers av virksomhetens forretningsområder.
Opprette en data governance-organisasjon som en integrert del av virksomhetens digitaliseringsprogram.
Utvikle standarder og regler og sikre at disse etterleves i virksomheten.
Styring av virksomhetens dataarkitektur ved å etablere standarder for innhenting, arkivering og prosessering av data.
Historisk ble Data Governance kun for et tiår siden ansett som en ny og fremvoksende disiplin. Ifølge Dataversity er det økende forståelse for verdien av å kvalitetssikre data. 90 % av selskapene i undersøkelsen Trends in Data Governance and Data Stewardship rapporterte om at data governance har større betydning i dag enn for 10 år siden.
Med store datavolum er det utfordrende å overvåke og forvalte alle datakilder. En datakatalog kan hjelpe til med dette. En datakatalog er et verktøy som katalogiserer alle data som eksisterer i virksomheten. Liksom bibliotekarens register over alle bøker i et bibliotek. Datakatalogen viser hva som finnes, hvor data ligger lagret, hvilke systemer de kom fra, hvordan de er strukturert, hvordan de har blitt prosessert og foredlet, når de sist ble endret, hvem som har brukt dataene, hvilken kvalitet de har, hvilken sikkerhetsgradering de har, hva dataene betyr, med mer. Informasjonen blir hentet automatisk inn via metadata fra verktøyene som brukes i databehandlingen.
Hvor man før måtte bruke manuelle prosesser, kan man nå bruke maskinlæring for å scanne, profilere og katalogisere nye datasett som skal inn i katalogen. Det gjør det langt enklere å forvalte store datamengder i en Data Lake uten modellering i forkant.
Selve katalogiseringen og søkefunksjonalitet i katalogen er likevel kun ett av flere bruksområder. I tillegg vil en datakatalog kunne støtte samarbeid og kunnskapsdeling om datasett gjennom funksjoner som bygger på de samme prinsippene som sosiale medier. Opprettholdelsen av datakvaliteten kan håndheves gjennom scoring og kommentarfunksjoner i verktøyet. Dette gjør det mulig å dele data, forretningsregler og -logikk, og ikke minst finne data som ligger lagret på ulike steder. Dette gir igjen nye brukere oversikt over, og tillit til datasettene.
Også fra et arkitekturperspektiv vil big data kunne skape utfordringer som påvirker evnen til å utføre data governance. Med oppstart av nye prosjekter vil virksomheter etter behov få flere plattformer som kan benyttes for analytisk bruk av data. Dess flere nye prosjekter, og dess flere applikasjoner som er avhengig av data fra de ulike plattformene: Jo større risiko for at det utvikler seg en uoversiktlig arkitektur som blir gradvis tyngre å videreutvikle over tid.
Overflødig og inkonsistent logikk
Overflødig regelhåndtering
Fragmentert lagring av metadata på tvers av verktøyer
Liten eller ingen sporbarhet på hvor data behandles, av hvem de behandles, og hvor de ender opp.
Dette kan føre til redusert utviklingshastighet, økte kostnader som følge av redundant utvikling samt økt forvaltningskompleksitet.
Begrep som brukes om datasett som er for store og for komplekse til å håndtere ved hjelp av tradisjonelle teknologier for databehandling. Gartner (2012) definerte big data som: Informasjon som kjennetegnes ved høyt volum, høy hastighet og/eller høy grad av variasjon, og som krever nye metoder for prosessering og tilrettelegging for å kunne fungere som grunnlag for forbedrede beslutninger, økt innsikt og optimalisering av prosesser. I dagligtale brukes ofte begrepet noe unøyaktig for å omtale både datasett, teknologiene som brukes for å behandle datasettene, og hele økosystemet knyttet til hvordan datasettene brukes for å skape nye tjenester.
De opprinnelige V-ene brukt for å definere Big Data (Gartner, 2012):
Lagringssted for strukturert, ustrukturert og semi-strukturerte data som lagres i et distribuert filsystem. Det distribuerte filsystemet gjør det mulig å skalere behandlingen av data for lagring og prosessering av ekstremt store datamengder, i tillegg til at det sørger for redundans som sikrer dataene mot feil i maskinvare. Eksempler på teknologier som faller inn under begrepet er Apache Hadoop (HDFS), Microsoft Azure Data Lake, Amazon S3 og Google Cloud Storage.
Definerer menneskene, prosessene, rammeverket og organisasjonen som er nødvendig for å sikre at en organisasjons informasjonseiendeler (data og metadata) blir håndtert på en proaktiv, formell og effektiv måte gjennom hele virksomheten, slik at informasjonseiendelene blir pålitelige, meningsfylte, nøyaktige og underlagt et klart definert forvaltningsansvar.
Strukturert informasjon som beskriver, forklarer, gjenfinner eller på annen måte gjør det enklere å hente, bruke eller forvalte data. Metadata gir oss informasjon som gjør det mulig å forstå data (eksempelvis dokumenter, bilder, strukturerte datasett), konsepter (klassifiseringsskjema), og virkelige objekter (mennesker, organisasjoner, steder, produkter).
En robot, maskin eller et program som gjør ting som man oppfatter som intelligent.
Teknikker som gjenkjenner mønster i data som kan gi innsikt som kan brukes til å gjøre prediksjoner. Maskinlæring er en metode for å få maskiner eller applikasjoner til å gjøre smarte ting.
Beskrivelser av hvor data har sin opprinnelse, hvordan de har flyttet på seg, karakteristika og kvalitet. Data lineage er mer enn teknisk sporing av data i databaser. Det inneholder også en referanse til hvilke forretningsprosesser som har påvirket dataene, og svarer på spørsmål som hvem, hva, hvor, hvorfor og hvordan data har blitt påvirket.
En disiplin der forretningsressurser og tekniske ressurser jobber sammen for å sikre konformitet, presisjon, forvaltning, semantisk konsistens og ansvarsfordeling av virksomhetens offisielle, delte master data-eiendeler. Er en underdisiplin av data governance.
En open source-programvareplattform som fordeler lagring og prosessering av svært store datasett på mange datamaskiner for å skalere lagring, prosessering og tilgang til data. Hadoop benyttes av flere av de største datadrevne selskapene i verden som Facebook, LinkedIn, eBay, Spotify og Yahoo.
En generisk datastruktur som er fundamentalt forskjellig fra relasjonsdatabaser. Består av en grafstruktur som angir relasjoner mellom objekter (noder) med relasjoner og attributter. En graf lagrer data om objekter i noder og knytter nodene sammen med relasjoner. Styrken med grafdatabaser er at de har overlegen ytelse når man utfører spørringer om relasjoner mellom noder.