Info - Länkade data i Sverige
Skip to content, Skip to search

Info

Länkade data

Den här sidan är till för dig som vill veta vad länkade data är och varför det är viktigt på vilket sätt man publicerar sina data på webben, vare sig det rör sig om öppna data eller inte. Informationen förutsätter inga teknikkunskaper utan är till för dig som vill förstå begreppen, inte nödvändigtvis tekniken. Sist på sidan hittar du länkar som leder dig vidare om du vill veta mera. När du har läst denna introduktion kommer du förhoppningsvis ha fått svar på följande frågor:

  • Vad är “länkade data” och hur är det relaterat till konceptet “öppna data”?
  • Vad är de främsta fördelarna med just länkade data?
  • Finns det några nackdelar?

Innehåll

Begrepp - länkade data och öppna data

Data och förenklat utbyte av data har fått ökad prioritet, både bland företag och offentliga organisationer. Kopplat till detta hör vi ofta begrepp som öppna data. Öppna data är data som är offentliga, men det kan fortfarande finnas kostnader kopplade till åtkomst av data, t ex om data behöver beställas på en CD får den som begär ut dessa öppna data oftast själv bekosta CD-skivan, porto, och kanske även en viss administrationsavgift. Normalt menar vi data som finns tillgängliga i ett digitalt format när vi pratar om öppna data. Med konceptet länkade data menas vanligen ett antal principer, främst tekniska sådana, för att göra data tillgängligt - dvs detta är en särskild teknik för att tillgängliggöra data på webben. Data som lever upp till principerna för länkade data, dvs kan sägas vara länkade data, kan vara antingen öppna data (offentlig information) men dessa tekniker kan lika gärna användas för att strukturera och publicera data som inte är offentliga, t ex företags-intern information. På dessa sidor kommer vi främst att prata om öppna länkade data, dvs offentliga data som finns tillgängliga i digital form och publiceras enligt principerna för länkade data (för mer detaljer kring principerna, se längre ner på sidan).

Att göra data tillgängligt

Den som har bestämt sig för att tillhandahålla data (vare sig det är mellan avdelningar i en organisation eller gentemot omvärlden) står inför ett antal val:

  • Vilket format ska användas för att publicera data?
  • Vilken process ska användas för att på ett tillförlitligt och effektivt sätt publicera data?
  • Hur ska datans kvalitet säkerställas?
  • Hur blir initiativet att publicera data långsiktigt hållbart?

För att få så mycket genomslag som möjligt är det väsentligt att inte endast ha i åtanke de behov och frågor som den som vill tillhandahålla data har, utan även dataanvändarens behov bör tas i beaktande. Förutom kända dataanvändare bör man beakta de som på mer oväntade vis kan ha nytta av den data som tillhandahålls - det är inte säkert att ni i dagsläget kan förutse vilken nytta era data kan göra i framtiden! Detta innebär frågor som:

  • Hur kan man tillhandahålla data så att de går att återanvända av så många som möjligt och för ett så brett användningsområde som möjligt?
  • Hur möjliggör vi för andra att upptäcka relevanta data bland alla datamängder som finns tillgängliga på webben?
  • Hur möjliggör vi för applikationer (och applikationsutvecklare) att integrera data från flera olika för dem tidigare okända datakällor?

Det finns flera möjliga sätt att publicera data, exempelvis som Excel-filer, CSV-filer eller som ett API (programmeringsgränssnitt). Ett alternativ till dessa som har vuxit de senaste åren är tekniker relaterade till konceptet länkade data, som har stora fördelar just gällande återanvändning och kombination av datamängder. Hur detta går till kan du läsa mer om i nästa avsnitt nedan.

Vad är länkade data och länkade öppna data?

En förutsättning för att kunna publicera länkade data är naturligtvis att data finns tillgängliga digitalt, men det är som vi diskuterat tidigare inte nödvändigt att data är offentliga utan principerna kan även användas för organisations-intern information. I stora drag kan man säga att länkade data innebär att man publicerar data i ett standardiserat format som ger varje dataelement en unik identifierare. På det sättet kan enskilda dataelement referera till varandra, och på så sätt skapar vi länkar mellan data. Länkarna kan vara inom en datamängd, precis som vi kan länka element i en databas, men nu kan vi även länka mellan datamängder eftersom identifierarna är (globalt) unika. Detta gör att vi kan sätta in enskilda data eller datamängder i en kontext - vi kan länka våra data till andra datamängder som har information om “samma saker”.

Tänk till exempel på data om platser i Sverige, såsom städer. Många svenska myndigheter samlar in olika typer av information om våra städer, alla dessa myndigheter kommer t ex att samla in information om Uppsala, men ur olika perspektiv. Om dessa data publicerades som länkade data, och vi såg till att alla referenser till “Uppsala” länkades till varandra, skulle vi kunna använda alla dessa data tillsammans för att t ex upptäcka nya intressanta samband, eller bara berika informationen vi har om Uppsala i just vår organisation (eller applikation) - för att ge bättre service till allmänheten eller till våra användare och kunder. Vi kan gå från “informationssilos” till ett verkligt samarbete över organisationsgränserna - där öppna länkade data är nyckeln till framgång.

En förutsättning för att detta ska fungera är dock att alla använder standardiserade språk för att uttrycka sina data. Observera att vi här pratar om tekniken för att publicera data - inte nödvändigtvis att vi behöver “prata samma språk” när det gäller vad vi menar med olika koncept och dataelement (detta är naturligtvis också viktigt, men kan komma i ett senare skede när data används tillsammans). Denna standardisering uppnås genom att använda URI:er för att identifiera resurser, RDF för att beskriva hur dessa resurser relaterar till varandra, och frågespråket SPARQL för att hämta ut information ur datamängderna.

För att illustrera hur länkade data förhåller sig till andra alternativ för datapublicering finns följande modell ( http://www.w3.org/DesignIssues/LinkedData.html), där vi med länkade data menar data som får fem stjärnor enligt modellen:

  • ★ Data görs tillgängliga på webben (oavsett format), med en öppen licens.
  • ★★ Tillgängliga som maskinläsbar strukturerade data (t ex Excel i stället för scannad tabell).
  • ★★★ Alla ovan, samt att använda ett icke-proprietärt format (t ex CSV i stället för Excel).
  • ★★★★ Alla ovan, samt att använda W3C-standarder (RDF, SPARQL) för att uttrycka data.
  • ★★★★★ Alla ovan, samt att länka sina data till andras data.

Fördelar med att tillhandahålla länkade data

På sidan http://5stardata.info/ finns en enkel guide som summerar kostnader och fördelar med att följa de olika principerna i "stjärnmodellen" ovan. För varje steg ökar nyttan och värdet som data har, men det krävs naturligtvis också en viss ökad insats från den som publicerar data (en ökad kostnad). Att publicera data enligt principerna för länkade data (d v s fem stjärnor) ger en markant ökning av värdet av data från enskilda datakällor bland annat genom att:

  • länkarna mellan olika datamängder gör att nya intressant data och kombinationer av kan upptäckas (fördel för konsumenten).
  • dina data blir enklare att upptäcka och hämta utan extra arbetsinsats för den som publicerat data (fördel för tillhandahållaren).
  • ge ökad datainteroperabilitet, både genom användandet av standardiserade icke-proprietära språk för att representera data, och eftersom det är enkelt att länka mellan datamängder.
  • data är förberedda för uppgifter och användningsområden som inte är påtänkta vid publiceringen, nya oväntade fördelar och användingsområden kan upptäckas och realiseras av datakonsumenter.
  • formaten som används möjliggör automatisk identifiering och åtkomst av datamängder.
  • vi har möjlighet att bygga på med automatisk tolkning av datamängders betydelse (genom att beskriva mer avancerade vokabulärer, ontologier, för data).
  • datakonsumenten kan länka till och återanvända en delmängd av en datamängd.

Utmaningar med att tillhandhålla länkade data

Vilka utmaningar finns för organisationen som väljer att tillhandahålla länkade data? En utmaning är att det rör sig om förhållandevis nya tekniker, vilket tidigare har medfört att verktyg och riktlinjer fortfarande befunnit sig på ett tidigt stadium. De senaste åren har vi sett en stadig utveckling vad gäller verktyg och användning av teknikerna, samt att antalet personer och företag med kompetens att använda dem ökat. Därmed är detta ett minskande problem.

En mer tidsoberoende utmaning är att det behövs ett visst merarbete från den som tillhandahåller data för att man ska få den nytta som beskrivs ovan: man behöver tillhandahålla bra metadata och data som kan vara relevant att länka till behöver identifieras. På sidan http://5stardata.info/ finns kostnader (i form av ökad arbetsinsats) beskrivna för varje "steg" i stjärnmodellen som en organisation önskar ta.

Läs mer - Om länkade data

  • Linked Open Data: The Essentials, A Quick Start Guide for Decision Makers – http://www.semantic-web.at/LOD-TheEssentials.pdf – En lätttillgänglig liten bok om länkade öppna data, med motiveringar, hur man använder och tillhandahåller data, samt exempel på data som tillhandahålls.
  • 5 ★ Open Data – http://5stardata.info/ – Genomgång av fördelar och kostnader, från enstjärnig till femstjärnig data.
  • What is Linked Data – http://www.data.gov.uk/blog/what-is-linked-data – Relaterar idén om länkadedata till idén om webben, ger lite tekniskt kött på benen med exempel från brittiska “Ordinance Survey” (ungefär: Lantmäteriet) samt pekar på fördelarna med att använda länkade data.