Project: Dansk Viden til Dansk AI · Status: Prototype · Date: May 2026

Dansk Viden til Dansk AI

Fælles offentlig service til indsamling, katalogisering og deling af danske publikationer — som grundlag for både videnformidling og træning af danske sprogmodeller.

Baggrund

Offentlige myndigheder i Danmark producerer hvert år store mængder viden i form af rapporter, analyser, vejledninger, strategier, evalueringer og faglige notater. Publikationerne ligger spredt på myndighedernes egne hjemmesider, bliver typisk kun markedsført kortvarigt og er sjældent samlet i et fælles overblik. De gøres kun i begrænset omfang tilgængelige som strukturerede data.

Samtidig vokser behovet for danske træningsdata. Hvis offentlige AI-løsninger skal fungere godt på dansk, skal modellerne trænes på dansk sprog, danske begreber og dansk forvaltningspraksis — på data hvor kvalitet, ophav og rettigheder er dokumenteret. I dag foregår en stor del af modeltræningen i lukkede miljøer hos private virksomheder, hvor datagrundlaget ofte er uklart og rettighederne vanskelige at gennemskue.

Offentlige publikationer er et oplagt udgangspunkt: de har høj kvalitet, tydelig afsender og stor relevans for dansk offentlig sektor.

Formål

Prototypen skal undersøge spørgsmålet: Hvordan kan en fælles offentlig tjeneste til indsamling og deling af publikationer se ud i praksis — med klare rettigheder og AI-assisteret metadata?

Tjenesten skal understøtte to formål:

Et offentligt publikationskatalog hvor borgere, medarbejdere, forskere og virksomheder kan finde, søge og læse offentlig viden på tværs af myndigheder
Et rettighedsclearet og dokumenteret datagrundlag til træning, evaluering og finjustering af danske sprogmodeller — med tydelig ophav, licens og kvalitet

De to formål skal holdes adskilt teknisk og juridisk. Ikke alt, der kan vises i et publikationskatalog, bør automatisk bruges til AI-træning.

Hvad prototypen viser

Prototypen er en single-page application med syv visninger. Den bruger localStorage som backend og simulerer AI-katalogisering med en kort spinner. Alle seed-publikationer indlæses fra data/seed-publications.js.

Forsiden

Hero med søgefelt, kort introduktion til tjenesten og statistik over publikationer i kataloget (antal publikationer, myndigheder, dokumenttyper).

Simpel brugerflade hvor besøgende kan oprette en konto eller logge ind. Brugere gemmes i localStorage, og passwords obfuskeres med en triviel hash. Ingen reel auth — kun til demoformål.

Upload

Tre-trins flow der demonstrerer hele rettigheds- og katalogiseringsforløbet:

Filvalg — publicisten vælger en fil
AI-katalogisering (simuleret med ~2 sek spinner) — systemet foreslår titel, resume, emneord, dokumenttype, fagområde, målgruppe og indikatorer på personoplysninger og tredjepartsindhold
Gennemgang — publicisten godkender eller justerer metadata og tager aktiv stilling til rettighedsniveau (1–7) og risikomarkering (grøn/gul/rød)
Kvittering med link til den katalogiserede publikation

Søgning

Fritekstsøgning kombineret med facetter: myndighed, dokumenttype, fagområde, år, rettighedsniveau og risikomarkering. Resultater vises som kort med kort resume og badges.

Publikationsside

Detaljevisning af en enkelt publikation: fuld metadata, AI-genereret resume, badges for rettighedsniveau og risiko, samt handlinger for favorit og tilføj-til-samling.

Favoritter

Personlig favoritliste pr. bruger, gemt i localStorage.

Samlinger

Navngivne samlinger af publikationer, hver med et delelink. Delelinket indeholder en base64-pakket kopi af samlingen — så den kan åbnes af andre uden backend. Lange samlinger giver lange links.

Krav

Offentlige myndigheder skal kunne uploade publikationer direkte eller registrere dem med link til oprindelig placering
AI-baseret katalogisering skal foreslå metadata efter en fast profil (titel, resume, emneord, dokumenttype, målgruppe, fagområde, sprog, indikatorer på personoplysninger og tredjepartsindhold)
Publicisten skal tage aktiv stilling til rettighedsniveau og risikomarkering — ingen tavse defaults
Rettighedsmodellen skal være trinvis (fx 1–7) så myndigheder kan starte forsigtigt og udvide over tid
Publikationskatalog og træningsdatabank skal være teknisk og juridisk adskilte lag
Offentligt søgeinterface skal understøtte fritekst og facetterede filtre på tværs af myndigheder, emner, dokumenttyper, årstal og målgrupper
Hver publikation skal have en stabil præsentationsside med metadata, downloadlink, oprindelig kilde og rettighedsoplysninger
Træningsdatabanken skal være kurateret — kun publikationer der opfylder krav til rettigheder, databeskyttelse, kvalitet og teknisk anvendelighed indgår

Uafklarede spørgsmål

Prototypen er et visuelt og funktionelt diskussionsgrundlag — ikke en implementeringsklar løsning. Inden et reelt system kan bygges, skal en række forhold afklares.

Rettigheder og ophavsret

Rettighedsmodellens niveauer. Hvem definerer de syv niveauer juridisk? Er trappetrinnene de rigtige (registrering → visning → tekstudtræk → RAG → finjustering → fuld træning → fri licens), og hvilke standardlicenser knyttes til hvert niveau?
Eksternt producerede rapporter. Mange rapporter er udarbejdet af konsulenter, universiteter eller analyseinstitutter for myndigheden. Myndigheden har betalt — men har den ret til at give andre adgang til AI-træning på indholdet? Upload-flowet skal håndtere dette.
Ansvar ved fejlklassificering. Hvis en publikation fejlagtigt markeres som tilladt til træning og bagefter viser sig at indeholde tredjepartsmateriale — hvem hæfter? Myndigheden, platformen, eller AI-udvikleren der har brugt data?

AI-katalogisering

Modelvalg og driftsmodel. Hvilke modeller bruges til metadataudtræk og resume? Kører de hos en offentlig leverandør, on-prem, eller via API til kommerciel leverandør? Hvilke krav stilles til datalokalisering?
Hallucinationer og kvalitet. Hvordan håndteres tilfælde hvor AI'en foreslår forkerte metadata eller resume? Skal alle felter godkendes manuelt, eller er nogle felter "autoritative" uden review?
Indikatorer på personoplysninger. Automatisk screening kan hjælpe, men kan ikke stå alene ved publikationer med forhøjet risiko. Hvilken proces sikrer manuel vurdering af gule og røde publikationer?

Persondata og etik

Risikoklassifikation (grøn/gul/rød). Hvem træffer den endelige beslutning ved gul og rød? Er det publicisten, en central jurist hos opendata.dk, eller en kombination?
Fotos, cases og citater. Selv offentligt tilgængelige publikationer kan indeholde navngivne borgere. Hvordan skiller vi mellem "offentligt tilgængeligt" og "egnet til AI-træning"?

Governance og hosting

Hvem ejer og driver tjenesten? Digitaliseringsstyrelsen, Datatilsynet, et kommunalt konsortium, en kombination?
Forholdet til opendata.dk. Skal det være en udvidelse af eksisterende platform, eller en separat tjeneste der linker til opendata.dk?
Forholdet til træningscenteret. Hvordan kobler træningsdatabanken til det planlagte træningscenter for danske sprogmodeller?

Teknisk

PDF-parsing og scannede dokumenter. Hvilke værktøjer bruges til tekstudtræk? Hvordan håndteres scannede PDF'er uden OCR-lag?
Versionering. Hvad sker der når en myndighed opdaterer en publikation? Beholder vi tidligere versioner i træningsdatabanken?
Skala. Hvor mange publikationer forventes i pilot, og hvor mange efter fuld udrulning?

Pilot

Omfang. Realistisk antal myndigheder og publikationer i fase 1?
Succeskriterier. Hvad skal være på plads før pilot kan kaldes vellykket — antal publikationer, antal aktive myndigheder, faktisk anvendelse i AI-træning, eller noget andet?

Interaktiv prototype

Åbn prototypen ↗

Dansk Viden til Dansk AI ​

Baggrund ​

Formål ​

Hvad prototypen viser ​

Forsiden ​

Registrering og login ​

Upload ​

Søgning ​

Publikationsside ​

Favoritter ​

Samlinger ​

Krav ​

Uafklarede spørgsmål ​

Rettigheder og ophavsret ​

AI-katalogisering ​

Persondata og etik ​

Governance og hosting ​

Teknisk ​

Pilot ​

Interaktiv prototype ​