海角社区

Skip to main content
DA / EN
Datalogi

Syntetiske data: En potentiel bombe under internettet

Bullshit AI. Habsburg AI. AI kogalskab. F忙nomenet har mange 酶genavne, men de d忙kker alle over en bekymring for, at forvr酶vlet og indavlet AI er ved at overtage internettet. Menneskeskabt data kan snart v忙re en luksus, og kildekritik er vigtigere end nogensinde, siger forsker.

Af Birgitte Svennevig , , 09-12-2025

Scrolle, scrolle, scrolle. Iih, se! En s酶d video af en gorilla i zoo, der redder et tabt sp忙dbarn og giver det tilbage til barnets mor. Scrolle, scrolle, scrolle. N氓, nu kommer en tiger, der redder et sp忙dbarn 鈥 m氓ske lige urealistisk nok, og den video er jo nok fake, men cute nok alligevel.

Fem 氓r senere: en skoleelev skal lave en opgave om altruisme i dyreriget. Hun googler og Internettets AI-genererede svar fort忙ller hende, at der findes masser af altruistiske dyr og henviser til videoer. Eleven t忙nker ikke over, at der ikke er tale om 忙gte videooptagelser og da slet ikke rigtige dyr. Hun har f氓et fat i syntetiske data 鈥 alts氓 AI-genererede data, som er bygget af sine egne forg忙ngeres selvopfundne data og nu formerer sig i mere og mere indavlede, bizarre og outrerede AI-kreationer.

- Der findes allerede utroligt mange syntetiske data, og dem bruger AI til at generere nye data. Som internetforbrugere f氓r vi dermed mere og mere information, som ikke er skabt af mennesker, og som ikke engang bygger p氓 data, som er skabt af mennesker. Vi risikerer, at det i f酶rste omgang ender med en masse v氓s, som vi i nogle tilf忙lde kan gennemskue, andre gange kan vi ikke. I yderste konsekvens, alts氓 hvis vi mister evnen til at skelne, vil fremtidens AI modeller, der er tr忙net p氓 data fra internettet, ikke v忙re n忙r s氓 gode, som de modeller, vi kan lave lige nu. S氓 vil internettet miste meget af det, der engang gjorde det nyttigt, siger Anton Danholt Lautrup, der er postdoc p氓 Institut for Matematik og Datalogi og forsker i bl.a. syntetiske data.

Data om fiktive patienter

Ideen med syntetiske data kan nu ellers være rigtig god, men lad os først se på, hvad de er: Syntetiske data defineres ved at være data, som er skabt af en generativ AI model og som skal efterligne rigtige data, som er indsamlet ude i virkeligheden, f.eks. fra patienter.

- Man kan kalde dem realistiske data om fiktive personer, foreslår Anton Danholt Lautrup.

Syntetiske data kan godt bygge på hele eller delvise sæt af rigtige patientdata, men de bliver så renset for personhenførbare oplysninger, og dernæst bearbejdes de af en algoritme, så der dannes nye datasæt. Disse nye datasat er nu teknisk set syntetiske og indeholder ikke længere oplysninger om identificerbare personer.

3 gode r氓d

  • Vær varsom med de AI-genererede svar, der kommer på din google-søgning. De svar kommer fra en stokastisk papegøje, og du kan ikke være sikker på, at den papegøje er trænet på menneskeskabte data.
  • Vær kildekritisk. Hvis noget data – et billede, en video eller et stykke tekst – virker lidt for spændende eller usædvanligt til at være sandt, så undersøg, om det kan spores tilbage til en troværdig kilde.
  • Tænk. før du auto-completer. Copilot og andre AI tekstværktøjer i dit skriveprogram kan glemme sproglige og vigtige faglige nuancer.

Brug af syntetiske data kan lette bureaukratiet, hvis man f.eks. som sundhedsforsker gerne vil samarbejde med en tredjepart eller udgive sine data sammen med et forskningsresultat. Og s氓 kan de hurtigt give noget volumen:

- Forestil dig, at du har data p氓 7.000 patienter, som du renser og skalerer op til 50.000 syntetiske patienter. Det giver nogle helt anderledes store datas忙t, som kan g酶re gavn i forskningen, og det kan jo v忙re godt, siger Anton Danholt Lautrup.

Men s氓 er der lige noget med diversiteten, der risikerer at sive ud af de syntetiske datas忙t:

- Mange af de AI modeller man bruger, har tendens til - hvis man ikke passer p氓 - at udviske diversitet i processen, siger han.

Fare for modelkollaps

P氓 sin vis giver det mening, at en 鈥漝um鈥 computer hellere vil lave sine syntetiske eksempler t忙t p氓 gennemsnitsv忙rdierne end langt v忙k fra gennemsnitsv忙rdierne, og sandsynligheden for at lave noget, der er realistisk, er st酶rre p氓 den m氓de.

- Men i praksis vil man jo gerne have, at ens datas忙t skal v忙re repr忙sentativt for en hel population med den diversitet, der nu m氓tte findes i den, s氓 det er en af de mekanismer, man skal man v忙re opm忙rksom p氓, siger Anton Danholt Lautrup.

Om de syntetiske data skal bruges til at forske i folkesygdomme eller skabe videoer af gorillaer, tigre eller flodheste, der redder sp忙db酶rn i zoologiske haver, lurer risikoen for et regul忙rt modelkollaps.

Et lukket, hallucinerende univers

- Modelkollaps skal forst氓s s氓dan, at modeller, der er tr忙net p氓 andre syntetiske kildedata gennem flere generationer, mister deres nyttevirkning - og m氓ske undervejs forsager en masse u酶nskede, endog skadelige sideeffekter. Sprogmodellerne ved ikke, at flodheste ikke samler sp忙db酶rn op og b忙rer dem hen til et menneske - de kan ikke skelne mellem rigtigt og forkert. Og n氓r s氓, at indhold p氓 internettet gradvist skrives mere af AI, kan disse misforst氓elser samt udviskning af nuancer hurtigt indtr忙de i vores post-faktuelle virkelighedsopfattelse, mener Anton Danholt Lautrup.

N氓r sprogmodellerne l酶ber l酶bsk i deres eget, lukkede, hallucinerende univers, begynder kritikere at tale om AI Habsburg eller AI kogalskab. N氓r der skabes indhold, som vi let kan aff忙rdige som urealistisk og falskt, er faren for misinformation til at overse.

Men n氓r de skaber billeder og indhold, som vi ikke lige umiddelbart kan se, er skabt af syntetiske data og ikke er 忙gte, kommer vi til at leve i en verden, hvor vi ikke kan stole p氓 den information, som internettet giver os.

Ph.d. afhandling om syntetiske data

I den ph.d.-afhandling, som Anton Danholt Lautrup netop har f忙rdiggjort, har han is忙r kigget p氓 de positive aspekter af syntetiske data, is忙r til forskning, men han konkluderer ogs氓, at kunstige data ogs氓 kan udg酶re en trussel for samfundet.

I sin afhandling skriver han s氓ledes bl.a.: 鈥滵e positive konsekvenser er f.eks. 酶get datasamarbejde og databerigelse, men de b酶r ikke ses i isolation fra de potentielle risici ved misbrug. De risici er f.eks.  酶get algoritmisk bias, dataforurening, og milj酶p氓virkningen 鈥 alts氓 at det koster en hel del energi at lave og lagre syntetiske data.鈥

- I takt med at generativ AI forts忙tter med at forbl酶ffe os og udvisker linjerne mellem det autentiske og det kunstige, er sp酶rgsm氓let ikke l忙ngere hvad det kan, men hvad vi v忙lger at bruge det til, siger han.

Ph.d.-afhandlingen hedder "Generation and Evaluation of Realistic Tabular Synthetic Data", og .

M酶d forskeren

Anton Danholt Lautrup har skrevet en Ph.d. om syntetiske data: "Generation and Evaluation of Realistic Tabular Synthetic Data". Han forsker nu som postdoc p氓 Institut for Matematik og Datalogi.

Redaktionen afsluttet: 09.12.2025