海角社区

Skip to main content
DA / EN
Informationsvisualisering

Visualisering af Danmarks kulturarv

Visualisering som metode til at afsl酶re m酶nstre i store m忙ngder data er et st忙rkt redskab til at bygge bro mellem datalogi og andre forskningsomr氓der. V忙rdien af visuelt design bliver her demonstreret med et eksempel bygget p氓 Dansk Biografisk Leksikon.

Af Stefan J盲nicke, , 02-11-2020

Maleriet Udslidt af den socialrealistiske maler Hans Andersen Brendekilde (1857-1942) kan ses som en kunstnerisk implementering af ordsproget “et billede siger mere end tusind ord”. Maleriet skildrer det barske liv i landdistrikterne i slutningen af det 19. århundrede i Danmark, og det viser en mand, der er faldet om (måske død?) af sit hårde arbejde og hans skrigende kone på den bare mark, der indrammer scenen. Selvom forrige sætning også giver en detaljeret beskrivelse af problemstillingen, formidler maleriet øjeblikkeligt og meget bedre det socialkritiske budskab til observatøren.

Når vi forskere snakker om visualisering som en metode til analyse af data, der vises på skærmen, udnytter vi her den menneskelige evne til hurtigt at opfatte mønstre, der ligger gemt i disse data. En visuel designproces oversætter fænomener fra den virkelige verden til visuelle repræsentationer, som gør fænomenerne lettere tilgængelige for observatøren. I denne proces transformeres objekter relateret til fænomenet til dataenheder, der er beskrevet ved specifikke attributter og relationer mellem dem. Disse attributter og relationer oversættes derefter til visuelle repræsentationer, som kan afspejle de mønstre, der forekommer.

En sådan proces involverer altid en forvrængning, og derfor skal den udføres med omhu for at sikre, at man på baggrund af en visualisering kan drage brugbare konklusioner. Visualiseringer er specielt nyttige værktøjer for fagfolk, der ikke selv er eksperter i datalogi, til at generere og bekræfte hypoteser ud fra digitale datasæt indenfor deres fagområde.

Igennem de seneste ti år har jeg arbejdet sammen med eksperter fra forskellige fagområder, og de fleste af mine projekter har været tværfaglige samarbejder med forskere fra humaniora indenfor rammerne af det, man kalder digital humaniora. De seneste tiårs bestræbelser på at digitalisere vores kulturarv har betydet, at humaniora-forskere i dag har adgang til store mængder digitale data.

Digital humaniora som forskningsområde går ud på at udvikle løsninger, som kan få mening ud af alle disse data. I denne sammenhæng har visuel udforskning vist sig som et værdifuldt instrument, der får mere og mere betydning for tilvejebringelsen af ny viden. I denne artikel vil jeg give eksempler på, hvordan visualisering kan afsløre information om forskellige aspekter af Danmarks kulturarv.

脴verst ses et s酶jlediagram, der viser antallet af henholdsvis m忙nd og kvinder, der findes i dDBL; nedenunder ses en listevisning, hvor personerne er rangordnet efter deres indflydelse vurderet ud fra m忙ngden af tekst om dem
Tidslinje, hvor den gr酶nne kurve viser m忙nd, og den lilla kurve viser kvinder i dDBL

Visuel udforskning af Dansk Biografisk Leksikon

I en artikel om kulturarv understreger den humanvidenskabelige forsker Elena Franchi, at alle mennesker bidrager til verdens kultur. Hvor vigtig en person er for kulturarven kan afl忙ses af, hvor meget der bliver skrevet om denne person. De mest indflydelsesrige personer for Danmarks kulturarv findes derfor sandsynligvis i Dansk Biografisk Leksikon (DBL). Den tredje og sidste udgave, der blev udgivet mellem 1979 og 1984, indeholder biografisk information om cirka 20.000 personer, b氓de danskere og udl忙ndinge, der i h酶j grad har bidraget til dansk socialliv og kultur. For omkring 6.000 af disse personer findes der en indgang p氓 den danske udgave af Wikipedia. Det kan man dermed opfatte som en digital udgave af Dansk Biografisk Leksikon (her kaldet dDBL), der omfatter de personer med mest nutidig relevans. Her findes en r忙kke strukturerede biografiske oplysninger om k酶n, levetid, f酶dested og erhverv for et stort antal personer, hvilket giver et passende grundlag for en visuel udforskning, hvor vi fokuserer p氓 sammenligning af kvinder og m忙nd i dDBL.

K酶nsforholdet i dDBL kan afbilledes som et simpelt s酶jlediagram (se figur 2). Denne f酶rste meget basale form for visuelle repr忙sentation af data afsl酶rer den st忙rke k酶nsubalance i DBL n酶jagtigt, da det viste forhold svarer til det, man finder i den tredje trykte udgave, hvor cirka 7-8 % er kvinder. S酶jlediagrammet er koblet med en listevisning, der ordner alle kvinder og m忙nd i henhold til deres antydede indflydelse p氓 den danske kulturarv. Denne indflydelse er sk酶nnet ud fra m忙ngden af tekst i de p氓g忙ldende personers Wikipedia-opslag: jo mere tekst, der er skrevet om en person, jo st酶rre sk酶nnes vedkommendes indflydelse at v忙re.

For at underst酶tte muligheden for at s酶ge information i de biografiske data har jeg designet tre interaktive, visuelle gr忙nseflader, som alle underst酶tter en sammenlignende analyse af biografiske oplysninger i relation til k酶n.

Den f酶rste af disse visuelle gr忙nseflader viser en tidslinje, hvor kvinder og m忙nd er adskilt i to separate kurver (se figur 3). De sm氓 billeder placeret p氓 kurverne viser de personer, der har haft den st酶rste indflydelse i bestemte tidsperioder. Mens det store antal m忙nd i det 19. 氓rhundrede tegner den danske guldalder, en periode med us忙dvanlig kreativ produktion, fik kvinder tilsyneladende stor opm忙rksomhed, da den f酶rste udgave af DBL blev udgivet mellem 1887 og 1905.

Den anden visuelle gr忙nseflade er et kort, hvor personernes f酶desteder er vist med cirkler (det skal dog n忙vnes, at oplysninger om f酶dested kun gives for cirka halvdelen af personerne i dDBL). Denne gr忙nseflade underst酶tter sp酶rgsm氓l som: Hvilke personer af historisk betydning blev f酶dt i min by? Selvom de fleste personer i dDBL blev f酶dt i Danmark, dokumenterer den vidt udbredte fordeling af cirkler en international indflydelse p氓 Danmarks kulturarv.

Kort, der viser placeringen af f酶desteder for personer i dDBL
Ordsky, der sammenligner erhverv for de kvinder (lilla) og m忙nd (gr酶n) i dDBL, hvor oplysning om erhverv findes (i alt 5.127 personer)

Den tredje visuelle grænseflade er en såkaldt ordsky-visualisering, der illustrerer forskelle og ligheder på erhvervene hos kvinder og mænd i dDBL (figur 4). Ord farvet med lilla eller grønt repræsenterer erhverv, der henholdsvis kun blev udøvet af kvinder eller mænd, mens ord farvet med sort er erhverv, der blev udført af begge køn. Skriftstørrelsen afspejler, hvor mange personer, der har udøvet det pågældende erhverv. De sorte ord er endvidere placeret i forhold til deres kønsbalance.

Ved brug af det samme farveskema giver hver af de tre visuelle grænseflader et oveblik over fordelingen af person-attributter vedrørende køn, tid, fødselssted og profession. Størrelsen på de visuelle attributter afspejler altid mængder, dvs. hvor ofte en specifik attribut optræder hos alle personerne i datasættet. Alle grænseflader er forbundet med hinanden, og muligheden for at vælge specifikke attributter via klik med musen gør det muligt at udforske datasættet visuelt på mange måder.

Alle visninger opdateres kun med de personer, der matcher den specifikke forespørgsel, og forespørgslen kan sammensættes af valg, der vedrører flere attributter. Hvis man for eksempel vælger et tidsinterval fra 1700 til 2000 på tidslinjen og erhverv relateret til skuespil i ordskyen, efterlader dette 129 personer med et langt mere afbalanceret kønsforhold (se figur 6).

En visualisering af et s酶geresultat i dDBL, som er fremkommet ved at v忙lge tidsintervallet 1700-2000 p氓 tidslinjen og samtidig v忙lge erhverv relateret til skuespil i ordskyen

Dette casestudie om dDBL illustrerer, hvordan visualiseringer kan frembringe letopfattelige mønstre, der kan guide brugeren i en visuel udforskningsproces. Visualiseringer er i stand til at fremhæve vigtige dataenheder, som i tilfældet med dDBL er personer, der væsentligt har bidraget til Danmarks kulturarv.

H.C. Andersen vs Søren Kierkegaard

To af de mest indflydelsesrige mandlige personer i dDBL er Hans Christian Andersen og Søren Kierkegaard, som begge anerkendes som de vigtigste danske forfattere i den danske guldalder. Mens H.C. Andersen først og fremmest er kendt for sine eventyr, anses Kierkegaard på baggrund af sit forfatteskab som den første eksistentialistiske filosof. Begge forfattere havde et ambivalent forhold til hinanden, der gik fra foragt til respekt, og de henviste også til hinanden i deres værker. Vi undersøger, om denne ambivalens afspejles i de to forfatteres værker ved en tilgang kaldet Distant reading. Distant reading er et udtryk opfundet af den digitale humanist Franco Moretti, og det beskriver kvantitative tilgange til tekstanalyse, hvor man betragter teksterne i et oversigtsperspektiv, typisk ved at sammenligne hyppigheden af forskellige ord.

Kvantitativ analyse af 89 historier (med i alt 240.734 ord) af H.C. Andersen (bl氓) og 12 skrifter (90.770 ord) af S酶ren Kierkegaard (gr酶n)
Analyse af den kontekst, hvor ordet 鈥渧erden鈥 optr忙der i skrifterne af henholdsvis H.C. Andersen og S酶ren Kierkegaard

Figur 7 giver et s氓dant kvantitativt syn p氓 et fragmenteret, men repr忙sentativt tekstkorpus, der inkluderer 89 historier af Andersen og 12 skrifter af Kierkegaard. I figuren er de 250 mest anvendte ord fra begge forfattere visualiseret. Ved f酶rste 酶jekast afspejles de to forfatteres tematiske omr氓der godt af de bl氓 og gr酶nne sektorer i ordskyen.

Mens bl氓farvede ord som 鈥減rinsessen鈥, 鈥渟lot / tet鈥 eller 鈥渒ejseren鈥 eksplicit henviser til Andersens eventyr, viser andre ord, der betegner planter, dyr eller farver, n酶jagtigt de scener, som historierne fort忙lles i. Kierkegaards fokus p氓 religion er p氓 sin side afspejlet af ofte anvendte ord som 鈥済ud鈥, 鈥渂iskop鈥 eller 鈥渒ristendommen鈥. Den delte del i skyens centrum indeholder prim忙rt adjektiver og funktionsord. Begge forfattere maler imidlertid deres personlige billede af verden, da begge ofte bruger ordet 鈥渧erden鈥. Figur 8 analyserer den kontekst, hvor ordet verden optr忙der, mere detaljeret ved hj忙lp af en anden visuel kortl忙gning. Nu giver farven information om den gennemsnitlige afstand til et ord, der optr忙der sammen med 鈥渧erden鈥, i den skrevne tekst.

Mens Andersens verden er indrammet af temmelig positivt ladede ord som 鈥渄ejligste鈥, 鈥渂edste鈥 eller 鈥渓ande鈥, er Kierkegaards billede mere kontrastfyldt, da der ogs氓 optr忙der mere negative ord som 鈥渦dd酶d鈥 eller 鈥渉ader鈥.

Hvad der yderligere er synligt i begge illustrationerne er, at Andersens karakterer snarere t忙nker (der er mange varianter af ordet 鈥渢忙nke鈥) og sp酶rger (鈥渟purgte鈥), mens Kierkegaards karakterer synes at forst氓 (mange varianter af 鈥渇orst氓else鈥). Man kan sammenfatte det s氓dan, at Andersen tegner et fantasifuldt, bevidst naivt billede af verden, der stiller sp酶rgsm氓l til, hvordan den fungerer, mens Kierkegaard leverer moderne, realistiske svar. S氓ledes kan man konkludere, at de to forfattere har v忙ret gensidigt befrugtende, komplement忙re personligheder i deres tid.

64 af Hans Andersen Brendekildes malerier arrangeret p氓 en tidslinje

Et fjernt syn på Brendekildes malerier

I lighed med begrebet Distant reading refererer Distant viewing til en kvantitativ analyse af visuelt materiale. Ved at kortlægge billeder på en meningsfuld måde, kan vi afsløre mønstre og derved måske blive i stand til at drage konklusioner. Dette er allerede antydet med eksemplet med dDBL, hvor personer med indflydelse på dansk kulturarv er vist på en tidslinje (figur 3). Vi anvender nu en lignende metode på Hans Andersen Brendekilde og arrangerer 64 af hans malerier på en tidslinje (figur 9). Den relative størrelse på billederne i visualiseringen afspejler den virkelige størrelse på malerierne, hvilket betyder at højden på tidslinjen afspejler, hvor stort et areal Brendekilde malede i et bestemt tidsinterval.

Visualiseringen gør det med det samme tydeligt, at Brendekildes værker placerer sig i to distinkte, kreative perioder. Den første periode fra omkring 1880 til 1900 har det førnævnte socialkritiske maleri Udslidt i sit centrum. Det er omgivet af andre malerier som En Landevej eller Fortrykt, der ligeledes skildrer problemstillinger vedrørende livet i landdistrikterne. Andre malerier illustrerer scener i Middelhavsområdet med udgangspunkt i Brendekildes besøg i Italien, Egypten, Palæstina og Syrien.

I den anden periode fra omkring 1900 til 1930 skiller det religiøse maleri Abels tilbud (1908) sig ud. Denne periode er ellers kendetegnet ved små malerier, der viser idylliske scener fra landlivet, hvilket står i kontrast til de socialkritiske temaer i den første periodes malerier.

Udateret maleri af Hans Andersen Brendekilde

Samlingen indeholder også udaterede malerier, såsom det, der er vist i figur 10. Den afbillede scene giver plads til fortolkninger. Det kan vise en idyllisk familiescene om vinteren med en gammel mand, der skovler sne med sit barnebarn og en kat, der viser vejen til husets varme indre. Eller det kan vise det hårde, isolerede liv på landet, hvor man var oppe imod naturens vældige kræfter. Da maleriet er ret stort, synes sidstnævnte fortolkning, der placerer maleriet i Brendekildes første kreative periode, mere sandsynlig, fordi han i den anden kreative periode sjældent skildrede det idylliske landsliv på store lærreder.

Bygger bro mellem fagområder

Selvom en del af de mønstre, der afsløres af sådanne visualiseringer, næppe vil komme som en overraskelse for eksperter indenfor de relevante fagområder, er det veldokumenteret i litteraturen, at sådanne nye perspektiver er i stand til at generere nye hypoteser om selv meget velstuderet materiale. En yderligere fordel ved denne intuitive og legende visuelle formidling af information er, at den har stort potentiale for at engagere almene borgere i at interagere med samfundsrelevante data.

Eksemplerne i denne artikel viser, at en og samme visualiseringsteknik kan understøtte vidt forskellige forskningsundersøgelser. Denne generaliserbarhed er uvurderlig, da den rummer potentialet til at bygge bro mellem datalogi og mange andre fagområder. Uden visualiseringer vil algoritmiske metoder ofte være utilgængelige, resultater vil være uforståelige og iboende mønstre i data vil forblive skjult.

Artiklen er oprindeligt bragt i Aktuel Naturvidenskab Nr. 5-2020. Artiklen er oversat fra engelsk og redigeret af Carsten R. Kjaer.

M酶d forskeren

Stefan J盲nicke er adjunkt ved Institut for Matematik og Datalogi. Han besk忙ftiger sig med at udvikle informationsvisualisering og visuelle analytiske teknikker inden for et bredt spektrum af interdisciplin忙re forskningsprojekter.

Kontakt

Redaktionen afsluttet: 02.11.2020