lördag 15 februari 2014

Automatisk strukturering av innehåll och distanserad "läsning"

Digital Humanities Finland-nätverket i Finland ordnade i går sin första workshop i Nationalbibliotekets utrymmen i Helsingfors. Tanken med träffarna är att utbyta erfarenheter forskare, discipliner och institutioner emellan i en situation där ett nytt sätt att göra humanistisk forskning håller på att växa fram.

Det var otroligt fint att nästan trettio personer samlats för att diskutera s.k. text mining och topic modelling. Det handlar alltså om att göra statistiska analyser av text, som hjälper forskare att hitta mönster som kan vara osynliga för en mänsklig läsare på grund av textkorpusarnas stora omfattning. Jag tror jag vågar säga att dagens datahumanister är mindre positivistiskt orienterade än sina föregångare för några decennier sedan. Relationen mellan det kvantitativa och kvalitativa i forskningen är en av de mest intressanta frågorna inom digital humaniora i dag, anser jag själv, och det är en fråga som också ständigt tangeras, också i går. Det handlar inte (längre?) om att de kvantitativa "bevisen" prioriteras framom "subjektiv" mänsklig kunskap och tolkning, utan att kvantitativa och andra dylika metoder kan användas som stöd i argumentation och för att hjälpa forskare att hitta intressanta (för oss relevanta) mönster, strukturer eller anomalier, som behöver studeras närmare.

Professor Mats Fridlund inledde med att presentera en genomgång av användningen av dessa metoder i historisk forskning. Vad han har tillsammans med René Brauer var ute efter var, om man faktiskt fått fram någon ny kunskap genom att använda topic modelling, dvs att med statistiska sannolikhetsmetoder ta fram olika teman eller ämnesområden ur textkorpusar. Svaret var i princip nekande: de artiklar som lokaliserats var närmast tekniska test, som innehållsmässigt snarast bevisade saker man redan visste, de var oftast alltså vad man kallar proof of concept. Tekniskt utbildade personer var starkt representerade bland skribenterna, inte sällan unga män. Att humaniora varit drivande, eller att helt ny substantiell kunskap tagits fram, var inte alls klart. Fast ett litet glädjande exempel hade Fridlund precis fått i handen i form av en färsk artikel av Timothy Tangherlini och Peter Leonard, som faktiskt verkar ha hittat helt "nya" danska litterära modernister med dessa metoder (i Poetics, artikeln finns på Science Direct till det facila priset av knappa 40 dollar (39,95), har dock inte läst den så inköp sker på egen risk).

Följande presentation hölls av Hannes Toivanen från VTT, som tillsammans med Arho Suominen arbetar med att analysera material kring forskning med dessa metoder. Till exempel kan man jämföra på vilka områden det görs forskning och på vilka områden det ges mest patent. Cloun är att göra detta utan att se till vad forskarna själva eller någon bibliotekarie påstår att de sysslar med i sina rubriker, ämnesord eller klassificering, utan att göra det utgående från det faktiska innehållet i texterna. Det tuffaste var att Toivanen inte ens efter analysen vill kategorisera innehållsklustren med några etiketter, utan de representerades bara av ordmoln. Varje ords storlek representeras alltså då av sannolikheten att det förekommer i samma kontext (chunk) som de andra orden i molnet. Om jag förstod saken rätt. Noteras kan att överlappningen mellan var forskning görs och var patent ges verkade vara liten. Kanske skaffar universiteten lite patent? Kanske är det till och med bra?

Själv funderade jag ändå lite på hur mycket själva språkbruket inom specifika discipliner eventuellt döljer att man kanske substantiellt forskar i samma saker inom olika discipliner. Eller tvärtom. Epistem, den teoretiska referensram och de metoder man använder avspeglas ju givetvis i språkbruket - men säger det allt om substansen? Att man använder de senaste buzz wordsen i sin abstract eller ansökan? Nya digitaliseringsprofessorn Timo Honkela tangerade frågan om ordens innebörd senare i sin egen presentation, men han resonerade egentligen tvärtom och nämnde Wittgenstein som argument: att kontexten ger orden sin betydelse. Som semiotiker är jag lite skeptisk till ett så enkelt resonemang (och slå ihjäl mig, kallade Wittgenstein enkel ...). Dessutom nämnde Honkela detta bara i förbifarten och han har säkert mer utvecklade tankar kring detta. Jag hoppas jag snart får tillfälle att tala mera med honom.

Nästa var bokhistorikern Ilkka Mäkinen som på ett mycket intressant sätt diskuterade samspelet mellan kvantitativa och kvalitativa metoder. Hans senaste forskning hittar man via en tidigare essett. Hela tiden, av alla talare, underströks det hur viktigt det är att känna sin data, sitt ämne och kontexterna för att kunna göra meningsfulla och korrekta kvantitativa undersökningar. Att "distansläsa" en miljon böcker eller andra texter, betyder ingalunda att man slipper läsa hundratals och tusentals texter själv. Det är bara något man kan göra därtill.

Sist ut var Petri Paju och Timo Honkela, som berättade om olika metoder och projekt de jobbar med. Honkela förespråkade, liksom Toivanen, att man inte krånglar till saker för mycket. Enkla metoder är begripliga och transparenta. Honkela har bland annat sysslat med just att ta fram nyckelord genom frekvensanalys (Likey). Trots att de ännu i princip var ganska långt på proof of concept spåret, verkade det otroligt lovande och redan många av de exempel de kastade fram väckte många nya (forsknings)frågor, åtminstone hos mig. Jag vågar hoppas att vi rätt snart får intressant ny kunskap tack var vår nya professor Honkela. Ur forskningsdata- och arkivperspektiv är den framväxande forskningen fortfarande minst sagt utmanande.

Som helhet var dagen otroligt givande. Planeringen hade helt skötts av Mats Fridlund denna gång, men jag hoppas i framtiden kunna bidra mera, bara omständigheterna lite lugnar sig ....

Superenkel textmining med Wordle (endast frekvens).
Här innehållet i bloggen Historia i en digital värld.










Inga kommentarer:

Skicka en kommentar