söndag 29 mars 2015

Några tankar kring verk och data

Först en liten disclaimer: Jag är inte jurist och inte väldigt insatt i ämnet, men ser på saken som forskare, historiker och författare till en hel del text i olika forum och format. Jag ser väldigt gärna att man kommenterar, korrigerar och kompletterar i kommentarerna, om man vet mer om saken!


Fick nämligen igen orsak att lusläsa upphovsrättslagen. Den är ett lappverk, ett ganska dåligt fungerande och oändamålsenligt sådant, tycker jag. Dess syfte är att skydda den som satt ner arbete på att skapa något (ett verk), eller snarare upphovsmannens rättigheter att bestämma över verket och ekonomiska intressen. Detta syfte borde vi hålla för ögonen. Från början handlade det om böcker, om att det innebar stora ekonomiska risker att ge ut böcker och det behövdes avtal för att det alls skulle vara ekonomiskt möjligt. Lagen har också präglats av romantikens idéer om hur konst och kultur uppstår autonomt i huvudet på enskilda människor.

I dag ser vi kanske i allmänhet på saken på ett något annorlunda sätt. Konst är en form av kommunikation. Det handlar om att uttrycka saker, känslor, tankar, stämningar, insikter eller fenomen, och förmedla upplevelser eller ge möjligheter till nya självständiga tolkningar. Det finns alltid en mottagare, eftersom konsten, liksom allt inom kulturen, är en kommunikativ process. I verket ingår implicit hela processen.

I lagen har man, som ett naturligt steg i den historiska utvecklingen, fäst stor uppmärksamhet vid att begränsa tillverkande av exemplar. Att denna logik haltar kraftigt i digitala sammanhang har bl a Rasmus Fleischer påvisat, men trots det har man strävat till att försvara upphovsrättsinnehavarnas intressen på detta sätt. Man har blivit tvungen att till exempel skriva till underliga undantag om "tekniska kopior" som får göras, men att tillgängliggörande av digitala friexemplar måste ske i vissa i lagen angivna lokaler. Vad värre är, sätter man totala likhetstecken mellan data och verk. Data är inte ett verk, förrän det öppnas med ett program som gör det tillgängligt för tolkning. En jpeg-fil är inte inte ett verk, inte förrän du har öppnat filen med ett program som visar en bild!

Lagstiftningen har i alla fall trassalt till det ordentligt för forskningen. En mycket viktig metod inom digital humaniora består av så kallad textutvinning (gruvdrift i text, text mining, ofta text and data mining, TDM). Det finns idag möjligheter att maskinellt plöja igenom data för att få fram information. Man kan söka efter mönster eller anomalier, som är av värde för att få fram ny kunskap. Man använder alltså inte program som man normalt visar texten med, utan helt andra typer av mjukvara. Det kallas också distansläsning, i motsats till närläsning.  I USA har man inom forskningen (och även annars, delvis, jfr Google) med hjälp av den k s Faire use-regeln kunnat bedriva forskning av denna typ också med material under upphovsrätt.

Inom EU-har man nu vaknat till att detta kanske inte är ett riktigt bra läge. Vi i Europa riskerar bli ännu mer efter vad gäller utnyttjande av data. Därför arbetar man nu på att få ett undantag för forskning. Arbetet har inte varit lätt. Upphovsrättslobbyn är mycket stark och den vill förstås på alla sätt svälla ut sina licenser till nya domäner. Samtidigt är det ganska uppenbart att läget nu är väldigt orättvist för forskare i många europeiska länder, inte minst Finland, där man tolkar lagen strikt och värnar om licenssystemet. I Storbritannien har man gått en egen väg redan tidigare vad gäller copyright. Man vill förstås bevaka upphovsrättsmännens intressen, men frågan är med vilken rätt det sker då vi talar om data och till vilket pris det egentligen sker i dag. Vi arkiverar till exempel för dyra pengar webben, ett absolut måste av kulturarvsliga och juridiska skäl, men samtidigt kan forskarna inte använda materialet ordentligt. Läget är absurt.

Inom Open Access-rörelsen har man just velat möjliggöra TDM av forskningstexter. Det har just ansetts vara en viktig del av hela idén med öppet tillgängliga forskningsresultat. Man har kanske sett lite olika vägar till detta, ofta betonar man att upphovsättsinnehavarna borde dela sina texter med Creative Commons-licenser, vilket ju förstås vore bra för det skulle faktiskt möjliggöra större spridning också just som kommunikation. Men ett enklare och effektivare sätt skulle ändå vara att stifta om en inskränkning i upphovsrätten - helst överlag, vilket vore mer än rimligt, men åtminstone för TDM.  Om vi faktiskt vill främja finsk forskning vore detta ett enkelt och förmånligt sätt. Jag har svårt att se att det skulle handla om stora pengar för upphovsrättsorganisationerna (och i verkligheten följer av ett TDM-undantag inte ens en förlust av kontroll, på ovan framförda grunder) och den samhälleliga alternativkostnaden är alldeles för stor.

Definitionen av ordet verk har alltid varit svår då det gäller upphovsrätten. Definitionen av exemplar borde också granskas lika kritiskt. Men framför allt borde man lita på forskarnas etik och göra en liten riskanalys. Vad är det värsta som kan hända om forskare och arkiv tillåts göra sitt jobb?


lördag 28 mars 2015

Framtidens forskning är öppen forskning

I går höll vi igen ett viktigt seminarium inom Öppen forskning och vetenskap-initiativet. Det var ett slags stormöte med mellanrapportering; cirka ett år efter starten har nu många av de arbetsgrupper som tillsatts kommit fram till olika saker och några nya viktiga saker håller på att ta form. Eftersom  i stort allt arbete görs helt på finska, kan jag här försöka återge några poänger på svenska för omvärlden att ta del av. Varning dock för att jag antagligen något tendentiöst kommer ihåg och sammanfattar särskilt sådant som blir ett eller några enligt mig viktiga bärande teman.

Policy-gruppen har fokuserat på forskningsinfrastrukturer (dvs mojänger och system) och funderat på öppenhet, användningskriterier och andra principer. Faktum är att det finns mycket olika typer av infrastrukturer, allt från mätinstrument och laboratorier till informationsresurser som arkiv och bibliotek. Ett stort problem är att dessa inte är särskilt väl beskrivna för andra att hitta, för att inte tala om att veta på hurdana villkor de kan användas. Det säger sig självt att det skulle vara fiffigt om dyra resurser används så effektivt (mycket) som möjligt. Från ministeriets sida har man därför bestämt att upprätta ett register över dessa inom initiativet. Följande utmaning blir sedan att faktiskt samla in informationen i ett tillräckligt rikt och enhetligt format. Nyckeln är alltså metadata om infrastrukturerna. Ordförande Aspila talade mycket om behovet av sökbarhet/hittbarhet och användarvänlighet, samt det faktum att det oftast också måste ingå service. Som ett lysande exempel nämndes inte oväntat dataarkivet. Det räcker sällan att veta om att någon resurs existerar, det behövs också annan hjälp och olika tjänster.

Publikations-gruppen har utrett Open Access-situationen i olika länder och konstaterat att det finns en klar internationell utveckling mot allt starkare manifesterad OA-politik i Europa. I flera länder är nationella regelverk i kraft eller under arbete.  Vidare har man studerat publikationsarkiven och deras användning i Finland. Resultatet är bedrövligt. Detta beror dock till en del (förhoppningsvis) på att man inte har ordentlig metadata om saken. Här finns verkligen skäl till skärpning över hela fältet, med undantag av yrkeshögskolorna. Man rekommenderar bland annat OpenAire-kompatibilitet. Om man vill se på saken positivt, kan man konstatera att detta är ett område där det går att åstadkomma radikal förbättring. Vidare bör man å det snaraste se till att finansieringen av OA-publikationerna och publiceringen för forskare är tryggade.

Datamodellerings-gruppen har jobbat flitigt främst med frågor kring forskningsdata och hur information om data kan röra sig mellan olika system. Man har konstaterat att den rudimentära minimimetadatamodellen som tidigare tagits fram duger för sökning, men forskarna behöver mycket rikare metadata för att faktiskt kunna använda data. Också terminologiskt arbete och ontologier kommer att ha en nyckelroll för en framgångsrik fortsättning. Termerna måste vara tillräckligt enhetliga för att saker ska fungera.

LDB-gruppen är redan på god väg, tack vare att man bygger på tidigare arbete inom kulturarvssektorn. Samtidigt finns det ju en hel del att begrunda vad gäller bevaringsplaner och -principer. Hur ska man säkra tillräcklig metadata och dokumentation och tillgängligheten av dessa? Vilket urval, av vem och hur ska det hela gå till? Hur göra med versioner och föränderliga resurser, om man t ex vill korrigera fel? I vart fall har man övergått till att tala om pitkäaikaissaatavuus (långvarig digital tillgänglighet) istället för pitkäaikaissäilytys (långsiktigt digitalt bevarande), vilket jag anser vara närmast genialt.  Kanske vi borde revidera den svenska termen också? Också här handlar det om att kunna erbjuda forskare tillräckliga, användarvänliga tjänster och stöd.

Esa-Pekka Keskitalo från Nationalbiblioteket leder arbetet med LDB


Rättighets-gruppen  fungerar som ett juridiskt stöd för arbetet. Man arbetar med rekommendationer och till exempel botten för olika typer av avtal, för att underlätta arbetet både för forskare och organisationer. Det är nämligen så att en hel del saker borde avtalas, för många saker är oändamålsenliga att lagstifta om, eftersom forskare har så olika situationer och intressen, beroende på vad de sysslar med. Generellt är Creative Commons-licenser ofta ett bra sätt att avtala om återanvändning av material som uppstår i samband med forskningsprocessen. De tryggar också forskarnas egna möjligheter att t ex fortsätta använda sina material, trots byte av arbetsgivare. Men också organisationer borde göra upp klara rekommendationer och riktlinjer och se till att det finns tillräckligt stöd och service för forskarna, så att de inte behöver sätt ner orimligt mycket tid på dylika frågor.

Indikator-gruppen  har för sin del funderat över mätbarhet och indikatorer, både gällande öppenhet och impact. Man ansåg det vara viktigt att det finns tillräckligt bra metadata alltså information om open access-publicerandet. Dessutom hade man undersökt altmetriken och kommit till att den inte ännu är tillräckligt utvecklade för att kunna användas som mätinstrument för impact. Däremot kan dylik statistik med fördel produceras för forskarna själva att ta del av, t ex statistik om antal nedladdningar av olika material borde finnas lättillgänglig.

Nykomlingen bland grupperna, service-gruppen, ska ta i tu med helheten: målsättningen är en enkel och fungerande helhet av tjänster, som samtidigt är tillräckligt flexibel för att stöda forskare med olika behov i olika skeden av forskningsprocessen. Gruppen har inte ännu konstituerat sig, men uppdraget är formulerat. Gruppens ordförande, Ville Tenhunen, konstaterade att det redan står klart att man kommer att särskilt vara tvungen att arbeta med semantisk kompatibiliet, det vill säga terminologier. Tekniskt är det redan i dag ofta möjligt att koppla ihop olika system och flytta information kors och tvärs, problemen uppstår då datas kvalitet inte är tillräckligt bra eller man använder vacklande vokabulär. Det är arbete som redan pågår på olika håll inom statsförvaltningen och som exempelvis tangerats i tidigare projekt inom forskningsförvaltning och datamodellering. Det är enkelt att rita lådor med pilar hit och dit, men hur det i verkligheten blir vettiga tjänster för användaren är svårare.

Vi avslutade dagen med en intressant paneldiskussion, där forskarna fick komma till tals. Det handlade om pionjärer inom öppen forskning, och temat var hur man kan motivera och engagera forskare till större öppenhet. För att driva igenom en modern kultur av öppenhet krävs ju också forskarnas engagemang och aktivitet. De innehar en nyckelroll och är både de största experterna på sin egen forskning och de som bär de största ansvaret både juridiskt och etiskt.

Jag har ovan kursiverat vissa nyckelord, så som metadata och termarbete och tjänster för forskare. I veckan firades Helsingfors universitets 375-årsjubileum och i samband med det ordnades också en protest mot styrningen inom högskolesektorn som för forskarna ter sig som både principiellt problematisk och arbetsdryg. Att i detta skede påföra forskarna nya "tjänster" som uppfattas som mera byråkrati (som att planera och ta hand om sina digitala material, fundera på juridik, LDB och metadata) är knappast något som kommer att sporra till större öppenhet. Många forskare misstänker jag att uppfattar att de kämpar för sin akademiska frihet och ser all slags "rapportering" som ett led i försök till styrning och kontroll för hur nyttiga och effektiva de är. Dessutom upplevs systemen inte sällan som svåra och tidskrävande att använda. Samtidigt är det av avgörande betydelse att vi kan få ordning informationen för att få dem bättre och mer effektiva för forskningens och vetenskapens egen skull.

Som Samuli Ollila lyfte fram under paneldiskussionen, behöver vi fokusera på forskningens egentliga syfte. Grundforskning ska göras uttryckligen vid universitet, det håller också industrin självklart med om. Allt prat om innovationer och nytta vid universiteten har blivit en black om foten. Ollila tyckte det vi främst behöver göra är undervisa studenter i vetenskapsfilosofi och sedan helt enkelt låta bli att lära dem gamla mönster och arbetssätt. De nya öppna metoderna är både naturliga och effektiva och kommer förr eller senare att krascha stora delar av det hur vetenskaplig forskning och kommunikation på många håll fortfarande bedrivs. Det verkar också så, att unga forskare nu uppmanas publicera i etablerade kanaler och måste gå omkring med irrationell skräck om att någon ska stjäla deras arbete innan de själv fått tillräckliga meriter enligt de gamla (föråldrade) systemen.

Själv tänker jag att en mycket stor orsak till rapporteringsarbetet och en verklig tidstjuv är det faktum att forskning i dag i så stor utsträckning bedrivs som projekt. Det skapar en vansinnig mängd arbete, eftersom det tar veckor och månader att göra en ansökan - ofta med ett eller några års mellanrum. Detta arbete har ändå nu blivit lite lättare eftersom man skapat mera administration inom universiteten för att stöda projekthanteringen - vilket i sin tur lett till att universiteten tar ansenliga avdrag av all inkommande forskningsfinansiering som ersättning för bl a dessa tjänster. Hela upplägget är ganska galet, tycket jag. Om en större del av forskningen kunde skötas med intern, direkt finansiering till universiteten och i normala tjänsteförhållanden, kunde man på riktigt sätta mer tid på forskning och också ha mer undervisning som baseras på (pågående) forskning, som idén är vid universitet.

Så även om jag tänker att det finns mycket att göra för att utveckla bättre och smidigare tjänster för forskare, så riskerar man hamna på fel spår om man inte väldigt tydligt, från början till slut, planerar alltsammans helt utgående från forskarnas behov. Det vill säga att man från ministeriet borde vara mycket, mycket försiktig med att tala om rapportering, tvång och styrning. Det är saker som måste komma i andra eller tredje hand just nu. Organisationerna själva har däremot all orsak att se till att genomdriva förbättringar, helt för sin egen skull.

På det hela taget är Initiativet för öppen forskning och vetenskap så här långt en framgång. Många lovande och intressanta grejer är på gång och det börjar också klarna vad som behöver göras för att uppnå målsättningen: att vara ett ledande land på området om ett par år. Målsättningen är inte alls omöjlig att uppnå, vi är redan på god väg, trots att det finns många utmaningar på vägen.












tisdag 24 mars 2015

En lösning i sikte för forskningsdata

I dag var det en glädjens dag när ett nytt projekt, Tuuli, lanserades inom initiativet för öppen forskning och vetenskap. Det handlar om en gemensam plattform, ett verktyg för att hjälpa forskare att få koll på sin informationsförvaltning. Det som är så extra superfint, är att det att ett nationellt projekt och det finns en möjlighet att många forskningsorganisationer och även finansiärer kan se nyttan med en dylik tjänst för forskare. Om vi får en gemensam lösning, har vi möjlighet att i ett slag få en massiv förbättring i det nationella läget. Det är en verklig win-win-win-situation och det är duktiga människor inblandade. Nu gäller det att hålla tummarna att många nappar på projektet.

I videon nedan presenteras en av kandidaterna och vad det handlar om.

 
DMPTool2 Promotional Video from California Digital Library on Vimeo.

lördag 21 mars 2015

Lite om digitala människovetenskaper och forskningspolitik

På finska har nu digital humanities fått ett etablerat namn: digitaaliset ihmistieteet. Området täcker, med dekan Arto Mustajokis ord, allt det som görs i Helsingfors centrumkampus. Det omfattar alltså de humanistiska, teologiska, juridiska, samhällsvetenskapliga och beteendevetenskapliga fakulteterna (och ett antal fristående forskningsinstitut om man beaktar den administrativa strukturen snarare än den innehållsliga). Kort sagt gäller det alla områden som har att göra med kultur, samhälle och människans beteende. Temat behandlades på Tankehörnan i onsdags.

Forskningsmaterialen består i praktiken oftast av texter eller andra kulturella alster eller data som berör beteende eller samhället. Sådana material som allt oftare är i digitalt format, så de facto är det en förändring som är genomgripande och omöjlig för alla forskare att förbigå. Just vid Helsingfors Universitet har man dessutom beslutat sig att satsa hårt på detta område. Det behövs satsningar på att utveckla kompetens och metoder ytterligare. Det är inte så att digital humaniora är något marginellt fenomen som några nördar sysslar med, utan det handlar om färdigheter som alla akademiker borde ha ett hum om. Ett digihumhum. En drivande kraft i Helsingfors har varit just Mustajoki, som själv är en föregångare på området.

Mustajoki var också aktuell på fredagen, då EVA (fd Näringlivets delegation) inför valet lanserade ett programutkast för att rädda den finska forskningen. Mustajoki har skrivit texten tillsammans med Aalto unis rektor Tuula Teeri. Det lönar sig att ta denna text på allvar, eftersom EVA tidigare visat sig vara en mycket stark lobbare vad gäller högskolepolitik och forskning. Det är kanske inte så förvånande att sakkunniga från huvudstadsregionen och landets största högskolor förespråkar stora enheter och nedläggning av löst sysslande av varierande kvalitet ute i regionerna, och att det passar industrin och näringslivet med sådana tankar. Men författarna lägger också fram evidens för sina påståenden. Texten är skriven helt från ett ekonomiskt perspektiv, där man diskuterar endast utgående från innovationskapacitet och effektivitet. Att högskolor och universitet skulle finnas till för att höja bildningsnivån i allmänhet eller livskvaliteten för medborgarna är inte en dimension som beaktas (tillägg: om man inte ser sysselsättningsgraden som en sådan). Det är viktigt att systemet är effektivt och producerar goda resultat i internationella sammanhang och då bör enheter vara stora. Punkt.

Det blir bra kvalitet endast sporadiskt om systemet bygger på små splittrade enheter som är utspridda över hela landet. Och inte ens det, menar Teeri och Mustajoki. Vid universiteten finns 54 olika discipliner och av dem finns hälften representerade vid sex olika universitet. Inga av dessa ämnen når världsklass, menar skribenterna. Jag funderar ändå på om det kanske är så, att det finns områden som hör till en akademisk miljö, där man inte ens behöver ta fram forskare som får våldsamt mycket citat i internationella index, utan de har ett allmänbildande självändamål? Till dessa ämnen hör en hel del humanistiska ämnen. Jag funderar också på det, att det faktiskt är helt rimligt att studier och forskning kan ske på vissa orter, att begåvningar kan förväntas ta sitt pick och pack och flytta både inom landet och för utlandsvistelser. Den låga rörligheten är ett ett stort problem har jag förstått. Men samtidigt tänker jag att det nog är väldigt nyttigt att umgås över disciplinära gränser om man vill ha balans och innovation i samhället. Det är alltför lätt att tappa förståelsen för andra kompetenser om de blir för främmande.

Skribenterna lyfter också fram en av de verkligt stora bristerna i universitetslagen: att man på inget sätt belönar eller mäter samhällsnyttan, som ändå är ett uttalat uppdrag i samma lag. Dessutom är de kvalitativa mätarna inte tillräckliga, anser de. Ett förslag de kommer med som jag verkligen starkt vill avråda från är att börja utnyttja citatindex. Man må tycka vad man vill om Jufo, men där har man ändå försökt göra ett system som mera betonar kvalitet än rent kvantitativ utvärdering. I synnerhet som skribenterna förespråkar att universiteten ska specialisera sig mera, blir ju användningen av citatindex en totalt oduglig mätare: vi har inte att göra med jämförbara storheter, dvs index från olika områden. (Den som kan läsa finska kan med fördel ta del av denna introduktion till citatindexens värld ) Jag skulle hellre se, att det universitet som tar hem Fackfinlandia-priset får en extra miljon ... Däremot tycker jag att kvalitativ utvärdering är en mycket bra idé, liksom ökat internationellt samarbete. Här finns också helt konkreta praktiska saker man kan göra från politiskt och administrativt håll för att underlätta detta. Också ministeriet måste vara mycket starkt internationellt engagerat. Som avslutning förespråkar denna utredning en riktigt rejäl investering i forskningsinfrastrukturer.

Det händer mycket och vi får knappast se något snart slut på omorganiseringar i vårt drabbade land. Vi har sysslat med dem ett bra tag.  De stora kostnaderna som uppstår både direkt och indirekt brukar alltid smidigt legitimeras med kvalitetsförbättring.  Fast sällan har jag sett uppriktiga kostnadskalkyler heller. Och när det gäller forskning och vetenskap är det alltid ganska riskabelt att börja tala om nytta och resultat, för det är mycket svårt, om inte omöjligt, att få en klar helhetsbild av långsiktiga investeringar och effekter. För att inte tala om svårigheten att värdera bildning i sig. Vilket kanske ändå skulle vara det allra med kostnadseffektiva och motiverande ledarskapet.






fredag 20 mars 2015

Stor förändring i Googles sökningar och datalänkningen

Jag hade helt missat nyheten som tydligen kom redan i december att Freebase blir read-only redan om några veckor. I stället övergår Google till att använda Wikidata. Det låter kanske fjärran från vår vardag men det är faktiskt en stor sak, tycker jag både principellt och praktiskt. Det påverkar åtminstone alla som använder Google ...

Vad handlar det då om? För några år sedan lanserade Google ett system med semantiskt bättre strukturerad data, Google Knowledge Graph. För användarna märktes detta främst som att Googles sökresultatsida fick en faktaruta till höger. Redan i detta skede var Wikipedia en viktig källa för den information som användes.  Då i form av DBpedia (se bilden nedan). En annan viktig källa var Freebase som Google köpt upp några år tidigare, när man insåg var sökteknikerna är på väg: det blir allt viktigare med semantiskt bättre strukturerad information. Inom Wikimedia hade man också insett detta och startat ett projekt, Wikidata, för att förbättra och berika den enorma mängd data som finns.  Nu har Wikidata blivit så bra att man lägger ner Freebase. I stället ska data föras in i Wikidata.

Både Freebase och Wikipedia har till stora delar gjorts genom crowdsourcing, dvs genom frivilligarbete. Bakom Freebase har det funnits ett företag, medan Wikimedia är en stiftelse. På sätt och vis har nu det "ideella" segrat - å andra sidan kommer Google att få ett större inflytande på innehållet i Wikidata. Det är ett tveeggat svärd. Det kommer säkert att innebära en ännu rikare informationsresurs, men det kommer också att föra oss mot en på sätt och vis mer "entydig" sanning. Trots att både Google och Wikipedia har varit noggranna med att bara koda in "enkla fakta" i sina databaser, har det ändå funnits rum för olika sanningar.

Därför blir det också ännu viktigare att vi vinner användare för andra liknande resurser, s k ontologier. För det finns många, många av dem. För den som vill friska upp sitt minne kring vad det handlar om rekommenderar jag Tim Berners-Lees TED-talk från 2009. Det var han som uppfann webben och i videon förklarar han varför det bara var början och hur man bör gå vidare. Och också gjort. Men den digitala revolutionen är faktiskt bara i startgroparna, trots att den redan skakat om våra liv och vårt samhälle ordentligt.


LOD Cloud 2014

På webben finns i dag mängder av liknande länkade resurser. Här läget 2014.
By Max Schmachtenberg, Christian Bizer, Anja Jentzsch
and Richard Cyganiak (http://lod-cloud.net/) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

måndag 16 mars 2015

Att bädda in en forskningsbibliotekarie

I dag ordnade Finlands vetenskapliga bibliotekssamfund ett seminarium kring embedded librarians, alltså inbäddade bibliotekarier. Förändringens vindar blåser hårt i branschen i och med digitaliseringen. Bibliotekarierna besitter strategiskt viktiga kompetenser för forskarsamfundet. Det handlar bland annat om hantering av digitala forskningsmaterial, open access-publicerande och utvärdering av genomslag och resultat med hjälp av olika indikatorer. Allt detta kräver att bibliotekarierna ökar sin egen kompetens på dessa områden och går ut bland sina kunder och marknadsför sina kompetenser. I själva verket framförde Tuula Hämäläinen en bra poäng: hon ville sluta tala om kunder, bibliotekarierna borde arbeta integrerat med forskarna, tillsammans mot gemensamma mål.

Minna Niemi-Grundström. Bara kvinnor i talarstolen denna gång ...



Centrala teman var just de om dialog och proaktivitet, om ledarskap och kommunikation. Minna Niemi-Grundström talade om att man i dag verkar i en komplex situation, där det till exempel är svårt att hålla utvecklingssamtal enligt traditionell modell. En komplex och föränderlig miljö kräver ett mer flexibelt grepp, där man är färdig att pröva på olika saker och handleder varandra i att lära sig nya kompetenser. I själva verket, sade Hannele Fabritius, kommer endast en tiondel av all kompetens från vanlig utbildning. Det mesta måste man lära sig medan man arbetar med konkreta saker.

En fråga som kom upp hela tiden i diskussionerna var behovet av fortbildning för de nya uppdragen. I dag räcker det inte att bibliotekarier kan leta fram forskningsresultat, utan deras kompetens behövs under hela forskningsprocessen från planering av insamling av data till hjälp med publiceringen och arkiveringen. En hel del av arbetet är ganska tekniskt. Vi diskuterade också bilden av bibliotekarien, som ofta präglas av en gammaldags idé om uppdraget som folkupplysare (kansankynttilä har ingen bra svensk översättning jag kan komma på). Den kommunala bibliotekstanten forskare lätt ser framför sig då man tänker bibliotek är kanske inte den första man kommer på att fråga om man har tekniska frågor om hantering av data ... Det slog mig när jag satte och funderade på den förkrossande kvinnodominansen i publiken, att jag själv ibland blivit avfärdad med att saker nog är så "tekniska" att jag inte ens behöver försöka förstå. Lyckligtvis är det ganska länge sedan.

Också behovet av proaktivitet restes. Det står helt klart att forskningsprocessen idag blivit så pass komplicerad att den sällan eller aldrig kan klaras av av en enda person. I alla fall om man ska ha digitala material och processer med. Man måste helt enkelt arbeta tillsammans. Inte heller bibliotekarien kan veta allt dag ett, utan man måste reda ut saker tillsammans med forskare, it-personal, jurister osv och forskaren är den som känner sina material och behov bäst. Det innebär att bibliotekarierna borde kunna marknadsföra sin kompetens fast de omöjligt kan ha alla svar färdiga. Det kräver ganska stark självkänsla. Men också forskningsorganisationerna måste koppla in bibliotekarierna då de planerar sina datapolicyn och linjedragningar och se deras kompetens. Och bibliotekarierna behöver organisationens erkänsla och stöd och policy att förmedla och applicera. Om organisationen saknar övriga strukturer och principer kan bibliotekarien inte heller trolla fram dem. Det innebär att bibliotekarierna inte endast måste ut och arbeta med forskarna, utan de måste också bäddas in i hela organisationen och tas med då man planerar strategiskt viktiga saker i kunskaps- och forskningsorganisationer.

söndag 15 mars 2015

Ultra Open Science

Det finns alltså folk som faktiskt bedriver öppen forskning, seriöst öppen forskning. Det kräver ganska mycket mod och tilltro, att lita på att det vi-tänk (rekommenderar varmt videon nedan) som driver både Wikipedia och utveckling av öppen källkod, ska funka också inom det akademiska. Egentligen är det helt absurt att det blivit så, eftersom transparens och tro på utveckling genom dialog är helt grundläggande grejer inom forskning och vetenskap, och borde vara helt självklara saker för varje forskare. Men vi har sega strukturer som drar åt andra hållet, mycket sega. Därför är det så väldigt roligt att lyssna på människor som struntar i strukturer och istället bara gör det som är rationellt och vettigt.





I tisdags ordnade finska Open Knowledge Foundations forskningssektion tillsammans med forskarkollegiet vid Helsingfors Universitet och digitaliseringsprofessorn Mikko Tolonen en givande Show & Tell-frukost gällande radikalt öppna forskningsmetoder.

Vad som är påfallande är att ingen av dessa forskare hittills verkar ha haft några större bakslag eller problem. Snarare tvärtom. Det verkar ganska klart att delad kunskap är mångfaldig kunskap också inom forskningen och det hela vägen. Samuli Ollilas projektpresentation är intressant. Jag rekommenderar att man bekantar sig med det om man vill komma lite djupare in i problematiken.

Dessutom var det för mig personligen mycket intressant att lyssna till och tala med Eetu Mäkelä kring strukturering av texter och arbete med metadata och ontologier. Vi berörde också digitala tidningsmaterial och metadata i våra diskussioner. Det är ett mycket aktuellt och intressant område och det skulle nog vara mycket intressant att höra vad de centrala finlandssvenska aktörerna tänker om dessa frågor.

Jag skrev en kort bloggtext på finska utgående från evenemanget.

söndag 8 mars 2015

Digital text och forskning - vad, hur, varför?


Digital humaniora

En allt större del av forskningen i dag använder sig av informationsteknologi på sätt eller annat. Kanske man redan vågar säga att all forskning gör det. Allt flera forskare jobbar med digitala källor, material och metoder. Detta gäller också humanister. Samtidigt har vi en närmast exponentiellt växande mängd digitala material i världen, både digitaliserade och digitalbaserade. Vi lever i en värld i en brytningstid, som vi försöker förstå och greppa.

För humanister är alla slags data och informationsresurser potentiell forskningsdata. Det finns mycket stora mängder information och kunskap att utvinna ur dessa resurser. Detta är man också politiskt mycket medveten om; vi behöver bättre beslutsfattande, bättre förståelse för hur samhället och människorna fungerar. Därför satsar man på digital humaniora och samhällsforskning. Nu gäller det att hänga med, för farten är hisnande.


Den digitala texten som material och källa

Hur kan man då hantera och behandla digital text och hur kan dessa material ge ny kunskap? En ny självklar ansats är att utvinna information med hjälp av olika typer av mjukvara. En dator kan "läsa" och analysera text snabbare och mer effektivt än en människa någonsin kan. Denna s.k. gruvdrift i text (text mining) har t ex inom litteraturvetenskapen kallats "distant reading". Med hjälp av algoritmer kan man få fram statistiska analyser av textmassor, man kan analysera och gruppera texter enligt typer, skapa olika typer av klusters på basis av olika typer av likheter. Man kan få fram strukturer, likheter, skillnader, tendenser och anomalier som man kan analysera och förklara. Genom att med hjälp av datorer "zooma ut" från texter kan man vinna nya insikter. Att göra den senare delen av forskningsprocessen, att tolka och förklara, behövs mycket traditionell akademisk humanistisk kunskap. För att göra den förra delen krävs av humanister å sin sida ett öppet sinne och en förmåga att samarbeta med och lära sig av människor från andra discipliner. Möjligheterna till ny kunskap är fantastiska.

Den digitala texten är ofta ganska svagt strukturerad. Alldeles för svagt för att kunna användas riktigt effektivt i synnerhet av dem som är mer intresserade av innehållet och betydelserna i texten på en mer detaljerad nivå och kanske vill söka i den för att göra också närläsning. Därför vill forskare ofta förbättra texten och öka informationen i den. Språkvetare vill till exempel lägga till information om ordklasser eller information som ordets grundform eller något annat som förbättra möjligheterna att söka och analysera texterna. Detta görs i dag i form av annotering, vilket innebär att man helt enkelt lägger till information in i texten. Det kan numera göras automatiskt av system med artificiell intelligens, men vad jag förstått går man ofta igenom allt också manuellt för att den ska vara korrekt och följa de kvalitetskrav vi har vant oss vid, då forskare tolkat och analyserat text och språk. Detta tillvägagångssätt följer i huvudsak en "platt" logik (av Schloen&Schloen kallad "dokumentbaserad" i en läsvärd artikel för den som vill veta mera), som av tekniska skäl gör det svårt eller omöjligt att inkludera flera parallella eller alternativa läsningar, i synnerhet om de inbegriper överlappande hierarkier.

Litteraturvetare, historiker och andra humanister och samhällsvetare vill ofta fokusera ännu mera på tolkning och betydelser i texterna. Problemet är ju att dessa är mycket kontextberoende och komplexa saker, inte sällan vaga och undflyende dimensioner av vår tillvaro som kan vara svåra eller omöjliga att fånga i ett format som kan förvandlas till data. Då behöver man nödvändigt också bryta det traditionella formatet med "löpande text" och "fotnoter och kommentarer", som vi vant oss vid under den hittills kända historiska tiden. Vi måste tänka i flerdimensionella struktuer och mycket mer komplexa relationer än enkla hierarkier eller löpande textsträngar.

Vid SLS har man i snart tio år arbetat med dessa frågor i det stora Topelius-projektet. Där har man lagt ner resurser på att ta fram tekniker som kombinerar annotering och databaser så att man kan söka i materialen på ett sätt som beaktar betydelser och innehåll. Man har använt sig av allmänna standarder där de funnits till hands och gjort ett minutiöst vetenskapligt utgivningsarbete, som kommer att vara av bestående betydelse. Samtidigt som det är ett utgivningsprojekt, är det ett forskningsprojekt, där man verkligen bemödar sig om att förse Topelius text med all tänkbar kontextuell information och ge framtida forskare bästa möjliga redskap att arbeta med materialet. Det säger sig självt att arbetet är mycket kostsamt och krävande. Och framför allt är det manuellt och arbetsintensivt. Det kräver mycket, mycket tid och sakkunskap att ta fram dylika sofistikerade digitala resurser. Vad som är fint är att man använt kompetensen och tekniken också på Edelfeltmaterial.

Fortfarande tampas man vad jag kan förstå också i viss mån med de begränsningar som den "dokumentbaserade" logiken medför (i praktiken TEI-kodens struktur) och på grund av den förhållandevis enkla struktur de länkade databaserna har (t ex ofta fattig inkodning av relationer). En annan aspekt är att även om man kan med nyare tekniker kan lösa dessa problem (se i Chicago och redan för flera år sedan vid Nationalbiblioteket  hur man med hjälp av en extremt noggrann annotering i kombination med användning av ontologier  försöker tackla problemen), är de fortfarande fruktansvärt arbetsdryga och kostsamma projekt som kräver mycket manuellt arbete och sakkunskap. Vi talar faktiskt inte, enligt min mening om någon "stor data", som också till sin definition anses vara av en helt annan karaktär, mycket "rörig och ojämn" data.

All den övriga enorma massan av data som vi inte kan behandla med dylika "silkesvantar" är ändå enligt den nya trenden minst lika intressant och värdefull för vår förståelse av vårt samhälle och vår kultur. Vi kan omöjligt bygga komplicerade system som kräver mängder av manuellt arbete för att kunna analysera alla dessa resurser. Gruvdrift ger oss endast nya frågor att besvara, fenomen att förklara och förstå.

Automatiskt berikande av text

Vi är alltså hänvisade till datorernas hjälp för att berika, organisera och tolka dessa material. Men vägen dit är lång. Ju mer data vi har, desto svårare blir det för oss att orientera oss och hitta det som är relevant. Kan vi någonsin få svar på våra frågor av en dator, som på riktigt kan "förstå" och tolka både våra frågor och materialen?

Vid Google har man arbetat med dessa frågor i mer än femton år, under de senaste decenniet dessutom med nästan astronomiska resurser. Man får idag hyfsade resultat vad gäller relevans och precision i sökningarna. Vad jag kan förstå arbetar men allt mera med teknologier som hör till eller är är nära besläktade med den semantiska webben (som t ex arbetet i Chicago jag nämnde ovan). Hur mycket manuellt arbete som är gjort vet jag inte, men jag tänker mig att man också i praktiken lagt ut en del av arbetet på sina kunder genom t ex Google+ och Freebase. Sannolikt har också öppna resurser som Wikipedias data varit av stort värde. (Jag tror förresten att få saker är så underutnyttjade i den akademiska världen som Wikipedias välstrukturerade data.) Men även om Google är bäst på att analysera och söka: vilken forskare "litar" på Google som något annat än ett nog så viktigt hjälpmedel? Vi vet ju inte ens hur sökningarna på riktigt fungerar? Den kunskapen ger bolaget heller knappast bort, ens för behjärtansvärda akademiska ändamål.

En annan viktig aktör i sammanhanget är IBM, som varit ledande och riktgivande flera gånger under de senaste decennierna i dessa frågor. Utvecklingen av artificiell intelligens och kommunikation mellan människor och datorer har väl kulminerat i Watson. Mycket spännande och intressant är också datorjuristen ROSS som är byggd på Watson. ROSS kan tolka fritt formulerade frågor (vilket också Google blir allt bättre på) och ge svar. Viktigt att beakta, om vi bedömer att ROSS utgör "state of the art" vad gäller maskinell tolkning, analys och kommunikation, är ändå att den bas av juridiska material systemet (jag höll på att skriva "han" ...) arbetar med är enhetligt, väl strukturerat och, vad ännu viktigare är, begreppsmässigt ovanligt entydigt.

Min bedömning är därför att det kommer att ta sin lilla tid innan vi kan få maskinellt gjorda semantiska analyser av några mer heterogena material som är riktigt bra. Om någonsin. Att kunna lita på att en sökning kan skilja på homonymer, eller ens använda synonymer eller simpla hierarkier, är långt ifrån självklart. Detta är mycket viktigt att forskare förstår.

Ännu några ord om metadata

Det finns ju en traditionell och effektiv metod att förbättra sökbarhet och klassificera innehåll som använts redan länge av professionella (bibliotekarier) och som också spontant blivit en del av webben i takt med att informationsmängderna exploderat och behovet av fungerande sökningar blivit allt mera akut. Det är det manuella taggandet av innehåll med hjälp av ämnesord eller andra typer av beskrivande mer eller mindre strukturerad information. Denna typ av information kallas som bekant metadata och är en förutsättning för all slags hållbar informationsförvaltning. Det är därför en del av kärnverksamheten och kärnkompetensen vid arkiv, museer och bibliotek. Att organisera och beskriva material så att man kan hitta det och använda det när det behövs. Sannolikt lönar det sig att använda tekniska hjälpmedel, men manuell kontroll förbättrar kvaliteten avsevärt tills vidare.

Dessa olika typer av kataloger och metadatasystem har ofta en historisk kontext som går långt tillbaka, vilket ger dem ännu ytterligare ett mervärde. Denna information kan dessutom också användas vid forskning som sådan. Den kan ge mycket kunskap om vår kultur. Det pågår också intressant forskning på området också i Helsingfors.

Det finns digitalhumanister som forskar i kod och påpekar det viktiga med att försöka förstå hur koden påverkar vår kultur och till exempel vetenskapen och forskningen. Att se datorkod som en kulturell resurs och som språk som spränger igenom och formar allt större delar av det vi gör i dag och hur vi tänker på saker är inte en dum idé, tycker jag. Koden är också kulturarv och en resurs. Det samma kunde man säga om olika kataloger och register som gäller vår värld och information om den, och information om informationen. Att producera och berika sådan information är en klok investering, som dessutom kan innebära praktisk nytta i vardagen för många människor.














torsdag 5 mars 2015

Strukturbråk

För ett antal år sedan var det högsta mode att syssla med "muutosjohtaminen", dvs att leda förändring. I praktiken gällde det att tackla förändringsmotstånd. När man i dag googlar termen är resultatet ganska roligt (kolla datum och kontexter ...). De som försökt driva igenom våra stora strukturreformer måste i tiden ha utsatts för all denna teori. Resultaten ser man i dag. Man har lagt ner enorma resurser på att utveckla processer och strukturer. Det har säkert fört en del gott med sig också, men nog har ju mycket gått åt pepparn också, verkar det som.

Själv börjar jag alltmer misstänka att man har (haft) en fruktansvärd övertro på betydelsen av administrativa strukturer. Man har fokuserat på att korva om organisationer och strukturer - då har man också fått "förändringsmotstånd" som man har kunnat syssla med att hantera. Som om omorganisation vore en lösning på varje problem.

I mina studier i service design stötte jag på en för mig ny figur, W. Edwards Deming. Kloka ord från 1950-talet, väl i samklang med en del samtida experter. Strunta i strukturerna. Om folk jobbar bra tillsammans är organisationens struktur sekundär. Omorganisation skapar bara förvirring och osäkerhet. Det är min misstanke. Sluta styra, led i stället.