Digitala lägg

— Om pressens gränssnitt 1800
All mediehistorisk förändring är en kommersiellt driven jakt på nya marknader, publiker och konsumenter. Det gäller också presshistorien, i synnerhet under 1800-talet då det moderna industri-Sverige växer fram. Tidningarnas spalter utgör den infrastruktur i vilken ekonomin äger rum och tar plats, och i vilken den ekonomisk-politiska diskussionen förts. Det har dock inte uppmärksammats speciellt ofta – och pressens självbild är en helt annan. Den har länge varit (och är fortfarande) tidningen som garant för demokrati och fritt meningsutbyte. Presshistorien har dock alltid varit en fråga om pengar, och det är först genom att anlägga ett ekonomiskt-historiskt perspektiv som dagspressens egentliga former och konturer under 1800-talet framträder. Projektet tar fasta på att landets äldre... Läs mer →

Virala nyhetstexter – under 1800-talet

viral

Under 1800-talet är journalisternas redskap inte bara penna, papper och (senare) skrivmaskin – de baserar i allra högsta grad sitt arbete på att klistra och klippa artiklar med sax och kniv. Texter cirkulerade på ett helt annat sätt än idag, och upphovsrätten var det inte alltid så noga med. Hur texter på detta sätt kopierades och blev ”virala” inom det samtida nyhetssystemet är fokus för forskningsprojektet Viral Text Project – som beskrivs på följande sätt:

”During [the 19th century] texts published in newspapers and magazines were not typically protected as intellectual property, and so literary texts as well as other non-fiction prose texts circulated promiscuously among newspapers as editors freely reprinted materials borrowed from other venues. In the Viral Texts project, we’re asking: What texts were reprinted and why? How did ideas—literary, political, scientific, economic, religious—circulate in the public sphere and achieve critical force among audiences? By employing and developing computational linguistics tools to analyze the large textual databases of nineteenth-century newspapers newly available to scholars, this project will generate new knowledge of the nineteenth-century print public sphere.”

Ryan Cordell, som är en av de ansvariga forskarna, beskriver också vad projektet handlar om i den här korta artikeln, Texts That Went Viral…in the 19th Century.

 

Maskinläsning – om en kommande artikel

maskinläsning

Projektet kring ”Digitala lägg” har för närvarande ganska god styrfart – vi får programmeringshjälp av tekniker på HUMlab och håller på att i dagarna färdigställa en första artikel kring ”Maskinläsning. Om massdigitalisering, digitala metoder och svensk dagspress”. Pelle Snickars och Johan Jarlbrink jobbar på med texten – vars abstract ser ut som följer. Vi tänker oss möjligen en publicering i Nordicoms nordiska tidskrift framöver:

”Ingen forskare kan läsa hela 1800-talets svenska press – bara datorer. Utifrån en mediehistorisk infallsvinkel uppmärksammar därför denna artikel den digitala teknikens möjligheter att på ett generellt plan analysera stora textmängder på jakt efter lingvistiska mönster. Det sker exempelvis genom analys av ords samförekomster. Artikeln tar sin utgångspunkt i det faktum att Kungliga biblioteket i dagsläget digitaliserat fyra miljoner tidningssidor av Svenska Dagbladet, Aftonbladet och Dagens Nyheter. Frågan är hur de ska beforskas. Artikeln resonerar såtillvida kring de möjligheter som digitala metoder ger den samtids- och mediehistoriska forskningen. Digitala metoders forskningspotential är betydande. Vår artikel väjer dock inte för de problem (och ofta bristfälliga resultat) som den denna digitala forskning än så länge uppvisar. Texten uppmärksammar såtillvida en aktuell forskningsdialektik inom fältet för digital humaniora, där digitala metoder dels innebär betydande möjligheter för medieforskningen, dels att förhålla sig kritiskt till resultat de genererar.”

 

Söksträng för SOUer

sou

Ett av Kungliga bibliotekets allra främsta digitaliseringsprojekt på senare år (och konkurrensen är inte stenhård) är inskannandet av fler än 5 000 SOUer. De är alla fria och öppna publikationer, så här ställer inte upphovsrätten till problem beträffande tillgänglighet. Sammantaget är det ett fantastiskt material, inte minst beträffande dagspress och tidningar som är återkommande tema i flera SOUer, både mediepolitiskt och ur exempelvis ett bevarandeperspektiv. Gränssnittet till SOUerna lämnar visserligen en hel del att önska, och det är svårt att söka i textmaterialet på ett övergripande sätt. Men eftersom Google indexerar dessa öppna PDFer går det att via en vanlig söksträng att tvärsöka i alla SOUer: ”site:weburn.kb.se” + sökord som till exempel ”dagspress”.

 

 

Aftonbladet 1831-1862

aftonbladet_illustration

Inom ramen för Kungliga bibliotekets dagspressdigitalisering blir nu alltmer äldre tidningsmaterial tillgängligt, detta på beta-sajten Aftonbladet mellan 1831 och 1862 kan numera till och med laddas ned som torrent. Visserligen kan man som forskare – ja, rentav bör man – ifrågasätta den gräns som KB satt vid 1863 för vilket material som är fritt tillgängligt. Det är en gränsdragning och tolkning av immaterialrätten som är synnerligen sträng, och faktiskt inte har någon motsvarighet i Europa. Men det fria filerna på data.kb.se antyder likväl att institutionens riskminimering inte längre är lika rigid som den varit. Förhoppningsvis kan den framöver luckras upp än mer.

British Library – konferens om digitalisering av dagspress

british_library

I slutet av september 2014 samlades ett sjuttiotal bibliotekarier, forskare, byråkrater och representanter för tidningsbransch på British Library för en tvådagars workshop om digitalisering av tidningspress inom ramen för Europeana. Europeana samlar bibliotek, arkiv och museer runt om i Europa med syftet att göra kulturarvet digitalt tillgängligt. Det EU-finansierade projektet startade redan 2008, men tidningsdelen av projektet kom igång först 2012 och löper till januari 2015. Då ska 18 miljoner tidningssidor vara digitalt tillgängliga, och drygt hälften av dem sökbara i fulltext. Resultatet hittills presenteras kan man bland annat ta del av här. Det som avhandlades på denna workshop var vilka erfarenheter man gjort, vilka problem som återstår att lösa, och hur arbetet ska gå vidare när nuvarande finansiering upphör. Många diskussioner handlade om problemen OCR. Har vi nått ”peak OCR”? var det flera som undrade. Särskilt tröstlöst tycktes läget i länder där frakturstilen dominerat.

Ett annat tema gällde hur man ska stimulera EU-medborgarna att faktiskt använda de samlingar som nu är digitalt tillgängliga. Representanten för EU-kommissionen framhöll att ett viktigt mål med satsningen var att materialet skulle ge tillväxteffekter genom att återbrukas av kreativa näringar och turistindustri. Exempel av en annan art kom från den inbjudna talaren från Translantis. Digital Humanities Approaches to Reference Cultures: The Emergence of the United States in Public Discourse in the Netherlands, 1890-1990, som han ingår i vill man bland annat undersöka Amerikas inflytande över holländskt kulturliv, utifrån dagstidningar 1890–1990. Detta kräver emellertid verktyg för text mining och att forskarna kommer åt hela textmaterialet och all metadata – något som har varit mycket besvärligt att få igenom.

Problemen beror i hög grad på upphovsrätten och hur den tolkas. I alla EU-länder gäller samma regler, men hur de tillämpas när det gäller äldre tidningsmaterial ser mycket olika ut. Kungliga bibliotekets hållning – att sätta en gräns år 1863 – hör till de allra striktaste. I många länder har gränsen satts några decennier in på 1900-talet. Flera talare påtalade att den tidsperiod de flesta användare tycks vara mest intresserade av – från mellankrigstiden och framåt – är den som är minst tillgänglig.

För forskningens del såg det möjligen något mer hoppfullt ut. För upphovsrättsinnehavarna, representerade av tidningsbransch, sågs det som minst problematiskt att tillgängliggöra materialet för forskning. Därefter kunde man tänka sig tillgänglighet för skolor. Många utmaningar återstår alltså – tekniska såväl som juridiska och ekonomiska – men på längre sikt ser det ljusare ut.