Att läsa Aftonbladet på distans

För all lära känna materialet och testa metoderna har vi påbörjat arbetet med ett testcase: den elektriska telegrafen i Aftonbladet under 1830-, 40- och 50-talen. Hur presenterades denna medieteknik för läsarna? Vilka begrepp, platser och aktörer förekommer i textmaterialet? Hur förändras detta under de tre decennierna? Och hur kan vi rent praktiskt undersöka detta?

Kungliga Biblioteket har gett oss tillgång till hela Aftonbladet 1831–1863 som textfiler. Allt som allt innehåller detta material nästan 20 000 000 ord, varav omkring 10 000 000 är unika ord. En stor del av dessa förekommer endast en gång. Förutom en del ovanliga namn och utländska ord finns det ett stort antal ord som skapats av själva ocr-tekniken. Fyra exempel på New York får illustrera: NCWYORK, NEWIYOTK, NTWYOR, WYOSK. Ett e läses ofta som c eller t, r blir ofta t eller s, osv. Härtill tycks programvaran ha problem med avstavningar. En genomläsning av textfilerna från ett antal nummer ger vid handen att vissa av dem är närmast felfria, medan andra innehåller fel på varenda rad. Vad som förklarar kvalitetsskillnaderna återstår att förklara, men eftersom felläsningarna ofta är systematiska skulle man säkert kunna rätta en del av dem i efterhand.

För att göra det lättare för den som söker efter enskilda texter att hitta i sökresultatet har tidningssidorna, som ett led i digitaliseringen, segmenterats med en programvara som delat upp sidorna i mindre textblock. Målet har säkert varit att dela upp sidorna i enskilda artiklar och annonser, men i praktiken har flera texter ofta klumpats ihop med varandra i ett och samma textblock. För den som söker efter enskilda artiklar via bibliotekets gränssnitt är detta säker inget problem, men för den som vill bearbeta materialet med andra metoder krävs handpåläggning för att sortera ut de texter som är relevanta.

För att lokalisera textblock om den elektriska telegrafen använde vi dessa två ord, elektrisk och telegraf, som sökord. Eftersom texterna som sagt innehåller en hel del ocr-fel använde vi ett Levenshtein distance som tillåter två felaktiga bokstäver i respektive ord. På så sätt fångade vi upp relevanta textblock även om de innehöll varianter som CLEKTRISK TCLEGRAF, ELEKTHISK FELEGRAF och TEL@GRAFUND@RRÄTTE. Omkring 1200 textblock lokaliserades. Eftersom textblocken alltså ofta innehåller flera texter som behandlar helt olika saker har de bearbetats manuellt för att ta bort dem som inte är relevanta i sammanhanget.

I ett första metodtest har vi sökt efter samförekomster i textblocken, uppdelade efter decennium. Vanliga stoppord har sorterats bort. Storleken på fönstret har i detta första test varit fem – ett ord samförekommer med ett annat om de förkommer högst fem ord ifrån varandra. Ordpar som förekommer färre än sju gånger har sorterats bort. Längre fram kommer vi att testa med andra parametrar.

Vad framkommer då av denna samförekomstanalys? Hur läser programvaran Aftonbladet? 1830-talet är mindre spännande. Tre kortare texter i slutet av decenniet berättar om pågående experiment, bland annat en försökslinje mellan London och Edinburgh, vad denna kostar och hur alfabetets olika bokstäver förmedlas genom tråden. Tre ordpar fastnar i samförekomstsökningen: London-Edinburgh, Alfabetet-bokstäver, högst-pund.

1840.3

På 1840-talet börjar det hända saker. Visualiserat som ett nätverk i Gephi kan man urskilja tre övergripande teman i texterna. Den vänstra delen behandlar telegrafins möjligheter, diverse försök och nya linjer. Orden som hänvisar till detta är bland annat blixtens hastighet, högst intressant fenomen, löftet realiseras, lyckats nu, fullkomlig framgång, full verksamhet. Till höger finns sådant som hänvisar till telegram, tidningarnas användning av och konkurrens från telegrafin: meddelande och underrättelser, egna nyheter erhållas, aftontidningarna, artiklar, et cetera. I övre delen finns ett tema som handlar om utbyggnaden av telegrafen mellan olika orter och länder, avstånden och den nära kopplingen till järnvägen. Den elektriska telegrafen sägs ju ofta ha upphävt den traditionella relationen mellan avstånd och tid: tekniken för ögonblicklig kommunikation minskade avståndens betydelse. Det paradoxala är emellertid att texterna om telegrafens utbyggnad till mycket stor del handlar om avstånd. Telegrafen må ha överbryggat avstånden, men för att tydliggöra detta angavs avstånden ofta mycket exakt, i engelska mil. Mil och miles förekommer flera hundra gånger i materialet.

Under 1850-talet publicerade så många texter att en enkel visualisering blir betydligt mer svårtolkad. För att få grepp om hududdragen kan man ta fasta på de noder med flest länkar till anda noder: Elektrisk, telegraf, nu, alla, mil, emellan, tid, Telegrafverket, år, rdr (riksdaler), ny, telegraflinje, Stockholm, linje, station, först, ord, dag, stora, medel, svensk, riket, depesch, sätt, avstånd, England, tråd, kabel, London, förslag. Mycket handlar om avstånd, tid, kostnader och materiell infrastruktur. Förutom det inhemska hänvisas det framförallt till England och London.

1850.8

En tydlig aktör sticker ut: Telegrafverket. Vill man se en enskild nods placering i nätverket kan man enkelt visa det subnätverk som omger den, exempelvis noden Telegrafverket. Vad som framträder är beståndsdelarna av en byråkratisk diskurs av ämbetsmän, räkenskaper, reglementen och tillstånd. Något sådant fanns nästan inte alls på 1840-talet.

Telegrafverket 1850

En motsatt analysstrategi kan istället ta fasta på det marginella, det som finns med i texterna men som har en mer perifer roll. Grafen nedan innehåller alla noder som länkar till högst tre anda noder.

1850.7

Tittar vi på de ord som endast samförekommer med ett annat ord hittar vi bland annat dessa: Ingeniörer, vetenskapliga, experimenter, menskliga, underverk, jordklotet, fred, rättvisa, kommunikationsmedel, kultur, bildning, fantasi, leverop. Experimenten och telegrafen som intressant fenomen diskuteras en del under 1840-talet, men tycks vara mer perifera ämnen under 1850-talet. Telegrafen är ett fantastiskt kommunikationsmedel som skapar fred och rättvisa och bidrar till kultur och bildning, men dessa teman – som man ofta framhäver i mediehistorisk forskning – är knappast typiska för texterna som publiceras i Aftonbladet. Ett sätt att tolka det är att telegrafen under 1850-talet inte längre framhävs som en ny medieteknik. Ingenjörernas vetenskapliga experiment har ersatts av ämbetsmännens administration, underverk och fantasi har nu gett vika för Telegrafverk och byråkrati.

Distansläsning och makroanalys av större textmassor framhävs ofta som komplement till närläsning av kanoniska texter. Detta är exempelvis en av huvudpoängerna i Matthew Jockers Macroanalysis (2013): Andra teman kan synliggöras om man undersöker fler texter än de kanoniserade. Telegrafanalysen ovan behandlar en helt annan typ av texter än vad Jockers gör, men genom att ta med ett brett material kan den göra snarlika poänger. Många texter utgör redogörelser för anslag, befordringar, utlåtanden och sammanträdesprotokoll med Telegrafverket som avsändare. Det som handlar om teknikens under är klart underordnat. Också enskilda personers avtryck kan spåras på detta sätt. Reuter/s finns till exempel med, men inte alls under 1850-talet. Morse ger sammanlagt 22 träffar i materialet, men (Erik) Edlund, svensk fysiker anställd av Telegrafverket, ger 23 träffar.

Men detta är som sagt ett första metodtest, och alltför stora växlar kan inte dras ännu. Med en annan storlek på fönstret vid samförekomstanalysen, och en annan minimigräns för ordparsfrekvensen, kan resultatet se något annorlunda ut, även om huvuddragen borde vara desamma.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>