Digitala lägg

— Om pressens gränssnitt 1800
All mediehistorisk förändring är en kommersiellt driven jakt på nya marknader, publiker och konsumenter. Det gäller också presshistorien, i synnerhet under 1800-talet då det moderna industri-Sverige växer fram. Tidningarnas spalter utgör den infrastruktur i vilken ekonomin äger rum och tar plats, och i vilken den ekonomisk-politiska diskussionen förts. Det har dock inte uppmärksammats speciellt ofta – och pressens självbild är en helt annan. Den har länge varit (och är fortfarande) tidningen som garant för demokrati och fritt meningsutbyte. Presshistorien har dock alltid varit en fråga om pengar, och det är först genom att anlägga ett ekonomiskt-historiskt perspektiv som dagspressens egentliga former och konturer under 1800-talet framträder. Projektet tar fasta på att landets äldre... Läs mer →

Felegrafen

johan

I veckan kommer en delstudie av projektet ”Digitala lägg” att presenteras på den digitala humaniora-konferensen i Oslo – Digital Humanities in The Nordic Countries. Projektpresentationen heter, ”Att hantera felegrafen: Textanalys av smutsiga tidningar”, och anslaget ger en fingervisning om innehållet:

Aftonbladet kunde i en notis i oktober 1847 rapportera att ny teknik inte alltid är att lita på när åskan fått den elektriska telegrafen att sända obegripliga textmeddelanden. Liknande brus har uppstått när just denna gamla notis digitaliserats – men istället för åskan så är det nu den maskinella inläsningen (OCR) och den automatiska indelningen av textmassan till sammanhörande stycken som förvränger orden. Pionjärerna inom distant reading arbetar vanligtvis med mer grafiskt rena, ofta skönlitterära, böcker som är enklare att digitalisera. Att arbeta med tidningstexter innebär i högre grad att finna metoder för att hantera det omfattande brus som tillförts materialet genom digitaliseringsprocessen.

Projektpresentationen sker inom ramen för konferensens ”panel-poster” – och vår affisch kan laddas ned här: Nordic DHC_poster_Telegrafen_Roger_Johan_Pelle.

Signal & the Noice – Panel at 19th Century Conference

signal

The other day our project got a panel accepted at the upcoming conference, The New and the Novel in the 19th Century/New Directions in 19th-Century Studies in Lincoln, Nebraska next year. What we aim to talk about is the following:

The ongoing digitization of historical newspapers makes it possible to explore nineteenth century novelties in new ways. However, digitized 19th century newspaper files should be seen as novelties as well. The process of digitization, OCR, article segmentation, modes of presentation (depending on GUI) etcetera are, thus, all infrastructural settings that transforms newspapers into new objects with a specificity different from the original paper prints. By using ideas from the emerging field of digital artifact studies, the aim of this panel is to examine and methodologically analyze the potential (im)possibilities of digitized newspapers, as well as the characteristics of these digital objects. If DH-inspired textual research has regularly focused on graphically clean fiction and ’white media’ (resulting in a strong signal), applying digital methods to 19th century newspapers is a messy business—mostly resulting in noise. Departing from word occurrences of ”the electric telegraph”, and the way it was presented to Swedish newspaper readers from the 1830s to the 1860s, we have extracted every text containing the words ‘electric’ and ‘telegraph’ from one digitized Swedish newspaper, Aftonbladet. To discover patterns and trends we have analysed word co-occurrences and word frequencies. Such an analysis reveals that many, many words are ‘neologisms’ invented by the computer and OCR software—resulting, in for example, numerous (mis)spellings of ”the electric telegraph”—and hence that most ‘articles’ have been re-edited by the segmentation software. Noise reduction of signals from the past hence literally becomes part of the historical investigation process.

Digitizing 19th Century Newspapers at the National Library of Sweden—On Media Specificity

Pelle Snickars

During the 19th century journalists and newspaper editors frequently copied and pasted news items. These were inserted into and tailored to fit the specificity of the medium of the press—form, in short, affected content. The ongoing digitization of historical newspapers at for example the National Library of Sweden makes it possible to explore nineteenth century novelties in new ways. Yet, in a similar manner as during the 19th century digitization transforms content. The growing reliance on digital reproductions also raises questions regarding the function of such documents, especially the relation between newspaper source documents and consequent digital reproductions. In short, how reproductive is a digital reproduction? My presentation will depart from the ways in which 19th century newspapers have been digitized at the National Library of Sweden, with a focus on the actual transmission from the analogue to the digital domain. On a more theoretical level, the informative capacity of digital reproductions will hence be addressed. In fact, digitized 19th century newspaper files should be seen as novelties in a similar manner as the 19th century copied newspapers. The process of digitization, OCR, article segmentation, modes of presentation—depending on graphical user interface—are all infrastructural settings that transforms old newspapers into new media objects with a specificity quite different from the original paper prints.

Avoiding the lure of the novel by using digitized material

Patrik Lundell

That the newspaper press underwent profound transformations in the mid-1800s is an established narrative in Swedish press history: circulations grew, reaching new strata of society; new voices were heard; the notion of the public opinion, first and foremost articulated by and through the press, was established; with inventions like the high-speed press and the electrical telegraph time and space were compressed; etcetera. Much research has hitherto focused on what is understood as new and modern: new genres, new technologies, a modern layout, innovators and pioneers. These analyzes often depend on a limited number of canonized texts, written by leading newspapermen and published in presumably dominant papers. Although not false the picture needs to be completed – not everything transformed. Firstly, this paper argues that one reason for the dominating focus on the new and the novel in the history of the press is academic disciplinary traditions favoring certain questions and methods, combined with the quality of the source material. Hermeneutical interpretations and close readings of ‘key texts’, representing only a fraction of the vast total output, have led to a rather idealistic and teleological narrative of modernization and progress. Secondly, the paper discusses what new possibilities digitized press material and broad search methods opens for a better understanding of continuity, inertia and slowness. New methods make it possible to rediscover residual patterns and the mundane character of the newspaper press, beyond canonized texts and dominant papers.

The Electric Telegraph in Digitized Newspapers

Johan Jarlbrink

The ongoing digitization of historical newspapers makes it possible to explore nineteenth-century novelties in new ways. The aim of this paper is to examine the possibilities of the digitized newspapers, as well as the characteristics of these digital objects. My starting point is the electric telegraph and the way it was presented to Swedish newspaper readers from the 1830s to the 1860s. How was this invention described? In which contexts was the electric telegraph put in the articles? What are these articles really about? To answer these questions I have extracted every text containing the words ‘electric’ and ‘telegraph’ from one digitized Swedish newspaper, Aftonbladet. With immediate access to the text files, without being dependent on the interface provided by the National Library, it is possible to analyse the texts using digital methods. To discover patterns and trends I have analysed word co-occurrences and word frequencies. To get a better understanding of the data which makes this kind of research possible I have combined the methods of distant reading with a close reading of the digital format. Such an analysis reveals that several words are actually ‘neologisms’ invented by the OCR, and that most ‘articles’ are re-edited by the segmentation software. Distant reading is still possible, but researchers must pay close attention to the noise in the channel – just as the users of the early telegraph.

Att läsa Aftonbladet på distans

natverk

För all lära känna materialet och testa metoderna har vi påbörjat arbetet med ett testcase: den elektriska telegrafen i Aftonbladet under 1830-, 40- och 50-talen. Hur presenterades denna medieteknik för läsarna? Vilka begrepp, platser och aktörer förekommer i textmaterialet? Hur förändras detta under de tre decennierna? Och hur kan vi rent praktiskt undersöka detta?

Kungliga Biblioteket har gett oss tillgång till hela Aftonbladet 1831–1863 som textfiler. Allt som allt innehåller detta material nästan 20 000 000 ord, varav omkring 10 000 000 är unika ord. En stor del av dessa förekommer endast en gång. Förutom en del ovanliga namn och utländska ord finns det ett stort antal ord som skapats av själva ocr-tekniken. Fyra exempel på New York får illustrera: NCWYORK, NEWIYOTK, NTWYOR, WYOSK. Ett e läses ofta som c eller t, r blir ofta t eller s, osv. Härtill tycks programvaran ha problem med avstavningar. En genomläsning av textfilerna från ett antal nummer ger vid handen att vissa av dem är närmast felfria, medan andra innehåller fel på varenda rad. Vad som förklarar kvalitetsskillnaderna återstår att förklara, men eftersom felläsningarna ofta är systematiska skulle man säkert kunna rätta en del av dem i efterhand.

För att göra det lättare för den som söker efter enskilda texter att hitta i sökresultatet har tidningssidorna, som ett led i digitaliseringen, segmenterats med en programvara som delat upp sidorna i mindre textblock. Målet har säkert varit att dela upp sidorna i enskilda artiklar och annonser, men i praktiken har flera texter ofta klumpats ihop med varandra i ett och samma textblock. För den som söker efter enskilda artiklar via bibliotekets gränssnitt är detta säker inget problem, men för den som vill bearbeta materialet med andra metoder krävs handpåläggning för att sortera ut de texter som är relevanta.

För att lokalisera textblock om den elektriska telegrafen använde vi dessa två ord, elektrisk och telegraf, som sökord. Eftersom texterna som sagt innehåller en hel del ocr-fel använde vi ett Levenshtein distance som tillåter två felaktiga bokstäver i respektive ord. På så sätt fångade vi upp relevanta textblock även om de innehöll varianter som CLEKTRISK TCLEGRAF, ELEKTHISK FELEGRAF och TEL@GRAFUND@RRÄTTE. Omkring 1200 textblock lokaliserades. Eftersom textblocken alltså ofta innehåller flera texter som behandlar helt olika saker har de bearbetats manuellt för att ta bort dem som inte är relevanta i sammanhanget.

I ett första metodtest har vi sökt efter samförekomster i textblocken, uppdelade efter decennium. Vanliga stoppord har sorterats bort. Storleken på fönstret har i detta första test varit fem – ett ord samförekommer med ett annat om de förkommer högst fem ord ifrån varandra. Ordpar som förekommer färre än sju gånger har sorterats bort. Längre fram kommer vi att testa med andra parametrar.

Vad framkommer då av denna samförekomstanalys? Hur läser programvaran Aftonbladet? 1830-talet är mindre spännande. Tre kortare texter i slutet av decenniet berättar om pågående experiment, bland annat en försökslinje mellan London och Edinburgh, vad denna kostar och hur alfabetets olika bokstäver förmedlas genom tråden. Tre ordpar fastnar i samförekomstsökningen: London-Edinburgh, Alfabetet-bokstäver, högst-pund.

1840.3

På 1840-talet börjar det hända saker. Visualiserat som ett nätverk i Gephi kan man urskilja tre övergripande teman i texterna. Den vänstra delen behandlar telegrafins möjligheter, diverse försök och nya linjer. Orden som hänvisar till detta är bland annat blixtens hastighet, högst intressant fenomen, löftet realiseras, lyckats nu, fullkomlig framgång, full verksamhet. Till höger finns sådant som hänvisar till telegram, tidningarnas användning av och konkurrens från telegrafin: meddelande och underrättelser, egna nyheter erhållas, aftontidningarna, artiklar, et cetera. I övre delen finns ett tema som handlar om utbyggnaden av telegrafen mellan olika orter och länder, avstånden och den nära kopplingen till järnvägen. Den elektriska telegrafen sägs ju ofta ha upphävt den traditionella relationen mellan avstånd och tid: tekniken för ögonblicklig kommunikation minskade avståndens betydelse. Det paradoxala är emellertid att texterna om telegrafens utbyggnad till mycket stor del handlar om avstånd. Telegrafen må ha överbryggat avstånden, men för att tydliggöra detta angavs avstånden ofta mycket exakt, i engelska mil. Mil och miles förekommer flera hundra gånger i materialet.

Under 1850-talet publicerade så många texter att en enkel visualisering blir betydligt mer svårtolkad. För att få grepp om hududdragen kan man ta fasta på de noder med flest länkar till anda noder: Elektrisk, telegraf, nu, alla, mil, emellan, tid, Telegrafverket, år, rdr (riksdaler), ny, telegraflinje, Stockholm, linje, station, först, ord, dag, stora, medel, svensk, riket, depesch, sätt, avstånd, England, tråd, kabel, London, förslag. Mycket handlar om avstånd, tid, kostnader och materiell infrastruktur. Förutom det inhemska hänvisas det framförallt till England och London.

1850.8

En tydlig aktör sticker ut: Telegrafverket. Vill man se en enskild nods placering i nätverket kan man enkelt visa det subnätverk som omger den, exempelvis noden Telegrafverket. Vad som framträder är beståndsdelarna av en byråkratisk diskurs av ämbetsmän, räkenskaper, reglementen och tillstånd. Något sådant fanns nästan inte alls på 1840-talet.

Telegrafverket 1850

En motsatt analysstrategi kan istället ta fasta på det marginella, det som finns med i texterna men som har en mer perifer roll. Grafen nedan innehåller alla noder som länkar till högst tre anda noder.

1850.7

Tittar vi på de ord som endast samförekommer med ett annat ord hittar vi bland annat dessa: Ingeniörer, vetenskapliga, experimenter, menskliga, underverk, jordklotet, fred, rättvisa, kommunikationsmedel, kultur, bildning, fantasi, leverop. Experimenten och telegrafen som intressant fenomen diskuteras en del under 1840-talet, men tycks vara mer perifera ämnen under 1850-talet. Telegrafen är ett fantastiskt kommunikationsmedel som skapar fred och rättvisa och bidrar till kultur och bildning, men dessa teman – som man ofta framhäver i mediehistorisk forskning – är knappast typiska för texterna som publiceras i Aftonbladet. Ett sätt att tolka det är att telegrafen under 1850-talet inte längre framhävs som en ny medieteknik. Ingenjörernas vetenskapliga experiment har ersatts av ämbetsmännens administration, underverk och fantasi har nu gett vika för Telegrafverk och byråkrati.

Distansläsning och makroanalys av större textmassor framhävs ofta som komplement till närläsning av kanoniska texter. Detta är exempelvis en av huvudpoängerna i Matthew Jockers Macroanalysis (2013): Andra teman kan synliggöras om man undersöker fler texter än de kanoniserade. Telegrafanalysen ovan behandlar en helt annan typ av texter än vad Jockers gör, men genom att ta med ett brett material kan den göra snarlika poänger. Många texter utgör redogörelser för anslag, befordringar, utlåtanden och sammanträdesprotokoll med Telegrafverket som avsändare. Det som handlar om teknikens under är klart underordnat. Också enskilda personers avtryck kan spåras på detta sätt. Reuter/s finns till exempel med, men inte alls under 1850-talet. Morse ger sammanlagt 22 träffar i materialet, men (Erik) Edlund, svensk fysiker anställd av Telegrafverket, ger 23 träffar.

Men detta är som sagt ett första metodtest, och alltför stora växlar kan inte dras ännu. Med en annan storlek på fönstret vid samförekomstanalysen, och en annan minimigräns för ordparsfrekvensen, kan resultatet se något annorlunda ut, även om huvuddragen borde vara desamma.

Göteborgs Aftonblad

gbg_png

Projektet Digitala lägg har som en av sina utgångspunkter att studera Göteborgsrelaterad dagspress under framför allt 1800-talet. Därför är det glädjande att KB nyligen börjat att publicera digitala versioner på sin dagspressajt av Göteborgs Aftonblad. Det var en konservativ tidning som utkom mellan åren 1888 till 1926. Under framför allt dess första årtionde var den ett organ för konservativa kretsar i Göteborg – inte minst i den pågående åsiktskampen mot liberalerna i Göteborgs Handels- och Sjöfarts-Tidning.

Diskuterar man tidningssituationen i Sverige kring sekelskiftet 1900, kan man också notera att KB – utan att göra någon reklam för detta – lite sådär i skymundan förskjutit gränsen för vilket pressmaterial som tillgängliggörs fritt. Tidigare låg spärren vid det juridiskt synnerligen strängt tolkade årtalet 1865, men nu har KB tänjt på gränserna. Allt digitaliserat pressmaterial före 1900 finns numera tillgängligt online. Det är en föredömlig utveckling – som alla hyllar unisont.