Google köpte 20 milioner gamla tidningssidor från Paperofrecord.com

Tidningssidorna är digitaliserade och Google har köpt dem från Paperofrecord.com. Digitaliserad kan ju betyda väldigt många olika saker t.ex. att det är bilder av tidningssidorna. Faktiskt är det just detta som det handlar om så vitt jag tolkar exemplet som Paperofrecord.com hänvisar till: The Toronto Star. Paperofrecord.com skriver dessutom:

"[...]PaperofRecord.com® is a Global pioneer of searchable newspaper image documents presented in their original published form."

Digitaliseringen innebär inte som med bl.a. Project Runeberg att de presenteras både som digitalbild och html-sida. Istället kan det se ut t.ex. som nedan där bilden av tidninssidan presenteras som PDF-fil:

Att den här PDF innebär emellertid inte att man kan söka i löptexten utan det är just en bild av tidningssidan som fotograferats.

Dessutom finns en sökfunktion
Till det har Paperofrecord.com lagt till något som gör det "sökbart". Exakt vad det innebär och hur det fungerar har jag inte lyckats ta reda på men min spekulation efter att ha prövat lite är att de nog använder bildanalys för att ta in rubriker ur respektive tidning och att nyckelord där används som taggar där dessa taggar blir motorn i sökalgoritmen.

Enligt pressmeddelandet tänker Google försöka få in arkivet i Google News:

"'Acquiring the rights to the PaperofRecord.com content enabled us to include a robust set of Canadian newspaper content very quickly in our News Archives initiative -- such as the Quebec Chronicle-Telegraph, the oldest newspaper in North America -- as well as a number of interesting US newspapers.', according to Punit Soni, Product Manager, Google News Archive. "

Är det här ett bra köp?
1. Det handlar dels om hur svårt det är att digitalisera historiska tidningar och vad det kostar om man inte köpt det. Spontant känner jag att det bör vara lätt och billigt åtminstone i varje fall där copyright inte längre gäller. Men samtidigt tar allt tid och oförutsedda problem uppstår alltid. Kan man slippa att göra det själv är det nog välkommet för de flesta.

2. Dessutom är det också viktigt om folk egentligen vill läsa tidningar på det här sättet. Generellt tror jag inte det utan folk är vana vid html och att publicera i något annat format på nätet är dumt. Bilder som sedan i sin tur stoppas in i PDF-filer är långt ifrån det bästa alternativet. Samtidigt är det här naturligtvis en marginalgrupp av potentiella läsare som söker väldigt speciell information. Att få denna information på det här sätt är mycket lättare än alla andra sätt som redan är möjliga. Trots ett bökigt format blir det på det här sättet lättare.

3. Fråga tre handlar hur Google kan utveckla tjänsten vidare. Sökning kan de bra och access till ett abnormt stort arkiv med gamla tidningssidor handlar om sökning så vida man inte redan har ganska exakt information om ort och datum. Samtidigt är sökning av stora datamängder inte ett lätt område. Att köpa in något som man kan lägga något bra till man själv är nog inte så dumt.

4. Slutligen är det intressant att fråga sig hur svårt det är att få över bilderna till text. Det är naturligtvis viktigt redan i tre för att möjliggöra sökning av hela textarkivet. Jag tror inte det behöver vara så himla svårt. Det är mönsterigenkänning som det handlar om och det är ett forskningsområde där man nått långt. Programvaror finns ju faktiskt också tillgängliga redan i flera öppna projekt som det svenska Project Runeberg. Det handlar nog främst nu om att programvarorna ska gå några generationer snarare än att mönsterigenkänning som forskningsområde behöver nå längre innan man kan få över sådana här sidor med färre manuella ingrepp än vad som krävs i exempelvis Project Runeberg.

Så det här kan nog vara ett bra köp för Google. Sedan gäller det också att de inte glömmer bort sina gamla projekt: Blogger, Gmail, Search m.m.

En stor guide till Google Nyheter finns att läsa på Nyhetsbloggen: Checklista Google News

Läs mer i pressmeddelandet som bl.a. finns hos Market Watch (The Wall Street Journal): "PaperofRecord.com Completes Sale of Digital Newspaper Archives to Google"

Hans Husman om Information Warfare

Google köpte 20 milioner gamla tidningssidor från Paperofrecord.com

Kommentera

Etiketter

Bloggarkiv