Begin dit jaar begon communicatie technologie student Kalev Leetaru met het verzamelen van meer dan 14 miljoen foto’s van het publieke domein. Leetaru zette de verzamelde foto’s over naar het Internet Archief account op Flickr. Vanaf vandaag staan hier 2,6 miljoen afbeeldingen die gratis te downloaden zijn.
Leetaru gebruikte Optical Character Recognition (OCR) om de verzamelde foto’s over te zetten. Met behulp van OCR kon Leetaru zoeken naar bepaalde teksten binnen het archief. OCR herkent echter geen afbeeldingen. Leetaru heeft daarom de bestaande OCR software uitgebreid zodat er nu ook op publieke artikelen en foto’s kan worden gezocht die uitgegeven zijn tussen 1500 en 1922.
Volgens de BBC scande het OCR programma de boeken en secties van de tekst die herkend werden als afbeeldingen. Leetaru kon met behulp van zijn eigen software programma bepaalde delen terugvinden en hieraan de juiste afbeeldingen koppelen die vervolgens naar Jpeg formaat werden vertaald. Hiermee konden de foto’s geupload worden op Flickr.
Momenteel zijn er 2,6 miljoen historische foto’s te vinden op Flickr. De mogelijkheden van dit online archief zijn eindeloos. Leetaru hoopt dat meerdere bibliotheken de kansen van het OCR programma inzien en hiermee steeds hun digitale collectie uitbreiden.