Nickerie.Net, woensdag 23 mei 2007


Google laat OCR-techniek los op Indiase handschriften

Google gaat zijn zoekdienst voor boeken, Google Books, uitbreiden met 800.000 boeken en manuscripten van de universiteit van Mysore in India. Het inscannen van de handgeschreven teksten stelt ocr-technieken op de proef.

Honderdduizend van de in te scannen teksten zijn handgeschreven stukken, waarvan de oudste exemplaren in de achtste eeuw na Christus op palmbladeren zijn gekalligrafeerd. Het inscannen is onderdeel van de internationalisering van Google Books, dat momenteel grotendeels bestaat uit Engelstalige literatuur. De teksten van de universiteit van Mysore zijn geschreven in het Sanskriet en het Kannada, twee klassieke talen uit de geschiedenis van India en omstreken. De talen hebben in deze regio dezelfde status als het Latijn in Europa. India is steeds belangrijker voor Google: het bedrijf opende eind vorig jaar een groot datacenter in dit land en kondigde onlangs een Hindi-variant van Google News aan.

Stukje SanskrietHet inscannen van gedrukte tekst is tegenwoordig bijna foutloos mogelijk en is geen uitdaging meer voor Google. Met geschreven tekst is dit wel anders: hoe goed ocr-software met een geschreven tekst overweg kan hangt af van hoe regelmatig het handschrift van de schrijver is. Onderzoekers halen al goede resultaten met regelmatig geschreven teksten uit de Griekse oudheid en Googles open source ocr-pakket OCRopus moet deze problemen aanpakken. Het probleem is echter nog lang niet opgelost met het herkennen van geschreven tekens; het opslaan van tekst inclusief opmaakcodes is een probleem op zichzelf. Google zal waarschijnlijk gebruik gaan maken van de SGML-standaard, die bij veel digitale bibliotheken al in gebruik is. Deze standaard moet ervoor zorgen dat de digitale informatie ook in de toekomst nog goed te benaderen zal zijn. Vanuit een SGML-gecodeerd bestand kan eenvoudig een html-bestand worden geproduceerd. Tot het moment dat Google het coderen van de opmaak automatiseert, zullen de manuscripten handmatig opgemaakt moeten worden.

Bron/Copyright:

Nickerie.Net / Ars Technica

,23-05-2007

WWW.NICKERIE.NET

E-mail: info@nickerie.net

Copyright 2007. All rights reserved.

Designed by Galactica's Graphics