26 januari 2007

Nu ook al OCR online

Electronische documentconversie



De lijst met online Office-achtige mogelijkheden wordt met de dag langer. Maarten vermeldt op zijn furl dit blogartikel van anysurfer over OCR online... even uitgetest:

Oorspronkelijke tekst:
Gratis OCR on line
Geschreven door Bart om 9u59

Een gescande tekst kan je niet bewerken en een screenreader kan hem niet lezen want de tekst zit in een afbeelding. Optical character recognition (OCR) kan deze afbeelding omzetten in tekst. Bekende OCR-pakketten zijn Omnipage en Finereader, maar het kan nu dus ook on line en gratis.

Even registreren, inloggen en dan klikken op “extract text”. Nu kan je een bestand uploaden met een van de 50 ondersteunde extensies. Kies vervolgens de taal van het document (Nederlands is beschikbaar) en klik op submit. Afhankelijk van de lengte van het document kan het wel even duren, maar na een tijdje kan je het tekstbestand downloaden met het resultaat.

Ik deed de test met een PDF-bestand dat in Adobe Reader enkel vreemde tekens opleverde. Deze OCR-software wist er de tekst uit te halen, niet geheel foutloos maar de inhoud van het document was nu in elk geval duidelijk.

Deze site laat ook toe om een gescande tekst direct om te zetten in een audiobestand, maar gebruikt hiervoor de TTS3000-stemmen. Sommige mensen vinden ze mooi, maar geef mij toch maar mijn vertrouwde screenreader.

Tekst zoals ingelezen (na omzetting jpg screenshot naar pdf):
0CR
s v e:d o" 9, 9
Een gescande tekst kan je niet bewerken en een screenreader kan hem niet
lezen want de tekst zit In een afbeelding. Optical character recognition (OCR)
kan deze afbeelding omzetten in tekst. Bekende OCR-pakketten zijn
Omnipage en Finereader, maar het kan nu dus ook on line en gratis.
Even en dan klikken op 'extract text'. Nu kan je een
bestand uploaden met een van de
K
ies
...........
vervolgens de taal van het document (Nederlands is beschikbaar) en klik op
submlt. Afhankelijk van de lengte van het document kan het wel even duren,
maar na een tijdje kan je het tekstbestand downloaden met het resultaat.
Ik deed de test met een PDF-bestand dat in Adobe Reader enkel vreemde
tekens opleverde. Deze OCR-software wist er de tekst uit te halen, niet
geheel foutloos maar de inhoud van het document was nu in eik geval
duidelijk.
Deze site laat ook toe om een gescande tekst direct om te zetten in een
audlobestand, maar gebruikt hiervoor de TTS3000-stemmen. Sommige
mensen vinden ze mooi, maar geef mij' toch maar mijn vertrouwde
screenreader.