Spesso ci si riferisce alle tecnologie di lettura ottica utilizzando il termine “OCR”: fare l’OCR di un documento,  OCRizzare… sono modi più o meno comuni per indicare l’attività di lettura ottica di un documento o di un’immagine. In realtà il termine “OCR” non è altro che l’acronimo di Optical Character Recognition, definizione che indica la tecnologia utilizzata per il riconoscimento di caratteri stampati o dattiloscritti.

Il mondo della lettura ottica è assai vasto, e l’OCR in quanto tale ne rappresenta solo una minima – ancorché importantissima – parte. Oltre all’esistenza di ulteriori tecnologie di riconoscimento, funzione della natura dei dati da leggere (ICR, BCR, OMR, CHR, etc.), affrontare un progetto di lettura ottica significa analizzare con attenzione aspetti che vanno dalla natura dei documenti da processare alla loro qualità, dalla necessità o meno di utilizzare funzionalità specifiche di pre-elaborazione dell’immagine alla possibilità di avvalersi di strumenti o meccanismi di controllo delle informazioni estratte, fino al modo in cui quest’ultime sono rilasciate in output così da diventare a tutti gli effetti dati utili e utilizzabili dai processi a valle. E sono questi gli elementi che, insieme, contribuiscono a determinare il successo o il fallimento di un progetto “OCR”, e tutti sono ugualmente importanti, così come il pilota, le gomme, l’aerodinamica, il cambio e il motore lo sono per una macchina di Formula 1: trascurare anche uno solo di questi componenti potrebbe comportare il ritiro alla prima curva.

Nelle pagine seguenti analizzeremo uno ad uno gli elementi che definiscono il contenuto e il perimetro di un progetto di lettura ottica: vedremo in cosa consistono i motori di riconoscimento e descriveremo il significato delle sigle che li accompagnano, approfondiremo la differenza tra documenti strutturati, semi-strutturati e non strutturati; proveremo a sottolineare con qualche esempio l’importanza delle tecnologie di image pre-processing e cercheremo di dare un senso alle cosiddette “percentuali di confidenza” verso cui tutto sembra spesso confluire, capiremo perché è importante allargare lo sguardo al di là dell’OCR e vedremo come calcolare il ROI derivante dell’adozione di una soluzione di lettura ottica, insieme ai punti chiave da tenere in considerazione sia nella scelta del software che del fornitore.

Infine, prenderemo in esame alcuni degli innumerevoli possibili ambiti in cui le tecnologie di data-capture giocano un ruolo di prim’ordine nell’incessante ricerca dell’efficientamento dei processi.