Guida alla lettura ottica
[01] Introduzione
Se fino a qualche anno fa con il termine “lettura ottica” si faceva riferimento al processo di trasformazione dal formato cartaceo al formato elettronico (spesso sintetizzato nell’acronimo “OCR”), è ormai consolidata l’estensione del termine “lettura ottica” ai documenti già esistenti in formato elettronico, siano essi frutto di un processo di digitalizzazione (scansione o fotografia), o di un processo interamente elettronico (ad esempio un ordine o una fattura generati da un gestionale).
Una delle domande che frequentemente è posta a chi opera nel settore è la seguente: perché dovrei aver bisogno di leggere un documento che già nasce in formato elettronico? E spesso la domanda è accompagnata da un’affermazione: “la carta sta scomparendo, la lettura ottica non serve più”.
In effetti, sia la domanda che l’affermazione hanno un senso ben preciso, ma solo se si danno per scontati alcuni presupposti che in realtà di scontato hanno poco, o nulla.
La lettura ottica, così come oggi comunemente intesa, non è soltanto il processo di conversione dal cartaceo all’elettronico: la lettura ottica è ANCHE conversione da analogico a digitale, ma è soprattutto una tecnologia che ci consente di reperire le informazioni d’interesse in modo semplice, accurato e quanto più automatico possibile da documenti di ogni tipo, stampati o manoscritti, con layout fisso o variabile, in formato cartaceo o elettronico. Se fino a qualche tempo fa il predominare della documentazione cartacea rendeva indispensabile l’utilizzo di soluzioni software atte a “leggere” il contenuto analogico, lo stesso può dirsi oggi con riferimento a un contenuto elettronico “nativo”.
Il fatto di ricevere un ordine in formato PDF, infatti, non significa conoscere automaticamente chi è il cliente, cosa ha ordinato, in che quantità e a quali condizioni; e se ad un operatore è demandato l’inserimento di un ordine nel gestionale, poco importa se gli si chiede di leggere il contenuto di un foglio di carta, o di una pagina in PDF.
Se quindi abbandoniamo per un attimo il concetto di “estrazione dati dal cartaceo”, e ci fermiamo alla sola “estrazione dati”, non è complicato dedurre che il problema dell’acquisizione delle informazioni contenute in documenti ricevuti dall’esterno è più che mai attuale, sebbene abbia spostato il suo baricentro dalla carta al documento elettronico (tuttavia si calcola che oltre il 60% dei documenti aziendali contenenti informazioni rilevanti sia prodotto in formato cartaceo, e che a più della metà dei documenti ricevuti in formato elettronico segua almeno una stampa).
In sintesi possiamo quindi affermare che con il termine “lettura ottica” si fa riferimento a un insieme di tecnologie, più o meno complesse, che ci consentono di convertire documenti in informazioni utilizzabili.
In questa brevissima guida passeremo in rassegna – in modo volutamente semplice e senza tecnicismi – quelli che sono gli elementi utili a definire il contenuto e il perimetro di un progetto di lettura ottica: analizzeremo con attenzione aspetti che vanno dalla natura dei documenti da processare alla loro qualità, dalla necessità o meno di utilizzare funzionalità specifiche di pre-elaborazione dell’immagine alla possibilità di avvalersi di strumenti o meccanismi di controllo delle informazioni estratte, fino al modo in cui quest’ultime sono rilasciate in output così da diventare a tutti gli effetti dati utili e utilizzabili dai processi a valle.
Infine valuteremo tutti gli elementi che contribuiscono non solo a definire, ma anche a determinare il successo o il fallimento di un progetto “OCR”, insieme ai punti chiave da tenere in considerazione sia nella scelta del software che del fornitore.
Grazie per l’attenzione e, qualora desiderassi approfondire il discorso, non esitare a contattarci.
Buona lettura!