Guida alla lettura ottica
[03] Documenti strutturati e non
In ambito documentale è possibile definire due macro-categorie di documenti: documenti strutturati e documenti non strutturati o semi-strutturati.
Un documento strutturato è un documento dal layout statico: le informazioni rilevanti si trovano sempre nella medesima posizione, nota a priori. La classica ricetta “rossa”, ad esempio, è un classico documento strutturato: i dati dell’assistito, il numero della ricetta, la prescrizione, le firme, le date e le fustelle si trovano sempre in aree ben specifiche del documento, e non variano da un documento all’altro.
Anche i questionari rientrano a pieno titolo tra i documenti strutturati, così come i classici moduli richiesta carta fedeltà che troviamo al supermercato, una scheda di produzione, un tagliando del lotto, un rapportino attività, e qualsiasi altro documento che non presenta variazioni sotto il profilo grafico, mantenendo pressoché inalterate le aree in cui si trovano i dati da leggere.
E’ quindi scontato che i documenti strutturati sono per lo più documenti interni, il cui aspetto è noto e definito. Di contro, i documenti non strutturati sono tipicamente documenti esterni, del cui layout non abbiamo alcuna informazione se non una volta ricevuto il documento stesso. L’esempio più semplice è quello delle fatture fornitori, che probabilmente avranno tanti layout diversi quanti sono i nostri fornitori.
Il documento strutturato è quindi un documento dal layout noto: il software di lettura ottica, non dovrà far altro che andare a elaborare il testo contenuto in aree ben specifiche del documento, già preventivamente associate ad una particolare informazione. L’approccio del sistema di data-capture sarà quindi zonale, e avrà luogo mediante la configurazione di una vera e propria “mappatura” del documento, con la quale indicheremo al software le coordinate precise in cui rilevare una specifica informazione (nell’area avente coordinate X,Y c’è il nome, nell’area avente coordinate W,Z c’è l’indirizzo, e così via).
Quando si parla di documenti non strutturati o semi strutturati, il tipo di approccio cambia radicalmente: il riferimento non è più al documento “A”, ma ad una CLASSE di documenti eterogenei (fatture, ordini, contabili, contratti, documenti di trasporto, etc.) graficamente diversi gli uni dagli altri, ma contenenti – seppure in posizioni diverse – le stesse informazioni. In questo caso l’approccio può continuare a essere zonale, riconducendo la classe di documenti ad un insieme più o meno vasto di documenti strutturati (e quindi alla conseguente necessità di mappare 10, 100, 1000 layout diversi), oppure può evolversi da zonale a logico, attraverso la definizione di una serie di regole utili a far sì che il software di lettura ottica sia in grado – autonomamente – di identificare i dati di interesse senza aver ricevuto alcuna informazione preventiva circa l’area in cui si trova il dato. In sintesi, si passa da N configurazioni specifiche ad un unica configurazione “generica” in grado di gestire layout diversi.
In un contratto di mutuo, ad esempio, sono certamente indicati il tasso di interesse nominale e quello effettivo, il valore dell’immobile e l’importo del prestito, le spese d’incasso, il numero di rate, la durata e il tipo di ammortamento: tuttavia i contratti di mutuo variano da banca a banca, e da notaio a notaio; proviamo ad immaginare cosa comporterebbe la creazione di singole applicazioni di lettura specifiche: molto probabilmente sarebbero utilizzabili solo per un singolo documento! Proviamo invece ad immaginare la possibilità di avere un’unica applicazione, che vada bene per tutti i contratti di mutuo: in fondo non è poi così complicato come sembra, basta solo avere a disposizione la tecnologia e gli strumenti adatti allo scopo.
Tra i documenti strutturati e i documenti non strutturati si frappongono i c.d. documenti semi-strutturati : con questo termina si indica documenti aventi un layout più o meno definito, all’interno del quale è possibile rilevare una parte costante (ad esempio la testata di un DDT) e una parte variabile (ad esempio il corpo di un DDT, la cui entità può variare ad esempio in funzione della lunghezza della descrizione di un articolo, che può occupare una o più righe, e in funzione del numero di articoli indicati nel corpo che può determinare un documento di una o più pagine). In questi casi è talvolta conveniente adottare un approccio “misto”, coniugando cioè una configurazione zonale per la lettura dei dati di testata, e una configurazione “logica” per acquisire correttamente il corpo del documento.
La tecnologia utilizzata per acquisire dati da documenti non strutturati o semi-strutturati è generalmente indicata con il termine “Free-Form”, che ben descrive la possibilità di “liberarsi” da una grafica, da un modulo di riferimento.
Se la nostra esigenza è quella di acquisire dati da documenti non strutturati o semi-strutturati, è quindi indispensabile che la soluzione di lettura ottica prescelta includa funzionalità OCR FREE-FORM: qualsiasi software in grado di lavorare esclusivamente mediante mappatura, si rileverà infatti inadatto allo scopo.