Cos'è la tecnologia OCR?
Il riconoscimento ottico dei caratteri (inglese: Optical Character Recognition, OCR) si riferisce al processo di analisi e riconoscimento di file immagine di materiali di testo per ottenere informazioni su testo e layout.
Analogamente al riconoscimento delle immagini e alla tecnologia di visione artificiale, anche il processo di elaborazione della tecnologia OCR è suddiviso in input, pre-elaborazione, elaborazione a medio termine, post-elaborazione e processo di output.
accedere
Per diversi formati di immagine, esistono diversi formati di archiviazione e diversi metodi di compressione.Attualmente ci sono OpenCV, CxImage, ecc.
Pre-elaborazione: binarizzazione
La maggior parte delle immagini scattate oggi dalle fotocamere digitali sono immagini a colori, che contengono un'enorme quantità di informazioni e non sono adatte alla tecnologia OCR.
Per il contenuto dell'immagine, possiamo semplicemente dividerlo in primo piano e sfondo.Per rendere il computer più veloce ed eseguire meglio i calcoli relativi all'OCR, è necessario elaborare prima l'immagine a colori, in modo che nell'immagine rimangano solo le informazioni in primo piano e le informazioni sullo sfondo.La binarizzazione può anche essere semplicemente intesa come "bianco e nero".
riduzione del rumore dell'immagine
Per immagini diverse, la definizione del rumore può essere diversa e il processo di riduzione del rumore in base alle caratteristiche del rumore è chiamato riduzione del rumore.
correzione dell'inclinazione
Poiché gli utenti ordinari, quando scattano foto di documenti, è difficile scattare completamente in linea con l'allineamento orizzontale e verticale, quindi le foto scattate saranno inevitabilmente distorte, il che richiede la correzione del software di elaborazione delle immagini.
Elaborazione a medio termine – analisi del layout
Il processo di divisione delle immagini del documento in paragrafi e rami è chiamato analisi del layout.A causa della diversità e della complessità dei documenti effettivi, questo passaggio deve ancora essere ottimizzato.
taglio del carattere
A causa delle limitazioni delle condizioni di fotografia e scrittura, i caratteri sono spesso bloccati e le penne rotte.L'uso diretto di tali immagini per l'analisi OCR limiterà notevolmente le prestazioni dell'OCR.Pertanto, è necessaria la segmentazione dei caratteri, ovvero per separare caratteri diversi.
Riconoscimento dei caratteri
Nella fase iniziale, è stata utilizzata principalmente la corrispondenza dei modelli e, nella fase successiva, è stata utilizzata principalmente l'estrazione delle caratteristiche.A causa dell'influenza di fattori come lo spostamento del testo, lo spessore del tratto, la penna rotta, l'adesione, la rotazione, ecc., la difficoltà di estrazione delle caratteristiche ne risente notevolmente.
Restauro della planimetria
Le persone sperano che il testo riconosciuto sia ancora disposto come l'immagine del documento originale e che i paragrafi, le posizioni e l'ordine vengano inviati a documenti Word, documenti PDF, ecc., e questo processo è chiamato ripristino del layout.
post produzione
In base alla relazione del contesto linguistico specifico, il risultato del riconoscimento viene corretto.
produzione
Emetti i caratteri riconosciuti come testo in un determinato formato.
Quali sono le applicazioni dei terminali palmari basati su tecnologia OCR?
Attraverso il terminale palmare PDA caricato con il software di riconoscimento dei caratteri OCR, è possibile realizzare molte applicazioni di scena, come: riconoscimento della targa dell'auto, riconoscimento del numero del container, riconoscimento dell'etichetta del peso di manzo e montone importati, riconoscimento dell'area leggibile dalla macchina del passaporto, riconoscimento della lettura del contatore elettrico , bobina d'acciaio Riconoscimento dei caratteri spruzzati.
Tempo di pubblicazione: 16-nov-2022