Zer da OCR teknologia?
Optical Character Recognition (ingelesez: Optical Character Recognition, OCR) testu-materialen irudi-fitxategiak aztertzeko eta ezagutzeko prozesuari egiten dio erreferentzia, testua eta diseinuaren informazioa lortzeko.
Irudiak ezagutzeko eta makina-ikuspegiko teknologiaren antzera, OCR teknologiaren prozesatze-prozesua sarrera, aurreprozesaketa, epe erdiko prozesaketa, postprozesaketa eta irteera prozesuetan banatzen da.
sartu
Irudi formatu desberdinetarako, biltegiratze formatu desberdinak eta konpresio metodo desberdinak daude.Gaur egun, OpenCV, CxImage, etab daude.
Aurreprozesatzea – binarizazioa
Gaur egun kamera digitalak ateratako argazki gehienak koloretako irudiak dira, informazio kopuru handia daukate eta ez dira egokiak OCR teknologiarako.
Irudiaren edukiari dagokionez, lehen planoan eta atzealdean zatitu besterik ez dugu egin.Ordenagailua bizkorragoa izan dadin eta OCRri lotutako kalkuluak hobeto egiteko, koloretako irudia prozesatu behar dugu lehenik, lehen planoko informazioa eta atzeko planoko informazioa bakarrik geratu dadin irudian.Binarizazioa "txuri-beltza" gisa uler daiteke.
irudiaren zarata murriztea
Irudi desberdinetarako, zarataren definizioa ezberdina izan daiteke, eta zarataren ezaugarrien araberako zarata kentzeko prozesuari zarata murriztea deitzen zaio.
okertu zuzenketa
Erabiltzaile arruntek dokumentuen argazkiak ateratzen dituztenean, zaila da lerrokadura horizontal eta bertikalean guztiz bat etorriz filmatzea, beraz, ateratako argazkiak ezinbestean okertuko dira, eta horrek irudiak prozesatzeko softwarea behar du zuzentzeko.
Epe erdiko prozesamendua - diseinuaren azterketa
Dokumentuen irudiak paragrafo eta adarretan banatzeko prozesuari diseinuaren analisia deitzen zaio.Benetako dokumentuen aniztasuna eta konplexutasuna dela eta, urrats hau oraindik optimizatu behar da.
pertsonaien mozketa
Argazkiak egiteko eta idazteko baldintzen mugak direla eta, karaktereak maiz itsatsita geratzen dira eta boligrafoak apurtzen dira.OCR azterketarako irudi horiek zuzenean erabiltzeak asko mugatuko du OCR errendimendua.Horregatik, karaktereen segmentazioa beharrezkoa da, hau da, karaktere desberdinak bereiztea.
Pertsonaien aitorpena
Hasierako fasean, txantiloien parekatzea erabiltzen zen batez ere, eta azkeneko fasean, batez ere, ezaugarrien erauzketa erabiltzen zen.Testu-desplazamendua, trazuaren lodiera, luma hautsi, atxikimendua, biraketa eta abar bezalako faktoreen eragina dela eta, ezaugarriak ateratzeko zailtasunak asko eragiten du.
Diseinua berreskuratzea
Jendeak espero du aitortutako testua jatorrizko dokumentuaren irudiaren antzera antolatuta egotea eta paragrafoak, posizioak eta ordena Word dokumentuetara, PDF dokumentuetara eta abarretara ateratzea, eta prozesu horri diseinua berreskuratzea deitzen zaio.
osteko prozesamendua
Hizkuntza testuinguru zehatzaren erlazioaren arabera, errekonozimenduaren emaitza zuzentzen da.
irteera
Idatzi aitortutako karaktereak testu gisa formatu jakin batean.
Zeintzuk dira OCR teknologian oinarritutako eskuko terminalen aplikazioak?
OCR karaktereak ezagutzeko softwarearekin kargatutako eskuko terminaleko PDAren bidez, eszena aplikazio asko gauzatu daitezke, hala nola: autoen matrikularen aitorpena, edukiontzien zenbakiaren aitorpena, inportatutako behi eta ardi pisuaren etiketen aitorpena, pasaportea makinaz irakur daitekeen eremuaren aitorpena, kontagailu elektrikoaren irakurketa aitortzea. , altzairuzko bobina Ihinztatutako karaktereen aitorpena.
Argitalpenaren ordua: 2022-11-16