Kas yra OCR technologija?
Optinis simbolių atpažinimas (angl. Optical Character Recognition, OCR) reiškia tekstinės medžiagos vaizdo failų analizės ir atpažinimo procesą, siekiant gauti teksto ir išdėstymo informaciją.
Panašiai kaip vaizdo atpažinimo ir mašininio matymo technologijos, OCR technologijos apdorojimo procesas taip pat skirstomas į įvesties, išankstinio apdorojimo, vidutinio laikotarpio, papildomo apdorojimo ir išvesties procesą.
įveskite
Skirtingiems vaizdo formatams yra skirtingi saugojimo formatai ir skirtingi glaudinimo metodai.Šiuo metu yra OpenCV, CxImage ir kt.
Išankstinis apdorojimas – dvejetainis
Dauguma šiandien skaitmeniniais fotoaparatais darytų nuotraukų yra spalvoti vaizdai, kuriuose yra daug informacijos ir kurie nėra tinkami OCR technologijai.
Paveikslėlio turinį galime tiesiog suskirstyti į priekinį planą ir foną.Kad kompiuteris veiktų greičiau ir geriau atliktų su OCR susijusius skaičiavimus, pirmiausia turime apdoroti spalvotą vaizdą, kad paveikslėlyje liktų tik priekinio plano ir fono informacija.Binarizacija taip pat gali būti tiesiog suprantama kaip „juoda ir balta“.
vaizdo triukšmo mažinimas
Skirtingiems vaizdams triukšmo apibrėžimas gali būti skirtingas, o triukšmo slopinimo procesas pagal triukšmo charakteristikas vadinamas triukšmo mažinimu.
pasvirimo korekcija
Kadangi paprastiems vartotojams fotografuojant dokumentus sunku nufotografuoti visiškai horizontaliai ir vertikaliai išlygiuoti, todėl daromos nuotraukos neišvengiamai bus iškreiptos, o tai reikalauja vaizdo apdorojimo programinės įrangos.
Vidutinis apdorojimas – maketavimo analizė
Dokumento paveikslėlių padalijimo į pastraipas ir šakas procesas vadinamas maketo analize.Dėl faktinių dokumentų įvairovės ir sudėtingumo šį veiksmą dar reikia optimizuoti.
charakterio kirpimas
Dėl fotografavimo ir rašymo sąlygų apribojimų personažai dažnai stringa, lūžta rašikliai.Tiesioginis tokių vaizdų naudojimas OCR analizei labai apribos OCR našumą.Todėl reikalingas simbolių segmentavimas, ty atskirti skirtingus simbolius.
Charakterio atpažinimas
Ankstyvajame etape daugiausia buvo naudojamas šablonų atitikimas, o vėlesniame etape daugiausia buvo naudojamas funkcijų ištraukimas.Dėl tokių veiksnių kaip teksto poslinkis, brūkšnio storis, sulūžęs rašiklis, sukibimas, sukimasis ir kt. įtakos labai paveikia funkcijų ištraukimo sunkumai.
Išdėstymo atkūrimas
Žmonės tikisi, kad atpažintas tekstas vis dar išdėstytas kaip originalus dokumento paveikslėlis, o pastraipos, pozicijos ir tvarka išvedamos į Word dokumentus, PDF dokumentus ir pan., o šis procesas vadinamas maketo atkūrimu.
po apdorojimo
Pagal konkretaus kalbos konteksto ryšį koreguojamas atpažinimo rezultatas.
išvestis
Išveskite atpažintus simbolius kaip tekstą tam tikru formatu.
Kokios yra delninių terminalų, pagrįstų OCR technologija, taikymas?
Naudojant delninį terminalą PDA, kuriame yra OCR simbolių atpažinimo programinė įranga, galima realizuoti daugybę scenos programų, tokių kaip: automobilio valstybinio numerio atpažinimas, konteinerio numerio atpažinimas, importuotos jautienos ir avienos svorio etiketės atpažinimas, paso mašininio skaitomo ploto atpažinimas, elektros skaitiklio rodmenų atpažinimas. , plieninė ritė Purškiamų ženklų atpažinimas.
Paskelbimo laikas: 2022-11-16