Kas ir OCR tehnoloģija?
Optiskā rakstzīmju atpazīšana (angļu: Optical Character Recognition, OCR) attiecas uz teksta materiālu attēlu failu analīzes un atpazīšanas procesu, lai iegūtu informāciju par tekstu un izkārtojumu.
Līdzīgi attēla atpazīšanas un mašīnredzes tehnoloģijai, arī OCR tehnoloģijas apstrādes process ir sadalīts ievades, pirmapstrādes, vidēja termiņa apstrādes, pēcapstrādes un izvades procesā.
ievadiet
Dažādiem attēlu formātiem ir dažādi uzglabāšanas formāti un dažādas saspiešanas metodes.Šobrīd ir OpenCV, CxImage u.c.
Priekšapstrāde – binarizācija
Lielākā daļa mūsdienu digitālo kameru uzņemto attēlu ir krāsaini attēli, kas satur milzīgu daudzumu informācijas un nav piemēroti OCR tehnoloģijai.
Attēla saturam mēs to varam vienkārši sadalīt priekšplānā un fonā.Lai padarītu datoru ātrāku un labāk veiktu ar OCR saistītos aprēķinus, vispirms ir jāapstrādā krāsainais attēls, lai attēlā paliktu tikai priekšplāna informācija un fona informācija.Binarizāciju var arī vienkārši saprast kā “melnbaltu”.
attēla trokšņu samazināšana
Dažādiem attēliem trokšņa definīcija var būt atšķirīga, un trokšņa samazināšanas procesu saskaņā ar trokšņa īpašībām sauc par trokšņa samazināšanu.
slīpuma korekcija
Tā kā parastajiem lietotājiem, fotografējot dokumentus, ir grūti fotografēt pilnībā atbilstoši horizontālajai un vertikālajai izlīdzināšanai, tāpēc uzņemtie attēli neizbēgami būs šķībi, kuru labošanai nepieciešama attēlu apstrādes programmatūra.
Vidēja termiņa apstrāde – maketēšanas analīze
Dokumentu attēlu sadalīšanu rindkopās un zaros sauc par izkārtojuma analīzi.Faktisko dokumentu daudzveidības un sarežģītības dēļ šis solis joprojām ir jāoptimizē.
rakstzīmju griešana
Fotografēšanas un rakstīšanas apstākļu ierobežojumu dēļ rakstzīmes bieži iestrēgst un pildspalvas ir salūzušas.Šādu attēlu tieša izmantošana OCR analīzei ievērojami ierobežos OCR veiktspēju.Tāpēc ir nepieciešama rakstzīmju segmentēšana, tas ir, lai atdalītu dažādas rakstzīmes.
Rakstzīmju atpazīšana
Agrīnā stadijā galvenokārt tika izmantota veidņu saskaņošana, un vēlākā posmā galvenokārt tika izmantota funkciju iegūšana.Tādu faktoru kā teksta pārvietošanās, gājiena biezums, salauzta pildspalva, adhēzija, rotācija utt. ietekmes dēļ iezīmju iegūšanas grūtības ievērojami ietekmē.
Izkārtojuma atjaunošana
Cilvēki cer, ka atpazītais teksts joprojām ir sakārtots tāpat kā oriģinālā dokumenta attēls un rindkopas, pozīcijas un secība tiek izvadīta Word dokumentos, PDF dokumentos utt., un šo procesu sauc par izkārtojuma atjaunošanu.
pēcapstrāde
Atbilstoši konkrēta valodas konteksta attiecībām atpazīšanas rezultāts tiek koriģēts.
izvade
Izvadiet atpazītās rakstzīmes kā tekstu noteiktā formātā.
Kādi ir rokas termināļu pielietojumi, kuru pamatā ir OCR tehnoloģija?
Izmantojot rokas termināļa PDA, kas ir ielādēts ar OCR rakstzīmju atpazīšanas programmatūru, var realizēt daudzas ainas lietojumprogrammas, piemēram: automašīnas numura zīmes atpazīšana, konteinera numura atpazīšana, importētas liellopa un aitas svara etiķetes atpazīšana, pases mašīnlasāmā apgabala atpazīšana, elektriskā skaitītāja rādījumu atpazīšana. , tērauda spole Izsmidzinātu rakstzīmju atpazīšana.
Izlikšanas laiks: 16. novembris 2022