Waa maxay tignoolajiyada OCR?
Aqoonsiga Dabeecadda Aragga (Ingiriis: Aqoonsiga Dabeecadda Muuqda, OCR) waxa loola jeedaa habka falanqaynta iyo aqoonsiga faylalka sawirka agabka qoraalka si loo helo xogta qoraalka iyo qaabaynta.
Si la mid ah aqoonsiga sawirka iyo tignoolajiyada aragga mishiinka, habka farsamaynta ee tignoolajiyada OCR waxa kale oo loo qaybiyaa gelinta, habaynta ka hor, farsamaynta muddada-dhexe, habaynta ka dib iyo habka wax soo saarka.
geli
Qaababka sawirada kala duwan, waxaa jira qaabab kaydin oo kala duwan iyo habab kala duwan oo cadaadis ah.Hadda, waxaa jira OpenCV, CxImage, iwm.
Pre-processing - binarization
Inta badan sawirada ay qaadeen kamaradaha dhijitaalka ah maanta waa sawirro midab leh, kuwaas oo ka kooban qadar aad u badan oo macluumaad ah oo aan ku habboonayn farsamada OCR.
Nuxurka sawirka, waxaan si fudud ugu qaybin karnaa hore iyo gadaal.Si kombayutarka looga dhigo mid dhakhso badan oo si fiican ugu shaqeeya xisaabinta OCR-da la xidhiidha, waxaanu u baahanahay inaanu marka hore farsamaynno sawirka midabka, si xogta hore iyo xogta asalka oo kaliya ay ugu hadho sawirka.Binarization sidoo kale si fudud ayaa loo fahmi karaa sida "madow iyo caddaan".
dhimista dhawaaqa sawirka
Sawirada kala duwan, qeexida qaylada ayaa laga yaabaa inay ka duwanaato, iyo habka diidmada iyadoo loo eegayo sifooyinka qaylada waxaa loo yaqaannaa dhimista qaylada.
sixitaanka leexleexda
Sababtoo ah isticmaalayaasha caadiga ah, marka ay sawirro qaadayaan dukumentiyada, way adagtahay in si buuxda loo toogto iyadoo la raacayo toosan toosan iyo toosan, sidaas darteed sawirada la qaaday si lama huraan ah ayaa loo leexin doonaa, taas oo u baahan software sawir-qaadista si loo saxo.
Habaynta muddada-dhexe - falanqaynta qaabaynta
Habka loo qaybiyo sawirada dukumeentiyada cutubyo iyo laamo waxaa loo yaqaan falanqaynta naqshadaynta.Kala duwanaanshaha iyo kakanaanta dukumentiyada dhabta ah awgeed, tillaabadan ayaa wali u baahan in la hagaajiyo.
dabeecad goyn
Sababtoo ah xaddidnaanta xaaladaha sawir-qaadista iyo qorista, jilayaasha badanaa way ku dheggan yihiin qalimaankuna waa la jebiyaa.Si toos ah sawiradan oo kale loogu isticmaalo falanqaynta OCR waxay si weyn u xaddidi doontaa waxqabadka OCR.Sidaa darteed, qaybinta jilayaasha ayaa loo baahan yahay, taas oo ah, in la kala saaro jilayaasha kala duwan.
Aqoonsiga dabeecadda
Marxaladda hore, isbarbardhigga moodeelka ayaa inta badan la isticmaalay, iyo marxaladda dambe, soo saarista sifada ayaa inta badan la isticmaalay.Sababo la xiriira saamaynta arrimaha sida barokaca qoraalka, dhumucda istaroogga, qalin jaban, dhejinta, wareejinta, iwm., dhibka soo saarista muuqaalka ayaa si weyn u saameeya.
Soo celinta qaab-dhismeedka
Dadku waxay rajeynayaan in qoraalka la aqoonsan yahay uu weli u habaysan yahay sida sawirka dukumeentiga asalka ah, iyo cutubyada, boosaska, iyo nidaamka ayaa loo soo saaray dukumeentiyada Word, dukumentiyada PDF, iwm., habkan waxaa loo yaqaannaa soo celinta naqshadeynta.
habaynta ka dib
Marka loo eego xidhiidhka macnaha guud ee luqadda, natiijada aqoonsiga waa la saxaa.
wax soo saarka
U soo saar jilayaasha la aqoonsan yahay qoraal ahaan qaab gaar ah.
Waa maxay codsiyada terminaalka gacanta ee ku salaysan tignoolajiyada OCR?
Iyada oo la adeegsanayo terminalka gacanta ee PDA oo ay ku rakiban tahay software aqoonsiga jilaha OCR, codsiyo badan oo goobta ah ayaa la xaqiijin karaa, sida: aqoonsiga taargada baabuurka, aqoonsiga nambarka weelka, aqoonsiga sumadda hilibka lo'da iyo miisaanka adhiga, aqoonsiga goobta mashiinka-baasaboorka, aqoonsiga akhriska mitirka koronto , gariiradda birta ah Aqoonsiga jilayaasha la buufiyay.
Waqtiga boostada: Nov-16-2022