Ի՞նչ է OCR տեխնոլոգիան:
Նիշերի օպտիկական ճանաչում ( անգլ. ՝ Optical Character Recognition, OCR) վերաբերում է տեքստային նյութերի պատկերային ֆայլերի վերլուծության և ճանաչման գործընթացին՝ տեքստի և դասավորության մասին տեղեկատվություն ստանալու համար։
Նկարների ճանաչման և մեքենայական տեսողության տեխնոլոգիայի նման, OCR տեխնոլոգիայի մշակման գործընթացը նույնպես բաժանվում է մուտքային, նախնական մշակման, միջնաժամկետ մշակման, հետմշակման և ելքային գործընթացների:
մտնել
Պատկերի տարբեր ձևաչափերի համար կան պահպանման տարբեր ձևաչափեր և սեղմման տարբեր մեթոդներ:Ներկայումս կան OpenCV, CxImage և այլն:
Նախամշակում – երկուականացում
Այսօր թվային տեսախցիկներով արված նկարների մեծ մասը գունավոր պատկերներ են, որոնք պարունակում են հսկայական տեղեկատվություն և հարմար չեն OCR տեխնոլոգիայի համար։
Նկարի բովանդակության համար մենք պարզապես կարող ենք այն բաժանել առաջին պլանի և հետին պլանի։Որպեսզի համակարգիչն ավելի արագ և ավելի լավ կատարի OCR-ի հետ կապված հաշվարկները, մենք նախ պետք է մշակենք գունավոր պատկերը, որպեսզի նկարում մնան միայն առաջին պլանի և ֆոնային տեղեկությունները:Երկուականացումը կարելի է նաև պարզապես հասկանալ որպես «սև ու սպիտակ»:
պատկերի աղմուկի նվազեցում
Տարբեր պատկերների համար աղմուկի սահմանումը կարող է տարբեր լինել, իսկ աղմուկի բնութագրիչներին համապատասխան զրոյացման գործընթացը կոչվում է աղմուկի նվազեցում։
թեքության ուղղում
Քանի որ սովորական օգտատերերը փաստաթղթեր նկարելիս դժվար է նկարահանել ամբողջությամբ հորիզոնական և ուղղահայաց հավասարեցմամբ, ուստի արված նկարներն անխուսափելիորեն շեղվելու են, ինչը շտկելու համար պահանջում է պատկերների մշակման ծրագրակազմ:
Միջնաժամկետ մշակում - դասավորության վերլուծություն
Փաստաթղթերի նկարները պարբերությունների և ճյուղերի բաժանելու գործընթացը կոչվում է դասավորության վերլուծություն:Փաստացի փաստաթղթերի բազմազանության և բարդության պատճառով այս քայլը դեռ պետք է օպտիմալացվի:
կերպարների կտրում
Լուսանկարելու և գրելու պայմանների սահմանափակումների պատճառով կերպարները հաճախ խրվում են, իսկ գրիչները կոտրվում են:Նման պատկերների ուղղակի օգտագործումը OCR վերլուծության համար մեծապես կսահմանափակի OCR-ի կատարումը:Հետևաբար, պահանջվում է նիշերի հատվածավորում, այսինքն՝ առանձնացնել տարբեր նիշեր։
Նիշերի ճանաչում
Վաղ փուլում հիմնականում կիրառվում էր կաղապարների համընկնումը, իսկ ավելի ուշ՝ հատկանիշի հանումը։Գործոնների ազդեցության պատճառով, ինչպիսիք են տեքստի տեղաշարժը, հարվածի հաստությունը, կոտրված գրիչը, կպչունությունը, պտույտը և այլն, մեծապես ազդում է հատկանիշի արդյունահանման դժվարությունը:
Դասավորության վերականգնում
Մարդիկ հույս ունեն, որ ճանաչված տեքստը դեռ դասավորված է փաստաթղթի բնօրինակ նկարի նման, և պարբերությունները, դիրքերը և կարգը դուրս են բերվում Word փաստաթղթերում, PDF փաստաթղթերում և այլն, և այս գործընթացը կոչվում է դասավորության վերականգնում:
հետմշակում
Ըստ կոնկրետ լեզվական համատեքստի հարաբերակցության՝ ճանաչման արդյունքը ուղղվում է։
ելք
Արտադրեք ճանաչված նիշերը որպես տեքստ որոշակի ձևաչափով:
Որո՞նք են OCR տեխնոլոգիայի վրա հիմնված ձեռքի տերմինալների կիրառությունները:
Ձեռքի տերմինալի PDA-ի միջոցով, որը բեռնված է OCR նիշերի ճանաչման ծրագրաշարով, կարող են իրականացվել տեսարանների բազմաթիվ հավելվածներ, ինչպիսիք են՝ մեքենայի համարանիշի ճանաչումը, տարայի համարի ճանաչումը, ներմուծված տավարի և ոչխարի մսի քաշի պիտակի ճանաչումը, անձնագրային մեքենանընթեռնելի տարածքի ճանաչումը, էլեկտրական հաշվիչի ընթերցման ճանաչումը: , պողպատե կծիկ Սփրված նիշերի ճանաչում։
Հրապարակման ժամանակը՝ նոյ-16-2022