តើបច្ចេកវិទ្យា OCR គឺជាអ្វី?
ការទទួលស្គាល់តួអក្សរអុបទិក (ភាសាអង់គ្លេស៖ Optical Character Recognition, OCR) សំដៅលើដំណើរការនៃការវិភាគ និងទទួលស្គាល់ឯកសាររូបភាពនៃសម្ភារៈអត្ថបទ ដើម្បីទទួលបានព័ត៌មានអត្ថបទ និងប្លង់។
ស្រដៀងគ្នាទៅនឹងបច្ចេកវិទ្យាការទទួលស្គាល់រូបភាព និងចក្ខុវិស័យម៉ាស៊ីន ដំណើរការដំណើរការនៃបច្ចេកវិទ្យា OCR ក៏ត្រូវបានបែងចែកទៅជាការបញ្ចូល ដំណើរការមុន ដំណើរការពាក់កណ្តាលរយៈពេល ដំណើរការក្រោយដំណើរការ និងដំណើរការលទ្ធផល។
ចូល
សម្រាប់ទម្រង់រូបភាពខុសគ្នា មានទ្រង់ទ្រាយផ្ទុកខុសគ្នា និងវិធីបង្ហាប់ផ្សេងគ្នា។បច្ចុប្បន្នមាន OpenCV, CxImage ជាដើម។
ដំណើរការមុន - binarization
រូបភាពភាគច្រើនដែលថតដោយកាមេរ៉ាឌីជីថលសព្វថ្ងៃនេះ គឺជារូបភាពពណ៌ ដែលមានព័ត៌មានយ៉ាងច្រើន និងមិនស័ក្តិសមសម្រាប់បច្ចេកវិទ្យា OCR នោះទេ។
ចំពោះខ្លឹមសារនៃរូបភាព យើងអាចបែងចែកវាទៅជាផ្ទៃខាងមុខ និងផ្ទៃខាងក្រោយបាន។ដើម្បីធ្វើឱ្យកុំព្យូទ័រកាន់តែលឿន និងដំណើរការការគណនាដែលទាក់ទងនឹង OCR កាន់តែប្រសើរ យើងត្រូវដំណើរការរូបភាពពណ៌ជាមុនសិន ទើបមានព័ត៌មានផ្ទៃខាងមុខ និងព័ត៌មានផ្ទៃខាងក្រោយនៅក្នុងរូបភាព។Binarization ក៏អាចត្រូវបានគេយល់យ៉ាងសាមញ្ញថាជា "សខ្មៅ"។
ការកាត់បន្ថយសំលេងរំខានរូបភាព
សម្រាប់រូបភាពផ្សេងៗគ្នា និយមន័យនៃសំលេងរំខានអាចមានភាពខុសប្លែកគ្នា ហើយដំណើរការនៃការ denoising ទៅតាមលក្ខណៈនៃសំលេងរំខានត្រូវបានគេហៅថា ការកាត់បន្ថយសំលេងរំខាន។
ការកែតម្រូវលំអៀង
ដោយសារតែអ្នកប្រើប្រាស់ធម្មតា ពេលថតរូបឯកសារ វាពិបាកក្នុងការថតទាំងស្រុងស្របនឹងការតម្រឹមផ្ដេក និងបញ្ឈរ ដូច្នេះរូបភាពដែលថតបាននឹងជៀសមិនរួច ដែលទាមទារកម្មវិធីកែច្នៃរូបភាពដើម្បីកែតម្រូវ។
ដំណើរការពាក់កណ្តាលរយៈពេល - ការវិភាគប្លង់
ដំណើរការនៃការបែងចែករូបភាពឯកសារទៅជាកថាខណ្ឌ និងសាខាត្រូវបានគេហៅថា ការវិភាគប្លង់។ដោយសារភាពចម្រុះ និងភាពស្មុគស្មាញនៃឯកសារជាក់ស្តែង ជំហាននេះនៅតែត្រូវការធ្វើឱ្យប្រសើរ។
ការកាត់តួអក្សរ
ដោយសារតែលក្ខខណ្ឌនៃការថតរូប និងការសរសេរមានកម្រិត តួអក្សរតែងតែជាប់គាំង ហើយប៊ិចត្រូវបានខូច។ការប្រើប្រាស់រូបភាពបែបនេះដោយផ្ទាល់សម្រាប់ការវិភាគ OCR នឹងកំណត់យ៉ាងខ្លាំងនូវដំណើរការ OCR ។ដូច្នេះ ការបែងចែកតួអក្សរគឺត្រូវបានទាមទារ ពោលគឺដើម្បីបំបែកតួអក្សរផ្សេងគ្នា។
ការទទួលស្គាល់តួអក្សរ
នៅដំណាក់កាលដំបូង ការផ្គូផ្គងគំរូត្រូវបានប្រើជាចម្បង ហើយនៅដំណាក់កាលក្រោយ ការទាញយកលក្ខណៈពិសេសត្រូវបានប្រើជាចម្បង។ដោយសារឥទ្ធិពលនៃកត្តាដូចជា ការផ្លាស់ទីលំនៅរបស់អត្ថបទ កម្រាស់ដាច់សរសៃឈាមខួរក្បាល ប៊ិចខូច ភាពស្អិតជាប់ ការបង្វិលជាដើម។ ការលំបាកក្នុងការទាញយកមុខងារត្រូវបានប៉ះពាល់យ៉ាងខ្លាំង។
ការស្តារប្លង់ឡើងវិញ
មនុស្សសង្ឃឹមថាអត្ថបទដែលបានទទួលស្គាល់នៅតែត្រូវបានរៀបចំដូចរូបភាពឯកសារដើម ហើយកថាខណ្ឌ មុខតំណែង និងលំដាប់ត្រូវបានចេញជាឯកសារ Word ឯកសារ PDF ជាដើម ហើយដំណើរការនេះត្រូវបានគេហៅថាការស្ដារប្លង់ឡើងវិញ។
ដំណើរការក្រោយ
យោងតាមទំនាក់ទំនងនៃបរិបទភាសាជាក់លាក់ លទ្ធផលទទួលស្គាល់ត្រូវបានកែដំរូវ។
ទិន្នផល
បញ្ចេញតួអក្សរដែលបានទទួលស្គាល់ជាអត្ថបទក្នុងទម្រង់ជាក់លាក់មួយ។
តើឧបករណ៍យួរដៃផ្អែកលើបច្ចេកវិទ្យា OCR មានកម្មវិធីអ្វីខ្លះ?
តាមរយៈស្ថានីយឧបករណ៍យួរដៃ PDA ដែលផ្ទុកដោយកម្មវិធីសម្គាល់តួអក្សរ OCR កម្មវិធីកន្លែងកើតហេតុជាច្រើនអាចដឹងបាន ដូចជា៖ ការទទួលស្គាល់ស្លាកលេខរថយន្ត ការទទួលស្គាល់លេខកុងតឺន័រ ការទទួលស្គាល់ស្លាកសញ្ញាទម្ងន់សាច់គោ និងសាច់ចៀមដែលនាំចូល ការទទួលស្គាល់តំបន់ដែលអាចអានបានដោយម៉ាស៊ីនលិខិតឆ្លងដែន ការអានម៉ែត្រអគ្គិសនី។ , ខ្សែដែក ការទទួលស្គាល់តួអក្សរបាញ់។
ពេលវេលាបង្ហោះ៖ ថ្ងៃទី ១៦ ខែវិច្ឆិកា ឆ្នាំ ២០២២