എന്താണ് OCR സാങ്കേതികവിദ്യ?
ഒപ്റ്റിക്കൽ ക്യാരക്ടർ റെക്കഗ്നിഷൻ (ഇംഗ്ലീഷ്: Optical Character Recognition, OCR) എന്നത് ടെക്സ്റ്റ്, ലേഔട്ട് വിവരങ്ങൾ ലഭിക്കുന്നതിന് ടെക്സ്റ്റ് മെറ്റീരിയലുകളുടെ ഇമേജ് ഫയലുകൾ വിശകലനം ചെയ്യുകയും തിരിച്ചറിയുകയും ചെയ്യുന്ന പ്രക്രിയയെ സൂചിപ്പിക്കുന്നു.
ഇമേജ് റെക്കഗ്നിഷൻ, മെഷീൻ വിഷൻ ടെക്നോളജി എന്നിവയ്ക്ക് സമാനമായി, OCR സാങ്കേതികവിദ്യയുടെ പ്രോസസ്സിംഗ് പ്രക്രിയയും ഇൻപുട്ട്, പ്രീ-പ്രോസസ്സിംഗ്, മിഡ്-ടേം പ്രോസസ്സിംഗ്, പോസ്റ്റ്-പ്രോസസ്സിംഗ്, ഔട്ട്പുട്ട് പ്രോസസ് എന്നിങ്ങനെ തിരിച്ചിരിക്കുന്നു.
നൽകുക
വ്യത്യസ്ത ഇമേജ് ഫോർമാറ്റുകൾക്കായി, വ്യത്യസ്ത സ്റ്റോറേജ് ഫോർമാറ്റുകളും വ്യത്യസ്ത കംപ്രഷൻ രീതികളും ഉണ്ട്.നിലവിൽ, OpenCV, CxImage മുതലായവ ഉണ്ട്.
പ്രീ-പ്രോസസ്സിംഗ് - ബൈനറൈസേഷൻ
ഇന്ന് ഡിജിറ്റൽ ക്യാമറകൾ എടുക്കുന്ന ചിത്രങ്ങളിൽ ഭൂരിഭാഗവും കളർ ഇമേജുകളാണ്, അവയിൽ വലിയ അളവിലുള്ള വിവരങ്ങൾ അടങ്ങിയിരിക്കുന്നു, അവ OCR സാങ്കേതികവിദ്യയ്ക്ക് അനുയോജ്യമല്ല.
ചിത്രത്തിന്റെ ഉള്ളടക്കത്തിനായി, നമുക്ക് അതിനെ മുൻവശത്തും പശ്ചാത്തലമായും വിഭജിക്കാം.കമ്പ്യൂട്ടർ വേഗത്തിലാക്കാനും OCR സംബന്ധമായ കണക്കുകൂട്ടലുകൾ മികച്ചതാക്കാനും, ഞങ്ങൾ ആദ്യം കളർ ഇമേജ് പ്രോസസ്സ് ചെയ്യേണ്ടതുണ്ട്, അതുവഴി മുൻഭാഗത്തെ വിവരങ്ങളും പശ്ചാത്തല വിവരങ്ങളും മാത്രമേ ചിത്രത്തിൽ അവശേഷിക്കുന്നുള്ളൂ.ബൈനറൈസേഷൻ "കറുപ്പും വെളുപ്പും" എന്നും ലളിതമായി മനസ്സിലാക്കാം.
ചിത്രത്തിന്റെ ശബ്ദം കുറയ്ക്കൽ
വ്യത്യസ്ത ചിത്രങ്ങൾക്ക്, ശബ്ദത്തിന്റെ നിർവചനം വ്യത്യസ്തമായിരിക്കാം, കൂടാതെ ശബ്ദത്തിന്റെ സ്വഭാവസവിശേഷതകൾക്കനുസരിച്ച് ഡീനോയിസിംഗ് പ്രക്രിയയെ നോയ്സ് റിഡക്ഷൻ എന്ന് വിളിക്കുന്നു.
ടിൽറ്റ് തിരുത്തൽ
സാധാരണ ഉപയോക്താക്കൾക്ക്, ഡോക്യുമെന്റുകളുടെ ചിത്രങ്ങൾ എടുക്കുമ്പോൾ, തിരശ്ചീനവും ലംബവുമായ വിന്യാസത്തിന് അനുസൃതമായി പൂർണ്ണമായും ഷൂട്ട് ചെയ്യുന്നത് ബുദ്ധിമുട്ടാണ്, അതിനാൽ എടുത്ത ചിത്രങ്ങൾ അനിവാര്യമായും വളച്ചൊടിക്കപ്പെടും, അത് തിരുത്താൻ ഇമേജ് പ്രോസസ്സിംഗ് സോഫ്റ്റ്വെയർ ആവശ്യമാണ്.
മിഡ്-ടേം പ്രോസസ്സിംഗ് - ലേഔട്ട് വിശകലനം
ഡോക്യുമെന്റ് ചിത്രങ്ങളെ ഖണ്ഡികകളിലേക്കും ശാഖകളിലേക്കും വിഭജിക്കുന്ന പ്രക്രിയയെ ലേഔട്ട് വിശകലനം എന്ന് വിളിക്കുന്നു.യഥാർത്ഥ പ്രമാണങ്ങളുടെ വൈവിധ്യവും സങ്കീർണ്ണതയും കാരണം, ഈ ഘട്ടം ഇപ്പോഴും ഒപ്റ്റിമൈസ് ചെയ്യേണ്ടതുണ്ട്.
കഥാപാത്രം മുറിക്കൽ
ഫോട്ടോഗ്രാഫിംഗിന്റെയും എഴുത്തിന്റെയും സാഹചര്യങ്ങളുടെ പരിമിതികൾ കാരണം, പലപ്പോഴും കഥാപാത്രങ്ങൾ കുടുങ്ങി, പേനകൾ തകരുന്നു.OCR വിശകലനത്തിനായി അത്തരം ചിത്രങ്ങൾ നേരിട്ട് ഉപയോഗിക്കുന്നത് OCR പ്രകടനത്തെ വളരെയധികം പരിമിതപ്പെടുത്തും.അതിനാൽ, പ്രതീക വിഭജനം ആവശ്യമാണ്, അതായത്, വ്യത്യസ്ത പ്രതീകങ്ങൾ വേർതിരിക്കുന്നതിന്.
സ്വഭാവം തിരിച്ചറിയൽ
ആദ്യഘട്ടത്തിൽ, ടെംപ്ലേറ്റ് പൊരുത്തപ്പെടുത്തൽ പ്രധാനമായും ഉപയോഗിച്ചു, പിന്നീടുള്ള ഘട്ടത്തിൽ, ഫീച്ചർ എക്സ്ട്രാക്ഷൻ പ്രധാനമായും ഉപയോഗിച്ചു.ടെക്സ്റ്റ് ഡിസ്പ്ലേസ്മെന്റ്, സ്ട്രോക്ക് കനം, തകർന്ന പേന, അഡീഷൻ, റൊട്ടേഷൻ തുടങ്ങിയ ഘടകങ്ങളുടെ സ്വാധീനം കാരണം, ഫീച്ചർ എക്സ്ട്രാക്ഷന്റെ ബുദ്ധിമുട്ട് വളരെയധികം ബാധിക്കുന്നു.
ലേഔട്ട് പുനഃസ്ഥാപിക്കൽ
അംഗീകൃത വാചകം ഇപ്പോഴും യഥാർത്ഥ പ്രമാണ ചിത്രം പോലെ ക്രമീകരിച്ചിട്ടുണ്ടെന്ന് ആളുകൾ പ്രതീക്ഷിക്കുന്നു, കൂടാതെ ഖണ്ഡികകൾ, സ്ഥാനങ്ങൾ, ക്രമം എന്നിവ വേഡ് ഡോക്യുമെന്റുകൾ, PDF പ്രമാണങ്ങൾ മുതലായവയിലേക്ക് ഔട്ട്പുട്ട് ചെയ്യുന്നു, ഈ പ്രക്രിയയെ ലേഔട്ട് പുനഃസ്ഥാപിക്കൽ എന്ന് വിളിക്കുന്നു.
നടപടിക്കു ശേഷം
നിർദ്ദിഷ്ട ഭാഷാ സന്ദർഭത്തിന്റെ ബന്ധം അനുസരിച്ച്, തിരിച്ചറിയൽ ഫലം ശരിയാക്കുന്നു.
ഔട്ട്പുട്ട്
ഒരു നിശ്ചിത ഫോർമാറ്റിൽ വാചകമായി അംഗീകൃത പ്രതീകങ്ങൾ ഔട്ട്പുട്ട് ചെയ്യുക.
OCR സാങ്കേതികവിദ്യയെ അടിസ്ഥാനമാക്കിയുള്ള ഹാൻഡ്ഹെൽഡ് ടെർമിനലുകളുടെ ആപ്ലിക്കേഷനുകൾ എന്തൊക്കെയാണ്?
OCR ക്യാരക്ടർ റെക്കഗ്നിഷൻ സോഫ്റ്റ്വെയർ ഘടിപ്പിച്ച ഹാൻഡ്ഹെൽഡ് ടെർമിനൽ PDA വഴി, കാർ ലൈസൻസ് പ്ലേറ്റ് തിരിച്ചറിയൽ, കണ്ടെയ്നർ നമ്പർ തിരിച്ചറിയൽ, ഇറക്കുമതി ചെയ്ത ബീഫ്, മട്ടൺ വെയ്റ്റ് ലേബൽ തിരിച്ചറിയൽ, പാസ്പോർട്ട് മെഷീൻ റീഡബിൾ ഏരിയ തിരിച്ചറിയൽ, ഇലക്ട്രിക് മീറ്റർ റീഡിംഗ് റെക്കഗ്നിഷൻ എന്നിങ്ങനെയുള്ള നിരവധി സീൻ ആപ്ലിക്കേഷനുകൾ സാക്ഷാത്കരിക്കാനാകും. , സ്റ്റീൽ കോയിൽ സ്പ്രേ ചെയ്ത പ്രതീകങ്ങളുടെ തിരിച്ചറിയൽ.
പോസ്റ്റ് സമയം: നവംബർ-16-2022