OCR技術とは何ですか?
光学式文字認識(英語: Optical Character Recognition、OCR)とは、テキスト素材の画像ファイルを分析および認識して、テキストおよびレイアウト情報を取得するプロセスを指します。
画像認識やマシンビジョン技術と同様に、OCR技術の処理プロセスも入力、前処理、中間処理、後処理、出力プロセスに分かれています。
入力
画像形式が異なれば、保存形式も圧縮方法も異なります。現在はOpenCVやCxImageなどがあります。
前処理 – 2値化
現在のデジタル カメラで撮影された写真のほとんどはカラー画像であり、膨大な情報が含まれているため、OCR 技術には適していません。
写真の内容としては、単純に前景と背景に分けることができます。コンピュータの速度を上げ、OCR 関連の計算をより適切に実行するには、最初にカラー画像を処理して、画像内に前景情報と背景情報のみが残るようにする必要があります。二値化は、単に「白黒」とも言えます。
画像ノイズ低減
画像が異なればノイズの定義も異なる場合があり、ノイズの特性に応じてノイズを除去するプロセスをノイズリダクションと呼びます。
傾き補正
一般のユーザーが文書を撮影する場合、水平と垂直を完全に一致させて撮影することは難しいため、必然的に撮影された写真が歪んでしまい、画像処理ソフトウェアで補正する必要があります。
中間処理 – レイアウト分析
文書の画像を段落と分岐に分割するプロセスをレイアウト分析と呼びます。実際のドキュメントは多様で複雑であるため、このステップは依然として最適化する必要があります。
キャラクターカット
撮影や執筆条件の制限により、文字がくっついたり、ペンが折れたりすることがよくあります。このような画像を OCR 分析に直接使用すると、OCR パフォーマンスが大幅に制限されます。したがって、文字の分割、つまり異なる文字を分離する必要があります。
文字認識
初期段階ではテンプレートマッチングが主に使用され、後期では特徴抽出が主に使用されました。文字のズレ、ストロークの太さ、ペン折れ、付着、回転などの影響により、特徴抽出の難易度は大きく左右されます。
レイアウト復元
認識されたテキストが元の文書画像と同じように配置され、段落、位置、順序が Word 文書や PDF 文書などに出力されることを人々は望みます。このプロセスはレイアウト復元と呼ばれます。
後処理
特定の言語文脈の関係に従って、認識結果が修正されます。
出力
認識した文字を一定形式のテキストとして出力します。
OCR技術を活用したハンディターミナルの用途は何ですか?
OCR文字認識ソフトウェアを搭載したハンディターミナルPDAにより、車のナンバープレート認識、コンテナ番号認識、輸入牛・羊肉の重量ラベル認識、パスポートの機械読み取り可能領域認識、電気メーターの読み取り認識など、多くのシーンでのアプリケーションを実現できます。 、スチールコイル スプレー文字の認識。
投稿日時: 2022 年 11 月 16 日