Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

Optical Character

光学文字認識(OCR: Optical Character Recognition)は、スキャンした文書、写真、デジタル画像などのテキスト画像を、機械可読で検索可能なテキストデータに自動変換するプロセスです。

カテゴリ: General PDF Concepts
キーワード: optical character, Optical Character

概要

光学文字認識(OCR: Optical Character Recognition)は、スキャンした文書、写真、デジタル画像などのテキスト画像を、機械可読で検索可能なテキストデータに自動変換するプロセスです。PDFワークフローにおいて、OCRは紙文書をスキャンして機能的なデジタルPDFに変換する際に不可欠です。これにより、テキスト検索、選択、および ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準で求められるアクセシビリティ機能をサポートできます。この技術は、物理的な文書と完全にインタラクティブなデジタル形式の間の橋渡しを行い、文書管理システムがレガシーな紙の文書アーカイブを効果的に処理できるようにします。

定義

光学文字認識は、画像内の視覚的パターンを分析して英数字や記号を識別・抽出するコンピュータビジョン技術です。PDF作成に適用する場合、OCRは文書ページのビットマップ画像(通常はスキャンや撮影によって取得)を処理し、PDF構造内に埋め込むことができるテキストレイヤーを生成します。これは、アプリケーションによって直接作成され ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 形式で文字コードとして保存されるネイティブデジタルテキストとは異なります。単に画像を埋め込むだけの画像からPDFへの変換とは異なり、OCR対応PDFには元の画像と、重ね合わせられた、または非表示のテキストレイヤーの両方が含まれており、元の文書の視覚的外観を保持しながらコンテンツを検索可能でアクセシブルにします。

OCRの精度は、ソース画像の解像度と鮮明度、元文書の品質、フォントスタイルとサイズ、文書の言語、OCRエンジンの性能など、いくつかの要因によって大きく異なります。品質の低いスキャン、特殊なフォント、手書き文字、劣化した文書は通常、精度の低い結果を生成し、手動での修正が必要になる場合があります。

重要性

文書管理システムを開発する開発者にとって、OCR機能はスキャン資料からアクセシブルで検索可能なPDFアーカイブを作成するために不可欠です。 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) を含む最新のアクセシビリティ標準では、PDF文書がテキストの画像だけでなく実際のテキストコンテンツを含むことを要求しており、OCRはコンプライアンスワークフローにおいて必要なステップとなります。OCRがなければ、スキャンしたPDFは本質的に画像ファイルであり、スクリーンリーダーで読み取ったり、検索エンジンでインデックス化したり、テキスト抽出ツールで処理したりすることができません。

OCRは、文書リポジトリ全体の全文検索、フォームや請求書からの自動データ抽出、コンテンツの再利用と編集、アクセシブルな文書に関する法的要件への準拠など、重要なビジネス機能を可能にします。スキャンからPDFへのワークフローを実装する開発者にとって、OCR精度の限界を理解し、品質検証を実装することは、信頼性の高いソリューションを提供するために不可欠です。

仕組み

OCRプロセスは通常、いくつかの技術的段階を含みます。まず、ソース画像は認識精度を最適化するための前処理を受けます。これには、傾き補正(傾いたページをまっすぐにする)、ノイズ除去、コントラスト強調、二値化(白黒への変換)が含まれます。次に、OCRエンジンはレイアウト解析を実行して、文書構造内のテキスト領域、列、段落、読み順序を識別します。

中核となる認識フェーズでは、パターンマッチングと機械学習アルゴリズムを使用して、個々の文字または文字グループを識別します。最新のOCRシステムは、広範なフォントと文字データセットで訓練されたニューラルネットワークを採用して、高い精度率を達成しています。エンジンは検出されたパターンを既知の文字形状と比較し、言語モデルと辞書を適用してコンテキストを通じて精度を向上させます。

PDF生成では、認識されたテキストは通常、視覚的なテキスト位置と一致する正確な座標で元の画像にオーバーレイされる不可視または半透明のレイヤーとして配置されます。 ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) のベストプラクティスによれば、適切に構造化されたOCR出力には、文書の階層と読み順序を定義する論理構造タグも含める必要があります。結果として得られるPDFは、元の視覚的忠実度を維持しながら、検索、アクセシビリティ、データ抽出のための機械可読テキストコンテンツを提供します。

関連用語

  • Tagged PDF – 文書階層を定義するセマンティックマークアップを含むPDF構造。OCR処理されたコンテンツをアクセシブルにするために不可欠
  • Image XObject – OCRが処理するスキャンされたページ画像を埋め込むために使用されるPDFオブジェクトタイプ
  • Content Stream – 画像データとOCRによって作成されたテキストオーバーレイの両方を含むPDFデータ構造
  • PDF/A – 長期保存のための特定の要件を持つOCR処理されたスキャン文書を組み込むことが多いアーカイブPDF標準
  • Accessibility – 支援技術によってPDFコンテンツを使用可能にする実践。スキャン文書ではOCRに依存

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html