Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

org.apache.pdfbox.text

`org.apache.pdfbox.text`パッケージは、Apache PDFBoxのコアコンポーネントであり、PDF文書からテキストコンテンツを抽出および操作するためのAPIを提供します。

キーワード: org.apache.pdfbox.text, org.apache.pdfbox.text

概要

org.apache.pdfbox.textパッケージは、Apache PDFBoxのコアコンポーネントであり、PDF文書からテキストコンテンツを抽出および操作するためのAPIを提供します。このパッケージには、PDFの構造を解析し、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されている文書の論理的な構成を尊重しながらテキスト情報を取得するために設計されたクラスとユーティリティが含まれています。開発者は、このパッケージを使用して、PDF処理アプリケーションにおけるテキスト抽出、検索機能、コンテンツ分析機能を実装します。

定義

org.apache.pdfbox.textパッケージは、Apache PDFBox内のテキスト操作に特化した専用のJava APIレイヤーです。このパッケージには、PDFコンテンツストリームをトラバースしてテキストを抽出するPDFTextStripperや、個々の文字の配置と書式設定に関する情報を保持するTextPositionなどの主要クラスが含まれています。生のPDFオブジェクトとストリームを扱う低レベルのPDFBoxパッケージとは異なり、このパッケージはテキスト関連の操作に特化した抽象化された高レベルのインターフェースを提供します。このパッケージは、文字エンコーディングマッピング、フォント置換、座標変換など、PDFの視覚的表現を抽出可能なテキスト文字列に変換するために必要な複雑なPDFテキストレンダリング操作を処理します。 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などのアクセシビリティ標準に準拠した文書の場合、このパッケージはTagged PDF構造を活用して、読み順でテキストを抽出することができます。

重要性

PDF処理アプリケーションを構築する開発者にとって、org.apache.pdfbox.textパッケージは、PDFの複雑な視覚的フォーマットからテキストを確実に抽出するという困難な問題を解決します。このパッケージは、全文検索、コンテンツインデックス作成、データマイニング、文書分析ワークフローなどの機能を実装するために不可欠です。PDFのコンテンツストリームオペレータの複雑さを抽象化し、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で指定されているPDF内部の深い知識を必要とせずに、開発者がテキストを取得するための直接的な方法を提供します。このパッケージがテキストの位置情報を保持する機能により、テキストハイライト、領域固有の抽出、レイアウトを考慮したテキスト解析などの高度なユースケースが可能になり、単純なテキスト連結以上の文書構造の理解を必要とするアプリケーションにとって非常に貴重です。

仕組み

org.apache.pdfbox.textパッケージは、一連のレンダリング操作を通じてPDFコンテンツストリームを処理することで動作します。主要クラスであるPDFTextStripperは、各ページのコンテンツオペレータを走査するビジターパターンを実装し、テキスト表示オペレータ(Tj、TJ、’、“など)を解釈して文字シーケンスを抽出します。コンテンツを処理する際、パッケージは現在の変換マトリクス、フォント辞書、テキスト状態パラメータを追跡するグラフィックス状態スタックを維持します。各文字について、パッケージはユーザー空間座標における位置を計算し、フォントエンコーディング情報とToUnicodeマッピングを使用して実際のUnicode値を取得し、文字とその空間メタデータの両方を含むTextPositionオブジェクトを構築します。このパッケージは、オプションでTagged PDFからの文書構造情報 ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) を使用して、抽出順序と意味的理解を向上させることができます。開発者は、基底クラスを拡張し、writeString()などのメソッドをオーバーライドすることで、抽出プロセス中にカスタムテキスト処理ロジック、フィルタリング、またはフォーマットを実装し、抽出動作をカスタマイズできます。

関連用語

  • PDFTextStripper – PDF文書からテキストコンテンツを抽出するためのorg.apache.pdfbox.textの主要クラス
  • TextPosition – PDF内の個々の文字またはテキストフラグメントの位置とプロパティを表すクラス
  • Content Stream – PDFページの視覚的外観とテキストコンテンツを記述するPDFオペレータのシーケンス
  • Tagged PDF – アクセシビリティとコンテンツ抽出を向上させるために、論理的な文書階層と意味情報を含むPDF構造
  • Apache PDFBox – PDF文書の作成、操作、コンテンツ抽出のためのオープンソースJavaライブラリ

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html