BaseParser

概要

BaseParserは、Apache PDFBoxのJavaクラスで、PDFファイル構造の解析に必要な中核機能を提供します。このクラスは、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義された構文規則に従って、PDFドキュメントのバイトレベルのコンテンツを読み取り、解釈します。BaseParserは、PDFファイルからオブジェクト、トークン、データ構造を抽出する必要がある様々なPDFBoxコンポーネントの基盤となるパーサーとして機能します。

定義

BaseParserは、Apache PDFBoxライブラリ内の抽象基底クラスで、PDFファイル構文を読み取るための低レベル解析操作を実装しています。このクラスは、PDFファイルからバイトを読み取り、数値、文字列、名前、配列、辞書、ストリームなどのPDFデータ型を表す意味のあるJavaオブジェクトに変換するという基本的なタスクを処理します。ドキュメント解析プロセス全体を統括するPDFParserやCOSParserなどの高レベルPDFBoxクラスとは異なり、BaseParserはトークン化とプリミティブオブジェクトの抽出に特化しています。このクラスは、個々のPDFトークンの読み取り、空白文字のスキップ、数値の解析、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) の仕様に従った基本的なPDF構文要素の解釈を行うメソッドを提供します。

全投稿を閲覧