Skip to main content
Interwork Corporation
IDR Solutions Product Support Portal
PDF開発用語集 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動 モードの切替 ダーク/ライト/自動

PDF text on-premise

PDF text on-premiseとは、クラウドベースのサービスではなく、組織自身のインフラストラクチャ内に展開・実行されるPDFテキスト処理、操作、生成機能を指します。

カテゴリ: General PDF Concepts
キーワード: pdf text on-premise, PDF text on-premise

概要

PDF text on-premiseとは、クラウドベースのサービスではなく、組織自身のインフラストラクチャ内に展開・実行されるPDFテキスト処理、操作、生成機能を指します。このアプローチにより、開発者は ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されたテキストコンテンツを含むPDF文書を、データセキュリティ、コンプライアンス要件、インフラストラクチャを完全に制御しながら扱うことができます。オンプレミスソリューションは、機密文書を扱う場合や、組織のポリシーが外部へのデータ送信を禁止している場合に特に重要です。

定義

PDF text on-premiseとは、すべてのソフトウェアコンポーネント、ライブラリ、処理エンジンが組織自身が所有・管理するサーバーおよびインフラストラクチャ上で実行されるPDFテキスト処理ソリューションの展開モデルです。これは、サードパーティのインフラストラクチャで処理が行われるSaaS(Software-as-a-Service)やクラウドベースのPDFソリューションとは対照的です。この用語は特に、PDF標準 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) に準拠したテキスト抽出、テキスト認識、テキスト検索、テキストレンダリング操作を含む、PDF内のテキストコンテンツの処理を指します。オンプレミス展開では通常、PDF SDK、ライブラリ、サーバーアプリケーションをローカルハードウェアやプライベートデータセンターに直接インストールし、組織がPDF処理ワークフローと文書内のテキストデータに対する完全な主権を持つことができます。

重要性

医療、金融、政府部門などの規制産業で働く開発者にとって、データプライバシー規制、コンプライアンス要件(HIPAA、GDPR、SOX)、または機密情報の外部サーバーへの送信を禁止するセキュリティポリシーにより、オンプレミスPDFテキスト処理がしばしば必須となります。オンプレミスソリューションは、インターネット接続への依存なしに予測可能なパフォーマンスを提供し、クラウドサービスで一般的な文書単位の処理料金を排除し、処理環境の完全なカスタマイズを可能にします。組織は、大量の文書を処理する際の低レイテンシ、既存のエンタープライズシステムとの直接統合、コンプライアンス目的の完全な監査証跡から利益を得ます。開発者にとって、これは文書コンテンツが組織のセキュリティ境界を決して離れないことを保証しながら、ローカルライブラリとAPIを使用してPDFテキスト機能を実装することを意味します。

仕組み

オンプレミスPDFテキスト処理では通常、組織のネットワークインフラストラクチャ内のアプリケーションサーバーにPDFライブラリまたはフレームワークをインストールします。開発者は、言語固有のAPI(Java、.NET、Pythonなど)を使用してこれらのライブラリをアプリケーションに統合し、PDF構造からテキストコンテンツを抽出する、テキストの位置と書式情報を分析する、テキスト検索機能を実装する、 ( Citation: N.A., (N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 仕様に準拠したテキストコンテンツを含む新しいPDF文書を生成するなどの操作を実行します。テキスト抽出プロセスには、PDFファイル構造を解析してテキストオブジェクトを特定し、文字エンコーディングをデコードし、コンテンツストリーム演算子に基づいてテキストフローを再構成することが含まれます。アクセシブルな文書の場合、開発者は適切なテキスト読み順序と意味的意味を確保するために、Tagged PDF構造 ( Citation: , (). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) を扱う必要があります。オンプレミス展開には、専用の処理サーバー、大量処理シナリオ用のロードバランサー、文書保持用のローカルストレージシステムが含まれる場合があり、これらはすべて組織のファイアウォール内で管理され、内部セキュリティプロトコルと監視システムの対象となります。

関連用語

  • PDF Text Extraction – PDF文書からテキストコンテンツと関連するメタデータを取得するプロセス
  • Tagged PDF – アクセシビリティのために読み順序とコンテンツの関係を定義する構造マークアップを持つPDF文書 ( Citation: N.A., (N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html )
  • Content Stream – ページ上のテキストとグラフィックスをレンダリングするための命令を含むPDFファイルの部分
  • PDF SDK – PDFの作成と操作のためのプログラマティックツールとライブラリを提供するSoftware Development Kit
  • Enterprise PDF Processing – 組織のインフラストラクチャとワークフロー内での大規模なPDF文書処理

出典

(N.A.) (2020)
(N.A.). (). Document management — Portable document format — Part 2: PDF 2.0 International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
PDF Association (2023)
(). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
(N.A.) (2014)
(N.A.). (). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html