Conversion SDK

概要

Conversion SDKは、プログラムによるドキュメントのPDF形式への変換、またはPDF形式からの変換を行うためのツール、ライブラリ、APIを提供するソフトウェア開発キットです。これらのSDKにより、開発者は ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) などのPDF標準への準拠を維持しながら、ドキュメント変換ワークフローを自動化できます。Conversion SDKは、エンタープライズドキュメント管理システムにおける重要なコンポーネントであり、アプリケーションが様々なソース形式からPDFを生成したり、既存のPDFファイルからコンテンツを抽出したりすることを可能にします。

定義

Conversion SDKは、PDFファイルに関連するプログラマティックなドキュメント変換操作を容易にするために設計された包括的なツールキットです。スタンドアロンの変換アプリケーションやコマンドラインツールとは異なり、SDKは開発者にカスタムアプリケーション内に組み込み可能な変換エンジンへの直接的なAPIアクセスを提供します。これらのSDKは通常、双方向変換をサポートしており、Microsoft Office、HTML、画像、CADファイルなどの形式からPDFへの変換、およびPDFから他の形式へのコンテンツ抽出が可能です。SDKアプローチは、ローカル処理機能、変換パラメータに対する高度な制御、外部送信なしで機密ドキュメントを処理する能力を提供することで、Webベースの変換サービスとは異なります。最新のConversion SDKには、ドキュメントの忠実性を保持する機能、 ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) で概説されているアクセシビリティ準拠のためのTagged PDF構造の維持、生成されたPDFが特定のPDF標準とプロファイルに適合することを保証する機能が含まれていることが多くあります。

全投稿を閲覧

Conversion search

概要

Conversion search（変換検索）は、フォーマット変換操作の実行中または実行後に、ドキュメント内のコンテンツを識別して特定するPDF処理技術です。この概念は、特定の規格やアクセシビリティ要件を満たすためにPDFを変換する際に特に重要です。開発者が特定のドキュメント要素をプログラムで検索および変更できるようにするためです。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) などの規格に準拠した構造化PDFを扱う場合、conversion searchは、変換ワークフロー中にドキュメント機能が適切にマッピングされ、保持されることを保証します。

定義

Conversion searchとは、変換ワークフローの一部として、PDFドキュメント内の特定のコンテンツ、構造、またはメタデータを検索して識別するプロセスを指します。エンドユーザー向けにテキストを検索する一般的なPDF検索機能とは異なり、conversion searchは開発に焦点を当てた操作であり、フォーマット変換中に変更、検証、またはマッピングが必要なタグ、注釈、フォームフィールド、書式属性などのドキュメント要素を特定します。この技術は、異なるPDF規格（PDF/A、PDF/UA、PDF 2.0など）間の変換や、PDFをHTMLや ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) 要件に準拠したアクセシブルなドキュメントなどの他の形式に変換する際に不可欠です。

全投稿を閲覧

Conversion thumbnails

概要

Conversion thumbnailsは、PDF作成または処理ワークフロー中に生成される小型で低解像度のプレビュー画像で、ドキュメントページの視覚的表現を提供します。これらのサムネイルにより、ユーザーはフル解像度のページをレンダリングすることなく、PDFドキュメント内のコンテンツを素早くナビゲートし識別できます。PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) では厳密には必須ではありませんが、サムネイルはPDFビューアやドキュメント管理システムにおけるユーザーエクスペリエンスとパフォーマンスを向上させるため、PDFドキュメントに一般的に含まれています。

定義

Conversion thumbnailsは、ドキュメントページの縮小版を表すPDFファイル内に埋め込まれた画像オブジェクトです。PDFの変換プロセス中（Wordドキュメント、HTML、画像などのソース形式から変換する場合）、これらのサムネイルは自動的に生成され、PDF構造内に保存されます。ベクターグラフィックス、テキスト、高解像度画像で構成される実際のページコンテンツとは異なり、サムネイルは通常、小さなファイルサイズと高速表示に最適化されたラスタライズされたJPEGまたはその他の圧縮画像形式です。サムネイルはコンテンツ要素ではなくナビゲーション補助として機能し、その有無はPDF/UA ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準で定義されているドキュメントのアクセシビリティや構造的整合性に影響を与えません。

全投稿を閲覧

convertSpacesToNbsp

概要

convertSpacesToNbspオプションは、PDF生成および処理時に使用されるテキスト変換設定で、特定の通常のスペース文字を非改行スペース文字に置き換えます。この変換により、ドキュメント構造内の特定の位置で望ましくない改行が発生するのを防ぎ、テキストの整合性を維持できます。Tagged PDFコンテンツを扱う際には、視覚的な表現と論理的な読み取り順序の両方を維持するために、適切なスペース制御が不可欠となります ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) 。

定義

convertSpacesToNbspパラメータは、PDFテキスト操作時にスペース文字（U+0020）がどのように処理されるかを制御する設定オプションです。このオプションを有効にすると、選択されたスペースが非改行スペース（U+00A0）に変換されます。非改行スペースは通常の文字として扱われ、行折り返しアルゴリズムがその位置に改行を挿入するのを防ぎます。すべてのスペースを一律に置き換えるのではなく、この変換は通常、文脈に基づいて選択的に適用されます。例えば、名前のイニシャル間、数値内、または改行すると可読性や意味が損なわれる複合識別子などです。非改行スペース文字は通常のスペースと同じ視覚的な幅を維持しますが、テキストレンダリングエンジンやスクリーンリーダーに対して、周囲のテキストを分割不可能な単位として扱うよう指示します。

重要性

PDFドキュメントを作成または処理する開発者にとって、スペース変換の理解は、ドキュメントの外観とアクセシビリティの両方に影響します。不適切な改行は、電話番号、日付、製品コードなどの重要なデータを分断し、ドキュメントを読みにくくするだけでなく、自動化システムでのデータ抽出エラーを引き起こす可能性があります。PDF/UA ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準に準拠したアクセシブルなPDFワークフローでは、非改行スペースはテキストコンテンツ内の意味的関係を維持し、支援技術が情報を論理的なグループとして提示できるようにします。これは、HTML、XML、またはデータベースコンテンツからPDFを生成する際に、不適切な位置で自動改行が発生する可能性がある場合に特に重要です。フォームフィールド、表、または多言語コンテンツを扱う開発者は、視覚的なレイアウト要件とコンテンツの保持のバランスを取るために、この変換をいつ適用するかを慎重に検討する必要があります。

全投稿を閲覧

COS (Carousel Object Syntax)

概要

COS（Carousel Object Syntax）は、PDFファイル内のすべてのデータの構造と構成を定義する基礎的なオブジェクト構文です。その名称はAdobeの「Carousel」プロジェクトに由来する歴史的なものですが、COSは ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) として標準化されたPDF仕様の基盤を形成しています。テキストや画像から、インタラクティブフォームやメタデータまで、PDF内のすべての要素はCOSオブジェクトとその関係性を用いて表現されます。

定義

COSは、PDFがすべてのコンテンツとメタデータを表現するために使用する低レベルのデータ構造言語です。8つの基本的なオブジェクトタイプを定義しています：ブール値、整数と実数、文字列、名前、配列、辞書、ストリーム、そしてnullオブジェクトです。これらのオブジェクトは有向グラフ構造を形成し、間接参照を通じて他のオブジェクトを参照することができ、単純なコンポーネントから複雑なドキュメント構造を構築することを可能にします。

Tagged PDFやコンテンツストリームなどの高レベルなPDF概念とは異なり、COSは構文レベルで動作します。つまり、PDFドキュメントを機械可読にするための文法と語彙を提供します。PDFライブラリを使用する開発者がCOSオブジェクトを直接操作することは稀ですが、COSの理解は、低レベルなPDF操作、不正なPDFのデバッグ、カスタムPDF処理ツールの実装において不可欠です。この構文は原理的にはドキュメントフォーマットに依存しませんが、PDFの要件に特化して設計されました。

重要性

COSの理解は、表面的なPDF操作を超えた作業が必要な開発者にとって極めて重要です。PDF生成の問題をデバッグする際、COSレベルの構造を調査することで、オブジェクトがどのように構成され参照されているかを正確に把握できます。カスタムPDFツールを構築したり、既存のライブラリを拡張したりする開発者にとって、COSの知識はPDF構造の直接操作、オブジェクトの再利用によるファイルサイズの最適化、高レベルAPIでは公開されていない高度な機能の実装を可能にします。

全投稿を閲覧

CropBox

概要

CropBoxは、PDFページのコンテンツを表示または印刷する際にクリッピングする領域を定義する矩形です ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。これによりページの可視境界が決定され、開発者はページコンテンツのどの部分をエンドユーザーに表示するかを制御できます。CropBoxが存在する場合、デフォルトの可視領域（通常はMediaBoxで定義される）を上書きします。

定義

CropBoxは、PDF仕様で定義されている複数のページ境界ボックスの1つです ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。これは、ページの座標系で指定された矩形領域を表し、ページコンテンツのクリッピング領域を定義します。ページメディアの物理的な寸法を定義するMediaBoxとは異なり、CropBoxは、ページが画面に表示されたりプリンタに送信されたりする際に、そのコンテンツのどの部分が可視になるかを具体的に決定します。

全投稿を閲覧

DCTDecode

概要

DCTDecodeは、JPEG（離散コサイン変換）圧縮アルゴリズムを使用して画像データをエンコード・デコードするPDFのストリームフィルタです。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で定義されているように、PDF文書にJPEG圧縮画像を再圧縮することなく直接埋め込むことができ、元のJPEGエンコーディングを保持します。このフィルタは、PDFファイル内の写真や連続階調画像に対して最も一般的に使用される圧縮方法の一つです。

定義

DCTDecodeは、JPEG基本エンコーディング規格（ISO/IEC 10918-1）を実装した非可逆圧縮フィルタです。FlateDecodeなどの可逆フィルタとは異なり、DCTDecodeは周波数領域変換を使用して、人間の目に知覚されにくい視覚情報を選択的に破棄することで高い圧縮率を実現します。PDFプロセッサがDCTDecodeを使用したストリームに遭遇すると、JPEG展開を適用して画像データを再構築します。

このフィルタは、緩やかな色の変化が一般的な写真などの連続階調画像専用に設計されています。スキャンされた文書などの2値（白黒）画像に最適化されたJBIG2DecodeやCCITTFaxDecodeといったフィルタとは異なります。DCTDecodeは品質設定や色空間情報を含む元のJPEGエンコーディングパラメータを維持するため、既存のJPEGファイルを再エンコーディングによる品質劣化なしに埋め込むのに最適です。

重要性

PDF生成または操作を行う開発者にとって、DCTDecodeを理解することは、許容可能な画像品質を維持しながらファイルサイズを最適化するために重要です。写真や複雑なグラフィックスを埋め込む際、DCTDecodeを使用すると、非圧縮または可逆圧縮方式と比較してPDFファイルサイズを大幅に削減でき、文書の転送と保存を高速化できます。

全投稿を閲覧

Decode array

概要

Decode arrayは、PDF画像辞書のオプションパラメータで、画像データの生のサンプル値をレンダリング用のカラーコンポーネント値にマッピングする方法を定義します。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されているように、この配列は各カラーコンポーネントに対して線形マッピング関数を提供し、開発者が基礎となるピクセル値を変更することなく、画像サンプルデータの解釈を反転、スケール、または調整できるようにします。Decode arrayは、非標準のカラー解釈が必要な画像を扱う場合や、反転した画像データを保存してファイルサイズを最適化する場合に特に有用です。

定義

Decode arrayは、PDF画像辞書内の数値ペアのシーケンスで、画像のカラースペースにおける各カラーコンポーネントに対して1つのペアが存在します。各ペアは、そのコンポーネントの最小出力値と最大出力値を定義する2つの値[Dmin, Dmax]で構成されます。PDFプロセッサが画像をレンダリングする際、最小サンプル値（通常は0）をDminにマッピングし、最大サンプル値をDmaxにマッピングし、中間値は線形補間されます。

例えば、8ビットサンプル（値0〜255）を持つDeviceGray画像の場合、デフォルトのDecode arrayは[0 1]であり、サンプル値0が黒（0.0）にマッピングされ、255が白（1.0）にマッピングされることを意味します。Decode arrayが[1 0]の場合は画像が反転され、0が白に、255が黒にマッピングされます。RGB画像の場合、Decode arrayには6つの値が含まれます：[Rmin Rmax Gmin Gmax Bmin Bmax]。

全投稿を閲覧

DecodeParms

概要

DecodeParms は、圧縮またはエンコードされたストリームデータを正しくデコードするために必要な追加パラメータを指定する PDF 辞書エントリです。PDF ストリームがデータの圧縮またはエンコードに 1 つ以上のフィルタを使用する場合、DecodeParms はデコード処理時にそのプロセスを逆転させるために必要なフィルタ固有の設定を提供します ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。このパラメータにより、圧縮されたコンテンツを正確に解凍し、元の形式に復元できることが保証されます。

定義

DecodeParms は、ストリーム辞書内のオプションエントリであり、Filter エントリで指定されたフィルタのパラメータを含みます。単一の辞書（1 つのフィルタが適用される場合）または辞書の配列（複数のフィルタが順次適用される場合）のいずれかの形式を取ることができます。各辞書には、対応するフィルタの要件に固有のキーと値のペアが含まれます。たとえば、Flate エンコードされたストリームには予測関数を指定する DecodeParms が含まれる場合があり、JBIG2 エンコードされた画像ストリームにはグローバルデータセグメントを指すパラメータが含まれます。

全投稿を閲覧

DICOM

概要

DICOM（Digital Imaging and Communications in Medicine）は、医療画像の管理、保存、伝送のためのファイル形式と通信プロトコルの両方を定義する、広く採用されている国際標準です。 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) で規定されているようにPDF文書に埋め込まれた場合、DICOMファイルにより、X線、CTスキャン、MRIなどの診断画像をポータブルドキュメントワークフローに含めることが可能になります。これらの画像には、時系列データまたは立体データセットを表すマルチフレームシーケンスが含まれることがよくあります。

定義

DICOMは、ファイル形式（通常は.dcm拡張子）であると同時に、全米電機工業会（NEMA）が管理する包括的な標準規格であり、医療画像機器が診断画像と患者データをどのように取得、保存、交換するかを規定しています。ピクセルデータのみを保存するJPEGやPNGなどの一般的な画像形式とは異なり、DICOMファイルは画像データと共に、患者情報、取得パラメータ、機器詳細、画像ジオメトリなどの広範なメタデータをカプセル化します。DICOMファイルには単一の画像または複数のフレームが含まれる場合があり、心臓のシネループやマルチスライスCTボリュームのような画像シーケンスの表現に適しています。PDF文書に組み込まれる場合、DICOMコンテンツはインライン画像XObjectまたはファイル添付として埋め込むことができ、 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) でサポートされているように、医療専門家が診断画像と臨床レポートを単一のポータブルドキュメント形式で結合できるようになります。

全投稿を閲覧