convertSpacesToNbsp
`convertSpacesToNbsp`オプションは、PDF生成および処理時に使用されるテキスト変換設定で、特定の通常のスペース文字を非改行スペース文字に置き換えます。
convertSpacesToNbspオプションは、PDF生成および処理時に使用されるテキスト変換設定で、特定の通常のスペース文字を非改行スペース文字に置き換えます。この変換により、ドキュメント構造内の特定の位置で望ましくない改行が発生するのを防ぎ、テキストの整合性を維持できます。Tagged PDFコンテンツを扱う際には、視覚的な表現と論理的な読み取り順序の両方を維持するために、適切なスペース制御が不可欠となります
(
Citation: PDF Association, 2023
PDF Association(2023). Retrieved from
https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
)
。
convertSpacesToNbspパラメータは、PDFテキスト操作時にスペース文字(U+0020)がどのように処理されるかを制御する設定オプションです。このオプションを有効にすると、選択されたスペースが非改行スペース(U+00A0)に変換されます。非改行スペースは通常の文字として扱われ、行折り返しアルゴリズムがその位置に改行を挿入するのを防ぎます。すべてのスペースを一律に置き換えるのではなく、この変換は通常、文脈に基づいて選択的に適用されます。例えば、名前のイニシャル間、数値内、または改行すると可読性や意味が損なわれる複合識別子などです。非改行スペース文字は通常のスペースと同じ視覚的な幅を維持しますが、テキストレンダリングエンジンやスクリーンリーダーに対して、周囲のテキストを分割不可能な単位として扱うよう指示します。
PDFドキュメントを作成または処理する開発者にとって、スペース変換の理解は、ドキュメントの外観とアクセシビリティの両方に影響します。不適切な改行は、電話番号、日付、製品コードなどの重要なデータを分断し、ドキュメントを読みにくくするだけでなく、自動化システムでのデータ抽出エラーを引き起こす可能性があります。PDF/UA ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準に準拠したアクセシブルなPDFワークフローでは、非改行スペースはテキストコンテンツ内の意味的関係を維持し、支援技術が情報を論理的なグループとして提示できるようにします。これは、HTML、XML、またはデータベースコンテンツからPDFを生成する際に、不適切な位置で自動改行が発生する可能性がある場合に特に重要です。フォームフィールド、表、または多言語コンテンツを扱う開発者は、視覚的なレイアウト要件とコンテンツの保持のバランスを取るために、この変換をいつ適用するかを慎重に検討する必要があります。
変換メカニズムは、PDF処理のテキスト抽出またはコンテンツストリーム生成フェーズで動作します。convertSpacesToNbspが有効になっている場合、テキスト処理エンジンは特定の基準に一致するスペース文字をスキャンします。多くの場合、正規表現や文脈ルールを使用して変換候補を識別します。PDF仕様
(
Citation: N.A., 2020
(N.A.).
(2020).
Document management — Portable document format — Part 2: PDF 2.0
.
International Organization for Standardization
Retrieved from
https://www.iso.org/standard/75839.html
)
では、コンテンツストリーム内の文字エンコーディングが定義されており、フォントのエンコーディング方式に応じて、通常のスペースと非改行スペースの両方を適切な文字コードまたはグリフマッピングを使用して表現できます。レンダリング時、非改行スペースはフォントの文字メトリックテーブルから通常のスペースと同じ幅メトリックを受け取りますが、テキストレイアウトアルゴリズムは改行目的では非境界文字として扱います。Tagged PDF構造では、これらの文字はドキュメントの論理構造ツリー内で意味的な役割を維持し、コンテンツ抽出およびリフロー操作が異なる表示コンテキストやデバイス間で意図されたテキストグループを保持できるようにします。
- Character encoding(文字エンコーディング) – PDFコンテンツストリーム内で文字がバイトとして表現される方法。スペースや非改行スペース文字を含む
- Tagged PDF – コンテンツの論理的な読み取り順序と意味的関係を定義する構造マークアップを持つPDFドキュメント
- Content stream(コンテンツストリーム) – テキストの配置を含む、PDFページの視覚的な外観を記述するオペレータとオペランドのシーケンス
- Text extraction(テキスト抽出) – スペースとレイアウト情報を保持しながら、PDFドキュメントからテキストコンテンツを取得するプロセス
- Glyph mapping(グリフマッピング) – PDFフォントにおける文字コードと視覚的な文字表現の関係
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
