Tiny text removal threshold
Tiny text removal thresholdは、PDF処理で使用される変換オプションで、出力ドキュメントから極めて小さいテキスト要素をフィルタリングまたは除外します。
Tiny text removal thresholdは、PDF処理で使用される変換オプションで、出力ドキュメントから極めて小さいテキスト要素をフィルタリングまたは除外します。このしきい値は通常、最小フォントサイズ(ポイント単位)として定義され、変換操作中にこれを下回るテキストコンテンツが除外されます。PDF仕様 ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) では特定のテキストサイズ要件は規定されていませんが、この機能はユーザーに見えない、または判読不可能なテキストを削除することで、ドキュメント処理を最適化します。
Tiny text removal thresholdは、PDF変換および処理ワークフローにおける設定可能なパラメータで、最小テキストサイズ基準を確立します。有効化すると、指定されたしきい値よりも小さいフォントサイズでレンダリングされたテキストは、結果として生成される出力から自動的に削除されます。これはテキストの可視性設定や不透明度制御とは異なり、視覚的プロパティではなく実際のフォントサイズメトリックに基づいて動作します。この機能は、PDFを他の形式(HTML、画像、アクセシブルなドキュメントなど)に変換する際に特に有用です。極小のテキスト要素は実用的な目的を果たさず、処理の複雑化やアクセシビリティの問題を引き起こす可能性があるためです。
PDF変換パイプラインを扱う開発者にとって、tiny text removal thresholdはいくつかの実用的な利点を提供します。第一に、コンテンツ抽出やアクセシビリティワークフローを妨げる可能性のある装飾的または隠されたテキスト要素を排除することで、出力ドキュメントをクリーンアップします。第二に、分析、レンダリング、または変換が必要なテキストオブジェクトの量を削減することで、処理パフォーマンスを向上させることができます。第三に、PDF/UA ( Citation: N.A., 2014 (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html ) などの標準に準拠したアクセシブルなドキュメントを作成する際、知覚できないほど小さいテキストを削除することで、スクリーンリーダーやその他の支援技術における混乱を防ぎます。最後に、PDFにセキュリティ透かし、トラッキング要素、または変換後の出力に表示すべきでないその他のマイクロテキストが含まれている場合に対処するのに役立ちます。
PDF処理中、変換エンジンはコンテンツストリームで定義されている各テキスト要素のフォントサイズプロパティを検査します。Tiny text removal thresholdが指定された値(たとえば3ポイント)で有効化されている場合、エンジンは各テキストオブジェクトの実効フォントサイズをこのしきい値と比較します。しきい値を下回るテキストは出力ストリームから除外され、しきい値以上のテキストは通常どおり処理されます。実効フォントサイズの計算では、基本フォントサイズとテキストオブジェクトに適用される変換マトリックスの両方が考慮されます。Tagged PDF文書 ( Citation: PDF Association, 2023 PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/ ) では、開発者は削除されるテキストに意味的に重要なコンテンツが含まれていないことを確認する必要があります。これはドキュメント構造とアクセシビリティに影響を与える可能性があるためです。しきい値は通常、APIパラメータまたは変換設定を通じて設定可能であり、開発者は特定のユースケース要件に基づいて、出力のクリーンさと潜在的なコンテンツ損失のバランスを取ることができます。
- Font size(フォントサイズ) – PDFにおけるテキストの高さの測定値で、通常ポイント単位で表現されます
- Text extraction(テキスト抽出) – 分析または変換のためにPDFドキュメントからテキストコンテンツを取得するプロセス
- Content stream(コンテンツストリーム) – テキストとグラフィックスがどのようにレンダリングされるかを定義する、PDF内の命令シーケンス
- Tagged PDF – アクセシビリティのためにドキュメントコンテンツに関するセマンティック情報を含む構造化PDF形式
- Text rendering mode(テキストレンダリングモード) – 塗りつぶし、ストローク、非表示などのテキスト表示方法を制御するPDFパラメータ
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
- PDF Association (2023)
- PDF Association(2023). Retrieved from https://pdfa.org/resource/tagged-pdf-best-practice-guide-syntax/
- (N.A.) (2014)
- (N.A.). (2014). Document management applications — Electronic document file format enhancement for accessibility — Part 1: Use of ISO 32000-1 (PDF/UA-1) . International Organization for Standardization Retrieved from https://www.iso.org/standard/64599.html
