Text line matrix
テキストラインマトリックスは、PDFコンテンツストリーム内で現在のテキスト行の開始位置を追跡する変換マトリックスです。
テキストラインマトリックスは、PDFコンテンツストリーム内で現在のテキスト行の開始位置を追跡する変換マトリックスです。テキストマトリックスと連携してテキストの配置を制御し、PDF文書における適切なテキストレンダリングに不可欠な要素です ( Citation: N.A., 2020 (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html ) 。テキストラインマトリックスはテキスト配置演算子によって変更され、新しいテキスト行を開始する際の基準点として機能します。
テキストラインマトリックスは、PDFのテキストオブジェクトモデルにおいてページ上のテキスト配置に使用される2つのマトリックスのうちの1つです。テキストマトリックス(Tm)が次のグリフが配置される行内の現在位置を追跡するのに対し、テキストラインマトリックス(Tlm)は現在のテキスト行の開始座標を記録します。この区別は重要です。なぜなら、PDFはテキストが現在レンダリングされている位置と行が開始された位置の両方を維持する必要があり、これによりキャリッジリターンや改行などの操作が可能になるからです。テキストラインマトリックスは、T*、Td、TD演算子が新しい行の開始位置に移動する際など、特定の時点でテキストマトリックスと自動的に同期されます。すべてのグラフィックス操作に影響を与えるカレント変換マトリックス(CTM)とは異なり、テキストラインマトリックスはテキストオブジェクト内でのみ動作し、テキストの配置にのみ影響を与えます。
PDF生成や操作を行う開発者にとって、テキストラインマトリックスの理解は正確なテキストレイアウト動作を実装するために不可欠です。PDFコンテンツストリームをプログラムで作成する際、特に複数行のテキストブロックを扱う場合やテキストのリフローを実装する場合、予測可能なテキスト配置を実現するにはテキストマトリックスとテキストラインマトリックスの両方を適切に管理する必要があります。テキストラインマトリックスは、既存のPDFを解析してテキストコンテンツを抽出する際に特に重要になります。行の開始位置を知ることで、改行や段落構造を判断することができます。テキストラインマトリックスの不適切な処理は、テキストが予期しない位置に表示されたり、コンテンツが重なったり、テキスト抽出アルゴリズムが適切な行境界を認識できなくなったりする原因となります。
テキストラインマトリックスは、BT(begin text)演算子でテキストオブジェクトが開始される際に初期化され、この時点でテキストマトリックスとテキストラインマトリックスの両方が単位行列に設定されます。テキストレンダリング操作中、テキストマトリックスはグリフが配置されるたびに継続的に更新されますが、テキストラインマトリックスは行の開始位置に固定されたままです。Td(オフセット付きで次の行の開始位置に移動)やT*(次の行の開始位置に移動)などの行配置演算子が呼び出されると、PDFレンダラーはまずテキストラインマトリックスを新しい行の開始位置に変更し、次にこの値をテキストマトリックスにコピーします。この同期により、両方のマトリックスが新しい行の同じ開始点を参照することが保証されます。これらのマトリックス間の関係により、Tm演算子は絶対的なテキスト位置を設定できる一方で、Tdのような演算子は現在の行の開始位置を基準として動作できます。Tj(テキスト文字列を表示)などのテキスト表示演算子は、グリフ配置に現在のテキストマトリックスを使用しますが、後続の行操作をサポートするためにテキストラインマトリックスが安定していることに依存しています。
- Text matrix – テキストレンダリング中の現在のグリフ位置を追跡する変換マトリックス
- Text object – テキストの状態と配置を分離するPDFコンテンツストリーム内のコンテナ構造
- Text-positioning operators – Td、TD、T*など、テキストマトリックスとラインマトリックスの位置を変更するPDF演算子
- Current transformation matrix – テキストオブジェクトを含むすべてのグラフィックス操作に影響を与えるグローバル変換マトリックス
- Content stream – ページの外観を記述するPDF演算子とオペランドのシーケンス
- (N.A.) (2020)
- (N.A.). (2020). Document management — Portable document format — Part 2: PDF 2.0 . International Organization for Standardization Retrieved from https://www.iso.org/standard/75839.html
