PDFBoxでPDFからハイライトテキストのみを抽出する
PDFに埋め込まれているテキストのうち、ハイライト部分のみを抽出するプログラムを書きました。
環境
- Java SE 11
- STS 4.3.2.RELEASE
- Maven 3.6.1
- PDFBox 2.0.24
解説
下記ページの回答に記載されているプログラムを参考にします。
pdf - Java: Apache PDFbox Extract highlighted text - Stack Overflow
QuadPointsについて
1行であれば、PDAnnotation.getRectangle
メソッドで注釈の矩形を取得し、それを利用すればテキストを抽出できます。
しかし複数行にまたがる場合、ハイライトの開始位置と終了位置次第では余分な文字まで取得してしまったり、逆に必要な文字が取得できません。
そこで、QuadPointsと呼ばれる各文字が埋め込まれている矩形の四隅の座標を利用することで、ハイライトしたテキストのみを取得することができます。
尚、QuadPointsの順番は、PDFの仕様上では左下、右下、右上、左上の半時計周りに指定することになっていますが、Adobe Acrobatでは左上、右上、左下、右下の順になっているようです。
(参考:annotations - PDF Spec vs Acrobat creation (QuadPoints) - Stack Overflow)
QuadPointsの取得方法
PDAnnotation.getCOSObject
メソッドでCOSDictionary
オブジェクトを取得します。- 引数に
COSName.QUADPOINTS
を指定したgetCOSArray
メソッドで取得できます。
指定領域のテキスト抽出
指定した領域に含まれるテキストを抽出するには、PDFTextStripperByArea
クラスを利用します。
addRegion
メソッドで抽出対象の領域を指定します。extractRegions
メソッドでテキストを抽出します。- 抽出されたテキストは
getTextForRegion
メソッドで取得できます。
領域の指定について
領域には、左上の座標と矩形の幅と高さを指定します。
幅は右上のX座標 - 左下のX座標
で算出します。
高さも同様に、右上のY座標 - 左下のY座標
で求めます。
左上のX座標は、文字同士の重なりを考慮して、左上X座標 - 1
としています。
Y座標は、ページの高さ - 左上Y座標
で指定します。このようにしている理由は、おそらくPDFの原点(左下)と一般的な画像処理での原点(左上)の違いによるものかと思われます。
実装例
この例ではPDFファイルのすべてのページから、ハイライトテキストのみを抽出してコンソールに出力します。
実行の際は、抽出対象のPDFファイルのパスを引数に指定する必要があります。
尚、下記のような警告が多数出ますが、内容を見る限り多分無視しても大丈夫でしょう。
7月 12, 2021 9:38:16 午後 org.apache.pdfbox.pdmodel.font.PDCIDFontType2 codeToGID
警告: Using non-embedded GIDs in font MS-Mincho