PDFBoxでPDFからハイライトテキストのみを抽出する

2021-07-12

PDFに埋め込まれているテキストのうち、ハイライト部分のみを抽出するプログラムを書きました。

環境

Java SE 11
STS 4.3.2.RELEASE
Maven 3.6.1
PDFBox 2.0.24

解説

下記ページの回答に記載されているプログラムを参考にします。
pdf - Java: Apache PDFbox Extract highlighted text - Stack Overflow

QuadPointsについて

1行であれば、PDAnnotation.getRectangleメソッドで注釈の矩形を取得し、それを利用すればテキストを抽出できます。
しかし複数行にまたがる場合、ハイライトの開始位置と終了位置次第では余分な文字まで取得してしまったり、逆に必要な文字が取得できません。
そこで、QuadPointsと呼ばれる各文字が埋め込まれている矩形の四隅の座標を利用することで、ハイライトしたテキストのみを取得することができます。
尚、QuadPointsの順番は、PDFの仕様上では左下、右下、右上、左上の半時計周りに指定することになっていますが、Adobe Acrobatでは左上、右上、左下、右下の順になっているようです。
（参考：annotations - PDF Spec vs Acrobat creation (QuadPoints) - Stack Overflow）

QuadPointsの取得方法

PDAnnotation.getCOSObjectメソッドでCOSDictionaryオブジェクトを取得します。
引数にCOSName.QUADPOINTSを指定したgetCOSArrayメソッドで取得できます。

指定領域のテキスト抽出

指定した領域に含まれるテキストを抽出するには、PDFTextStripperByAreaクラスを利用します。

addRegionメソッドで抽出対象の領域を指定します。
extractRegionsメソッドでテキストを抽出します。
抽出されたテキストはgetTextForRegionメソッドで取得できます。

領域の指定について

領域には、左上の座標と矩形の幅と高さを指定します。
幅は右上のX座標 - 左下のX座標で算出します。
高さも同様に、右上のY座標 - 左下のY座標で求めます。
左上のX座標は、文字同士の重なりを考慮して、左上X座標 - 1としています。
Y座標は、ページの高さ - 左上Y座標で指定します。このようにしている理由は、おそらくPDFの原点（左下）と一般的な画像処理での原点（左上）の違いによるものかと思われます。

実装例

この例ではPDFファイルのすべてのページから、ハイライトテキストのみを抽出してコンソールに出力します。
実行の際は、抽出対象のPDFファイルのパスを引数に指定する必要があります。
尚、下記のような警告が多数出ますが、内容を見る限り多分無視しても大丈夫でしょう。

7月 12, 2021 9:38:16 午後 org.apache.pdfbox.pdmodel.font.PDCIDFontType2 codeToGID
警告: Using non-embedded GIDs in font MS-Mincho