PDFに含まれている表をテキストデータとして抜き出すことのできるTabulaというアプリケーションがあります。
インストール型なので最初は少し手間ですが、精度が高いのと、ナイト財団などの複数の財団の助成を受けているので、今後もメンテナンスが続いていきそうです。
Windows OSへインストールする際に、文字コードの関係で、少し手間がかかります。TabulaはUTF-8で起動することを想定した作りになっているのに、Windows OSではShift-JISで起動しようとするため、エラーが発生して起動しないということになります。
対処方法
- バッチファイルを作成して、今後はアプリファイル(tabula.exe)ではなく、そのバッチファイルをクリックすることで、Tabulaを起動することにします。
- そのバッチファイルには文字コードをUTF-8で起動することが記述されています。
というやり方になります。
用意するもの
- UTF-8での記述に対応するテキストエディタ
- マイクロソフトのVisual Studio Codeがおすすめです。 Visual Studio Code – コード エディター | Microsoft Azure
作業手順
- Tabulaが保存されているディレクトリにて、テキストエディタでtabula.batというファイルを作成します。
- そのファイルの中には以下の二行を書きます。
|
|
以上です!やってしまえば簡単でしょう?以下のリンク先にて制作済のファイルを配布しています。
注意すること
- タスクが複数立ち上がりっぱなしの場合、うまくいかないことがあります→タスクマネージャーを開いて、Tabula関連のタスクをすべて閉じてから、起動するとよいです。