PDF文書から情報を抽出する「pdfminer.six」のインストールについて解説しています。
「pdfminer.six(https://github.com/pdfminer/pdfminer.six)」は、PDF文書のテキスト データの取得と分析に重点を置いた情報を抽出するツールです。
■Python
今回のPythonのバージョンは、「3.9.9」を使用しています。(Windows11)(pythonランチャーでの確認)
■pdfminer.sixをインストールする
pdfminer.sixをインストールを行いますが、今回はpipを経由してインストールを行うので、まずWindowsのコマンドプロンプトを起動します。
pip install pdfminer.six
起動後、上記のコマンドを入力し、Enterキーを押します。
なお、今回は、pythonランチャーを使用しており、Python Version 3.9.9にインストールを行うために、バージョンの切り替えを行います。
py -3.9 -m pip install pdfminer.six
切り替えるために、上記のコマンドを入力し、Enterキーを押します。
Defaulting to user installation because normal site-packages is not writeable Collecting pdfminer.six Downloading pdfminer.six-20221105-py3-none-any.whl (5.6 MB) |████████████████████████████████| 5.6 MB 1.7 MB/s Requirement already satisfied: charset-normalizer>=2.0.0 in c:\users\user_\appdata\roaming\python\python39\site-packages (from pdfminer.six) (3.2.0) Collecting cryptography>=36.0.0 Downloading cryptography-41.0.3-cp37-abi3-win_amd64.whl (2.6 MB) |████████████████████████████████| 2.6 MB 89 kB/s Collecting cffi>=1.12 Using cached cffi-1.15.1-cp39-cp39-win_amd64.whl (179 kB) Collecting pycparser Using cached pycparser-2.21-py2.py3-none-any.whl (118 kB) Installing collected packages: pycparser, cffi, cryptography, pdfminer.six Successfully installed cffi-1.15.1 cryptography-41.0.3 pdfminer.six-20221105 pycparser-2.21 WARNING: You are using pip version 21.2.4; however, version 23.2.1 is available. You should consider upgrading via the 'C:\Program Files\Python39\python.exe -m pip install --upgrade pip' command.
Enterキーを押すと、インストールが開始され、上記のように「Successfully installed」と表示されます。これが表示されれば、pdfminer.sixが正常にインストールされたことになりますが、「WARNING」と表示されました。「WARNING」はエラーではなく警告で、インストールは行われているので、今回は一旦無視しています。
なお、今回はpdfminer.sixのバージョン20221105をインストールしました。
コメント