【Python】PDFや画像の表識別と抽出ができる「img2table」のインストール

スポンサーリンク

OpenCVの画像処理に基づいたPDFや画像の表識別と抽出ができる「img2table」のインストールについて解説しています。

「img2table(https://github.com/xavctn/img2table)」は、PDFまた画像からテーブルを識別、抽出できるPythonライブラリです。

■Python

今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)

■img2tableをインストールする

img2tableをインストールを行いますが、今回はpipを経由してインストールを行うので、まずWindowsのコマンドプロンプトを起動します。

pip install img2table

起動後、上記のコマンドを入力し、Enterキーを押します。

なお、今回は、pythonランチャーを使用しており、Python Version 3.8.5にインストールを行うために、バージョンの切り替えを行います。

py -3.8 -m pip install img2table

切り替えるために、上記のコマンドを入力し、Enterキーを押します。

Defaulting to user installation because normal site-packages is not writeable
Collecting img2table
Downloading img2table-0.0.13-py3-none-any.whl (45 kB)
---------------------------------------- 45.2/45.2 kB 2.3 MB/s eta 0:00:00
Collecting pyarrow>=7
Downloading pyarrow-11.0.0-cp38-cp38-win_amd64.whl (20.6 MB)
---------------------------------------- 20.6/20.6 MB 4.7 MB/s eta 0:00:00
Collecting bs4
Using cached bs4-0.0.1-py3-none-any.whl
Collecting pymupdf>=1.19.1
Downloading PyMuPDF-1.21.1-cp38-cp38-win_amd64.whl (11.7 MB)
---------------------------------------- 11.7/11.7 MB 5.4 MB/s eta 0:00:00
Collecting xlsxwriter>=3.0.6
Downloading XlsxWriter-3.0.8-py3-none-any.whl (152 kB)
---------------------------------------- 152.8/152.8 kB 3.0 MB/s eta 0:00:00
Collecting polars[pandas]
Downloading polars-0.16.5-cp37-abi3-win_amd64.whl (16.0 MB)
---------------------------------------- 16.0/16.0 MB 2.9 MB/s eta 0:00:00
Collecting opencv-python
Using cached opencv_python-4.7.0.68-cp37-abi3-win_amd64.whl (38.2 MB)
Collecting numpy
Downloading numpy-1.24.2-cp38-cp38-win_amd64.whl (14.9 MB)
---------------------------------------- 14.9/14.9 MB 4.3 MB/s eta 0:00:00
Collecting beautifulsoup4
Downloading beautifulsoup4-4.11.2-py3-none-any.whl (129 kB)
---------------------------------------- 129.4/129.4 kB 3.8 MB/s eta 0:00:00
Collecting typing_extensions>=4.0.1
Using cached typing_extensions-4.4.0-py3-none-any.whl (26 kB)
Collecting pandas
Downloading pandas-1.5.3-cp38-cp38-win_amd64.whl (11.0 MB)
---------------------------------------- 11.0/11.0 MB 4.8 MB/s eta 0:00:00
Collecting soupsieve>1.2
Downloading soupsieve-2.4-py3-none-any.whl (37 kB)
Collecting python-dateutil>=2.8.1
Using cached python_dateutil-2.8.2-py2.py3-none-any.whl (247 kB)
Collecting pytz>=2020.1
Using cached pytz-2022.7.1-py2.py3-none-any.whl (499 kB)
Collecting six>=1.5
Using cached six-1.16.0-py2.py3-none-any.whl (11 kB)
Installing collected packages: pytz, xlsxwriter, typing_extensions, soupsieve, six, pymupdf, numpy, python-dateutil, pyarrow, polars, opencv-python, beautifulsoup4, pandas, bs4, img2table
Successfully installed beautifulsoup4-4.11.2 bs4-0.0.1 img2table-0.0.13 numpy-1.24.2 opencv-python-4.7.0.68 pandas-1.5.3 polars-0.16.5 pyarrow-11.0.0 pymupdf-1.21.1 python-dateutil-2.8.2 pytz-2022.7.1 six-1.16.0 soupsieve-2.4 typing_extensions-4.4.0 xlsxwriter-3.0.8

Enterキーを押すと、インストールが開始され、上記のように「Successfully installed」と表示されます。これが表示されれば、img2tableが正常にインストールされたことになります。

なお、今回はimg2tableのバージョン0.0.13をインストールしました。

コメント

タイトルとURLをコピーしました