OpenCVの画像処理に基づいたPDFや画像の表識別と抽出ができる「img2table」のインストールについて解説しています。
「img2table(https://github.com/xavctn/img2table)」は、PDFまた画像からテーブルを識別、抽出できるPythonライブラリです。
■Python
今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)
■img2tableをインストールする
img2tableをインストールを行いますが、今回はpipを経由してインストールを行うので、まずWindowsのコマンドプロンプトを起動します。
pip install img2table
起動後、上記のコマンドを入力し、Enterキーを押します。
なお、今回は、pythonランチャーを使用しており、Python Version 3.8.5にインストールを行うために、バージョンの切り替えを行います。
py -3.8 -m pip install img2table
切り替えるために、上記のコマンドを入力し、Enterキーを押します。
Defaulting to user installation because normal site-packages is not writeable Collecting img2table Downloading img2table-0.0.13-py3-none-any.whl (45 kB) ---------------------------------------- 45.2/45.2 kB 2.3 MB/s eta 0:00:00 Collecting pyarrow>=7 Downloading pyarrow-11.0.0-cp38-cp38-win_amd64.whl (20.6 MB) ---------------------------------------- 20.6/20.6 MB 4.7 MB/s eta 0:00:00 Collecting bs4 Using cached bs4-0.0.1-py3-none-any.whl Collecting pymupdf>=1.19.1 Downloading PyMuPDF-1.21.1-cp38-cp38-win_amd64.whl (11.7 MB) ---------------------------------------- 11.7/11.7 MB 5.4 MB/s eta 0:00:00 Collecting xlsxwriter>=3.0.6 Downloading XlsxWriter-3.0.8-py3-none-any.whl (152 kB) ---------------------------------------- 152.8/152.8 kB 3.0 MB/s eta 0:00:00 Collecting polars[pandas] Downloading polars-0.16.5-cp37-abi3-win_amd64.whl (16.0 MB) ---------------------------------------- 16.0/16.0 MB 2.9 MB/s eta 0:00:00 Collecting opencv-python Using cached opencv_python-4.7.0.68-cp37-abi3-win_amd64.whl (38.2 MB) Collecting numpy Downloading numpy-1.24.2-cp38-cp38-win_amd64.whl (14.9 MB) ---------------------------------------- 14.9/14.9 MB 4.3 MB/s eta 0:00:00 Collecting beautifulsoup4 Downloading beautifulsoup4-4.11.2-py3-none-any.whl (129 kB) ---------------------------------------- 129.4/129.4 kB 3.8 MB/s eta 0:00:00 Collecting typing_extensions>=4.0.1 Using cached typing_extensions-4.4.0-py3-none-any.whl (26 kB) Collecting pandas Downloading pandas-1.5.3-cp38-cp38-win_amd64.whl (11.0 MB) ---------------------------------------- 11.0/11.0 MB 4.8 MB/s eta 0:00:00 Collecting soupsieve>1.2 Downloading soupsieve-2.4-py3-none-any.whl (37 kB) Collecting python-dateutil>=2.8.1 Using cached python_dateutil-2.8.2-py2.py3-none-any.whl (247 kB) Collecting pytz>=2020.1 Using cached pytz-2022.7.1-py2.py3-none-any.whl (499 kB) Collecting six>=1.5 Using cached six-1.16.0-py2.py3-none-any.whl (11 kB) Installing collected packages: pytz, xlsxwriter, typing_extensions, soupsieve, six, pymupdf, numpy, python-dateutil, pyarrow, polars, opencv-python, beautifulsoup4, pandas, bs4, img2table Successfully installed beautifulsoup4-4.11.2 bs4-0.0.1 img2table-0.0.13 numpy-1.24.2 opencv-python-4.7.0.68 pandas-1.5.3 polars-0.16.5 pyarrow-11.0.0 pymupdf-1.21.1 python-dateutil-2.8.2 pytz-2022.7.1 six-1.16.0 soupsieve-2.4 typing_extensions-4.4.0 xlsxwriter-3.0.8
Enterキーを押すと、インストールが開始され、上記のように「Successfully installed」と表示されます。これが表示されれば、img2tableが正常にインストールされたことになります。
なお、今回はimg2tableのバージョン0.0.13をインストールしました。
コメント