SQLiteデータベースとしてのWebクロールデータ「warcdb」のインストール

スポンサーリンク

SQLiteデータベースとしてのWebクロールデータ「warcdb」のインストールについて解説しています。

「WarcDB(https://github.com/Florents-Tselai/warcdb)」は、Webクロールデータの共有とクエリを容易にするファイル形式です。なお、WARC(Web ARChive)ファイル形式は、複数のリソースレコード(データオブジェクト)を連結するための規則を提供しており、Commoncrawl、WebRecorder、Archive.org、世界中の図書館などの多くの組織は、このwarc形式を使用してWebデータをアーカイブ及び保存を行っている。

■Python

今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)

■warcdbをインストールする

warcdbをインストールを行いますが、今回はpipを経由してインストールを行うので、まずWindowsのコマンドプロンプトを起動します。

pip install warcdb

起動後、上記のコマンドを入力し、Enterキーを押します。

なお、今回は、pythonランチャーを使用しており、Python Version 3.8.5にインストールを行うために、バージョンの切り替えを行います。

py -3.8 -m pip install warcdb

切り替えるために、上記のコマンドを入力し、Enterキーを押します。

Defaulting to user installation because normal site-packages is not writeable
Collecting warcdb
Downloading warcdb-0.1.0-py3-none-any.whl (9.3 kB)
Collecting sqlite-utils==3.26.1
Downloading sqlite_utils-3.26.1-py3-none-any.whl (59 kB)
---------------------------------------- 59.8/59.8 kB 635.4 kB/s eta 0:00:00
Requirement already satisfied: tqdm in c:\users\user_\appdata\roaming\python\python38\site-packages (from warcdb) (4.60.0)
Requirement already satisfied: more-itertools in c:\users\user_\appdata\roaming\python\python38\site-packages (from warcdb) (8.13.0)
Collecting click==8.1.3
Using cached click-8.1.3-py3-none-any.whl (96 kB)
Collecting warcio==1.7.4
Downloading warcio-1.7.4-py2.py3-none-any.whl (40 kB)
---------------------------------------- 40.2/40.2 kB 1.9 MB/s eta 0:00:00
Requirement already satisfied: colorama in c:\users\user_\appdata\roaming\python\python38\site-packages (from click==8.1.3->warcdb) (0.4.4)
Collecting tabulate
Downloading tabulate-0.8.10-py3-none-any.whl (29 kB)
Collecting sqlite-fts4
Downloading sqlite_fts4-1.0.1-py3-none-any.whl (10.0 kB)
Collecting click-default-group-wheel
Downloading click_default_group_wheel-1.2.2-py3-none-any.whl (3.9 kB)
Requirement already satisfied: python-dateutil in c:\users\user_\appdata\roaming\python\python38\site-packages (from sqlite-utils==3.26.1->warcdb) (2.8.0)
Requirement already satisfied: six in c:\users\user_\appdata\roaming\python\python38\site-packages (from warcio==1.7.4->warcdb) (1.16.0)
Installing collected packages: sqlite-fts4, warcio, tabulate, click, click-default-group-wheel, sqlite-utils, warcdb
Attempting uninstall: click
Found existing installation: click 7.1.2
Uninstalling click-7.1.2:
Successfully uninstalled click-7.1.2
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
toapi 2.1.3 requires flask<3.0.0,>=2.0.1, but you have flask 1.1.4 which is incompatible.
streamlit 0.82.0 requires click<8.0,>=7.0, but you have click 8.1.3 which is incompatible.
spacy 3.2.0 requires pydantic!=1.8,!=1.8.1,<1.9.0,>=1.7.4, but you have pydantic 1.9.0 which is incompatible.
quart 0.16.3 requires werkzeug>=2.0.0, but you have werkzeug 1.0.1 which is incompatible.
notifiers 1.3.3 requires requests<3.0.0,>=2.27.1, but you have requests 2.26.0 which is incompatible.
flask 1.1.4 requires click<8.0,>=5.1, but you have click 8.1.3 which is incompatible.
datasette 0.60.2 requires click<8.1.0,>=7.1.1, but you have click 8.1.3 which is incompatible.
Successfully installed click-8.1.3 click-default-group-wheel-1.2.2 sqlite-fts4-1.0.1 sqlite-utils-3.26.1 tabulate-0.8.10 warcdb-0.1.0 warcio-1.7.4

Enterキーを押すと、インストールが開始され、「Successfully installed」と表示されます。これが表示されれば、warcdbのバージョン0.1.0が正常にインストールされたことになりますが、今回「ERROR: pip’s dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.(ERROR: pip の依存性解決は現在インストールされているすべてのパッケージを考慮に入れていません。この挙動は以下のような依存関係の衝突の原因となっています。)」とエラーが出力され、このエラーは依存関係の衝突が原因となっており、インストールする際は仮想環境を構築し、インストールすることを推奨します。

コメント

タイトルとURLをコピーしました