SQLiteデータベースとしてのWebクロールデータ「warcdb」のインストールについて解説しています。
「WarcDB(https://github.com/Florents-Tselai/warcdb)」は、Webクロールデータの共有とクエリを容易にするファイル形式です。なお、WARC(Web ARChive)ファイル形式は、複数のリソースレコード(データオブジェクト)を連結するための規則を提供しており、Commoncrawl、WebRecorder、Archive.org、世界中の図書館などの多くの組織は、このwarc形式を使用してWebデータをアーカイブ及び保存を行っている。
■Python
今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)
■warcdbをインストールする
warcdbをインストールを行いますが、今回はpipを経由してインストールを行うので、まずWindowsのコマンドプロンプトを起動します。
pip install warcdb
起動後、上記のコマンドを入力し、Enterキーを押します。
なお、今回は、pythonランチャーを使用しており、Python Version 3.8.5にインストールを行うために、バージョンの切り替えを行います。
py -3.8 -m pip install warcdb
切り替えるために、上記のコマンドを入力し、Enterキーを押します。
Defaulting to user installation because normal site-packages is not writeable Collecting warcdb Downloading warcdb-0.1.0-py3-none-any.whl (9.3 kB) Collecting sqlite-utils==3.26.1 Downloading sqlite_utils-3.26.1-py3-none-any.whl (59 kB) ---------------------------------------- 59.8/59.8 kB 635.4 kB/s eta 0:00:00 Requirement already satisfied: tqdm in c:\users\user_\appdata\roaming\python\python38\site-packages (from warcdb) (4.60.0) Requirement already satisfied: more-itertools in c:\users\user_\appdata\roaming\python\python38\site-packages (from warcdb) (8.13.0) Collecting click==8.1.3 Using cached click-8.1.3-py3-none-any.whl (96 kB) Collecting warcio==1.7.4 Downloading warcio-1.7.4-py2.py3-none-any.whl (40 kB) ---------------------------------------- 40.2/40.2 kB 1.9 MB/s eta 0:00:00 Requirement already satisfied: colorama in c:\users\user_\appdata\roaming\python\python38\site-packages (from click==8.1.3->warcdb) (0.4.4) Collecting tabulate Downloading tabulate-0.8.10-py3-none-any.whl (29 kB) Collecting sqlite-fts4 Downloading sqlite_fts4-1.0.1-py3-none-any.whl (10.0 kB) Collecting click-default-group-wheel Downloading click_default_group_wheel-1.2.2-py3-none-any.whl (3.9 kB) Requirement already satisfied: python-dateutil in c:\users\user_\appdata\roaming\python\python38\site-packages (from sqlite-utils==3.26.1->warcdb) (2.8.0) Requirement already satisfied: six in c:\users\user_\appdata\roaming\python\python38\site-packages (from warcio==1.7.4->warcdb) (1.16.0) Installing collected packages: sqlite-fts4, warcio, tabulate, click, click-default-group-wheel, sqlite-utils, warcdb Attempting uninstall: click Found existing installation: click 7.1.2 Uninstalling click-7.1.2: Successfully uninstalled click-7.1.2 ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts. toapi 2.1.3 requires flask<3.0.0,>=2.0.1, but you have flask 1.1.4 which is incompatible. streamlit 0.82.0 requires click<8.0,>=7.0, but you have click 8.1.3 which is incompatible. spacy 3.2.0 requires pydantic!=1.8,!=1.8.1,<1.9.0,>=1.7.4, but you have pydantic 1.9.0 which is incompatible. quart 0.16.3 requires werkzeug>=2.0.0, but you have werkzeug 1.0.1 which is incompatible. notifiers 1.3.3 requires requests<3.0.0,>=2.27.1, but you have requests 2.26.0 which is incompatible. flask 1.1.4 requires click<8.0,>=5.1, but you have click 8.1.3 which is incompatible. datasette 0.60.2 requires click<8.1.0,>=7.1.1, but you have click 8.1.3 which is incompatible. Successfully installed click-8.1.3 click-default-group-wheel-1.2.2 sqlite-fts4-1.0.1 sqlite-utils-3.26.1 tabulate-0.8.10 warcdb-0.1.0 warcio-1.7.4
Enterキーを押すと、インストールが開始され、「Successfully installed」と表示されます。これが表示されれば、warcdbのバージョン0.1.0が正常にインストールされたことになりますが、今回「ERROR: pip’s dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.(ERROR: pip の依存性解決は現在インストールされているすべてのパッケージを考慮に入れていません。この挙動は以下のような依存関係の衝突の原因となっています。)」とエラーが出力され、このエラーは依存関係の衝突が原因となっており、インストールする際は仮想環境を構築し、インストールすることを推奨します。
コメント