Webページの発行日と更新された日を抽出できる「htmldate」のインストール

Webページの発行日と更新された日を抽出できる「htmldate」のインストールについて解説しています。

「htmldate(https://htmldate.readthedocs.io/en/latest/)」は、任意のWebページの発行日と更新された日を検索することができます。

■Python

今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)

■htmldateをインストールする

htmldateをインストールを行いますが、今回はpipを経由してインストールを行うので、まずWindowsのコマンドプロンプトを起動します。

pip install htmldate

起動後、上記のコマンドを入力し、Enterキーを押します。

なお、今回は、pythonランチャーを使用しており、Python Version 3.8.5にインストールを行うために、バージョンの切り替えを行います。

py -3.8 -m pip install htmldate

切り替えるために、上記のコマンドを入力し、Enterキーを押します。

Defaulting to user installation because normal site-packages is not writeable
Collecting htmldate
Downloading htmldate-1.2.1-py3-none-any.whl (37 kB)
Collecting python-dateutil>=2.8.2
Using cached python_dateutil-2.8.2-py2.py3-none-any.whl (247 kB)
Requirement already satisfied: charset-normalizer>=2.0.12 in c:\users\user_\appdata\roaming\python\python38\site-packages (from htmldate) (2.0.12)
Collecting dateparser>=1.1.1
Downloading dateparser-1.1.1-py2.py3-none-any.whl (288 kB)
|████████████████████████████████| 288 kB 1.3 MB/s
Collecting urllib3<2,>=1.26
Downloading urllib3-1.26.9-py2.py3-none-any.whl (138 kB)
|████████████████████████████████| 138 kB 3.2 MB/s
Collecting lxml>=4.6.4
Downloading lxml-4.8.0-cp38-cp38-win_amd64.whl (3.6 MB)
|████████████████████████████████| 3.6 MB 2.2 MB/s
Requirement already satisfied: regex!=2019.02.19,!=2021.8.27,<2022.3.15 in c:\users\user_\appdata\roaming\python\python38\site-packages (from dateparser>=1.1.1->htmldate) (2021.11.10)
Requirement already satisfied: tzlocal in c:\users\user_\appdata\roaming\python\python38\site-packages (from dateparser>=1.1.1->htmldate) (2.1)
Requirement already satisfied: pytz in c:\users\user_\appdata\roaming\python\python38\site-packages (from dateparser>=1.1.1->htmldate) (2021.3)
Requirement already satisfied: six>=1.5 in c:\users\user_\appdata\roaming\python\python38\site-packages (from python-dateutil>=2.8.2->htmldate) (1.15.0)
Installing collected packages: python-dateutil, urllib3, lxml, dateparser, htmldate
Attempting uninstall: python-dateutil
Found existing installation: python-dateutil 2.8.1
Uninstalling python-dateutil-2.8.1:
Successfully uninstalled python-dateutil-2.8.1
Attempting uninstall: urllib3
Found existing installation: urllib3 1.25.11
Uninstalling urllib3-1.25.11:
Successfully uninstalled urllib3-1.25.11
Attempting uninstall: lxml
Found existing installation: lxml 4.6.3
Uninstalling lxml-4.6.3:
Successfully uninstalled lxml-4.6.3
Attempting uninstall: dateparser
Found existing installation: dateparser 0.7.6
Uninstalling dateparser-0.7.6:
Successfully uninstalled dateparser-0.7.6
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
streamlit 0.82.0 requires click<8.0,>=7.0, but you have click 8.0.4 which is incompatible.
realtime 0.0.4 requires websockets<10.0,>=9.1, but you have websockets 10.2 which is incompatible.
pygooglenews 0.1.2 requires dateparser<0.8.0,>=0.7.6, but you have dateparser 1.1.1 which is incompatible.
notion-py 0.0.10 requires requests==2.24.0, but you have requests 2.27.1 which is incompatible.
mega-py 1.0.8 requires tenacity<6.0.0,>=5.1.5, but you have tenacity 8.0.1 which is incompatible.
firebase-admin 5.0.1 requires google-api-core[grpc]<2.0.0dev,>=1.22.1; platform_python_implementation != "PyPy", but you have google-api-core 2.7.1 which is incompatible.
Successfully installed dateparser-1.1.1 htmldate-1.2.1 lxml-4.8.0 python-dateutil-2.8.2 urllib3-1.26.9

Enterキーを押すと、インストールが開始され、上記のように「Successfully installed」と表示されます。これが表示されると、htmldateのインストールが正常に完了。完了ですが、今回は「pip’s dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.」というエラーが出力されました。これは依存関係の衝突が原因であり、仮想環境を構築し、インストールされることを推奨します。

なお、今回はhtmldateのバージョン1.2.1をインストールしました。

コメント

タイトルとURLをコピーしました