Webページの発行日と更新された日を抽出できる「htmldate」のインストールについて解説しています。
「htmldate(https://htmldate.readthedocs.io/en/latest/)」は、任意のWebページの発行日と更新された日を検索することができます。
■Python
今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)
■htmldateをインストールする
htmldateをインストールを行いますが、今回はpipを経由してインストールを行うので、まずWindowsのコマンドプロンプトを起動します。
pip install htmldate
起動後、上記のコマンドを入力し、Enterキーを押します。
なお、今回は、pythonランチャーを使用しており、Python Version 3.8.5にインストールを行うために、バージョンの切り替えを行います。
py -3.8 -m pip install htmldate
切り替えるために、上記のコマンドを入力し、Enterキーを押します。
Defaulting to user installation because normal site-packages is not writeable Collecting htmldate Downloading htmldate-1.2.1-py3-none-any.whl (37 kB) Collecting python-dateutil>=2.8.2 Using cached python_dateutil-2.8.2-py2.py3-none-any.whl (247 kB) Requirement already satisfied: charset-normalizer>=2.0.12 in c:\users\user_\appdata\roaming\python\python38\site-packages (from htmldate) (2.0.12) Collecting dateparser>=1.1.1 Downloading dateparser-1.1.1-py2.py3-none-any.whl (288 kB) |████████████████████████████████| 288 kB 1.3 MB/s Collecting urllib3<2,>=1.26 Downloading urllib3-1.26.9-py2.py3-none-any.whl (138 kB) |████████████████████████████████| 138 kB 3.2 MB/s Collecting lxml>=4.6.4 Downloading lxml-4.8.0-cp38-cp38-win_amd64.whl (3.6 MB) |████████████████████████████████| 3.6 MB 2.2 MB/s Requirement already satisfied: regex!=2019.02.19,!=2021.8.27,<2022.3.15 in c:\users\user_\appdata\roaming\python\python38\site-packages (from dateparser>=1.1.1->htmldate) (2021.11.10) Requirement already satisfied: tzlocal in c:\users\user_\appdata\roaming\python\python38\site-packages (from dateparser>=1.1.1->htmldate) (2.1) Requirement already satisfied: pytz in c:\users\user_\appdata\roaming\python\python38\site-packages (from dateparser>=1.1.1->htmldate) (2021.3) Requirement already satisfied: six>=1.5 in c:\users\user_\appdata\roaming\python\python38\site-packages (from python-dateutil>=2.8.2->htmldate) (1.15.0) Installing collected packages: python-dateutil, urllib3, lxml, dateparser, htmldate Attempting uninstall: python-dateutil Found existing installation: python-dateutil 2.8.1 Uninstalling python-dateutil-2.8.1: Successfully uninstalled python-dateutil-2.8.1 Attempting uninstall: urllib3 Found existing installation: urllib3 1.25.11 Uninstalling urllib3-1.25.11: Successfully uninstalled urllib3-1.25.11 Attempting uninstall: lxml Found existing installation: lxml 4.6.3 Uninstalling lxml-4.6.3: Successfully uninstalled lxml-4.6.3 Attempting uninstall: dateparser Found existing installation: dateparser 0.7.6 Uninstalling dateparser-0.7.6: Successfully uninstalled dateparser-0.7.6 ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts. streamlit 0.82.0 requires click<8.0,>=7.0, but you have click 8.0.4 which is incompatible. realtime 0.0.4 requires websockets<10.0,>=9.1, but you have websockets 10.2 which is incompatible. pygooglenews 0.1.2 requires dateparser<0.8.0,>=0.7.6, but you have dateparser 1.1.1 which is incompatible. notion-py 0.0.10 requires requests==2.24.0, but you have requests 2.27.1 which is incompatible. mega-py 1.0.8 requires tenacity<6.0.0,>=5.1.5, but you have tenacity 8.0.1 which is incompatible. firebase-admin 5.0.1 requires google-api-core[grpc]<2.0.0dev,>=1.22.1; platform_python_implementation != "PyPy", but you have google-api-core 2.7.1 which is incompatible. Successfully installed dateparser-1.1.1 htmldate-1.2.1 lxml-4.8.0 python-dateutil-2.8.2 urllib3-1.26.9
Enterキーを押すと、インストールが開始され、上記のように「Successfully installed」と表示されます。これが表示されると、htmldateのインストールが正常に完了。完了ですが、今回は「pip’s dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.」というエラーが出力されました。これは依存関係の衝突が原因であり、仮想環境を構築し、インストールされることを推奨します。
なお、今回はhtmldateのバージョン1.2.1をインストールしました。
コメント