Pythonでwaybackpyを用いて指定したWebサイトで古いページを取得する

Pythonでwaybackpyを用いて指定したWebサイトで古いページを取得してみます。

今回は、waybackpyを用います。このライブラリ・モジュールはPythonの標準ライブラリではありませんので、事前にインストールする必要があります。

■Python

今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)

■waybackpyを用いて指定したWebサイトで古いページを取得する

では、早速waybackpyを用いて指定したWebサイトで古いページを取得するスクリプトを書いていきます。

■コード

from waybackpy import WaybackMachineAvailabilityAPI

url = "https://laboratory.kazuuu.net/"

user_agent = "Mozilla/5.0 (Windows NT 5.1; rv:40.0) Gecko/20100101 Firefox/40.0"

availability_api = WaybackMachineAvailabilityAPI(url, user_agent)

print(availability_api.oldest())

「from import」でwaybackpyのWaybackMachineAvailabilityAPIを呼び出します。

その後、url変数を定義し、その中に古いページを取得したいWebサイトのURLを格納します。

格納後、user_agent変数を定義し、その中にユーザーエージェントを格納します。

さらにavailability_api変数を定義し、その中でWaybackMachineAvailabilityAPI()を用います。括弧内には、第1の引数,パラメータとしてurl変数を渡します。そして第2の引数,パラメータとしてuser_agent変数を渡します。これでAPIにWebサイトの情報が渡され、WaybackMachineAvailabilityAPI内の保存されている情報が返されます。

最後にavailability_api.oldest()を用いて、古いページを取得し、print()で出力します。

■実行・検証

このスクリプトを「web_old.py」という名前で、Pythonが実行されている作業ディレクトリ(カレントディレクトリ)に保存し、コマンドプロンプトから実行してみます。

実行してみると、waybackpyを用いて「Wayback Machine – Internet Archive(http://web.archive.org/)」から今回指定したWebサイトの古いページを出力させることができました。

コメント

タイトルとURLをコピーしました