Pythonでpdfkitを使用し、WebページをPDFとしてダウンロードする

Pythonでpdfkitを使用し、WebページをPDFとしてダウンロードしてみます。

なお、今回はWebページをPDFとしてダウンロードするために、Pythonにpdfkitモジュールのインストールと、Windows10にwkhtmltopdfのインストールを行っています。これらがインストールされていないと、WebページをPDFとしてダウンロードできません。

■Python

今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)

■WebページをPDFファイルとしてダウンロードする

では、早速WebページをPDFファイルとしてダウンロードするスクリプトを書いていきます。

■コード

import pdfkit

config = pdfkit.configuration(wkhtmltopdf = r"C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe")

pdfkit.from_url("https://laboratory.kazuuu.net/","test.pdf",configuration =config)

インポートでpdfkitモジュールを呼び出します。その後に、configという変数を作成し、その中で、pdfkit.configuration()関数を使用し、括弧内にWindows10にインストールしたwkhtmltopdfのwkhtmltopdf.exeというファイルを指定し、格納します。

格納後、pdfkit.from_url()関数を使用し、第1の引数にPDFファイルとしてダウンロードするWebページを指定します。第2の引数に、PDFファイルの名前を指定します。第3の引数には、「configuration =config」と記述し、格納します。

これでWebページをPDFファイルとしてダウンロードすることができます。なお、今回は当Webサイト(https://laboratory.kazuuu.net/)をPDFファイルとしてダウンロードしてみます。

■実行

このスクリプトを「dl_webpage_pdf.py」という名前で保存し、コマンドプロンプトから実行してみます。

Loading pages (1/6)
Counting pages (2/6)
Resolving links (4/6)
Loading headers and footers (5/6)
Printing pages (6/6)
Done

実行してみると、上記のメッセージが表示され、最後に「Done(完了)」と表示されます。これが表示されれば、ダウンロードは完了となります。

完了後、作業ディレクトリ(カレントディレクトリ)を確認すると、「test.pdf」というファイルが出力されていることが確認できました。

確認後、PDFファイルの中身を確認すると、Webページが、上記のようにPDFファイルに書き込まれていることが確認できました。

コメント

タイトルとURLをコピーしました