Pythonでpdfkitを使用し、WebページをPDFとしてダウンロードする

Python【初歩から現場実務的なもの】

2021.06.02

Pythonでpdfkitを使用し、WebページをPDFとしてダウンロードしてみます。

なお、今回はWebページをPDFとしてダウンロードするために、Pythonにpdfkitモジュールのインストールと、Windows10にwkhtmltopdfのインストールを行っています。これらがインストールされていないと、WebページをPDFとしてダウンロードできません。

■Python
■WebページをPDFファイルとしてダウンロードする
1. ■コード
2. ■実行

■Python

今回のPythonのバージョンは、「3.8.5」を使用しています。（Windows10）（pythonランチャーでの確認）

■WebページをPDFファイルとしてダウンロードする

では、早速WebページをPDFファイルとしてダウンロードするスクリプトを書いていきます。

■コード

import pdfkit

config = pdfkit.configuration(wkhtmltopdf = r"C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe")

pdfkit.from_url("https://laboratory.kazuuu.net/","test.pdf",configuration =config)

インポートでpdfkitモジュールを呼び出します。その後に、configという変数を作成し、その中で、pdfkit.configuration()関数を使用し、括弧内にWindows10にインストールしたwkhtmltopdfのwkhtmltopdf.exeというファイルを指定し、格納します。

格納後、pdfkit.from_url()関数を使用し、第1の引数にPDFファイルとしてダウンロードするWebページを指定します。第2の引数に、PDFファイルの名前を指定します。第3の引数には、「configuration =config」と記述し、格納します。

これでWebページをPDFファイルとしてダウンロードすることができます。なお、今回は当Webサイト（https://laboratory.kazuuu.net/）をPDFファイルとしてダウンロードしてみます。

■実行

このスクリプトを「dl_webpage_pdf.py」という名前で保存し、コマンドプロンプトから実行してみます。

Loading pages (1/6)
Counting pages (2/6)
Resolving links (4/6)
Loading headers and footers (5/6)
Printing pages (6/6)
Done

実行してみると、上記のメッセージが表示され、最後に「Done（完了）」と表示されます。これが表示されれば、ダウンロードは完了となります。

完了後、作業ディレクトリ（カレントディレクトリ）を確認すると、「test.pdf」というファイルが出力されていることが確認できました。

確認後、PDFファイルの中身を確認すると、Webページが、上記のようにPDFファイルに書き込まれていることが確認できました。