Pythonでwikipedia-apiを使用しページを全文を取得する

スポンサーリンク

Pythonでwikipedia-apiを使用し、ウィキペディアのページの全文を取得してみます。

なお、今回使用するwikipedia-apiのライブラリはPythonの標準ライブラリではありませんので、事前にインストールする必要があります。

■Python

今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)

■wikipedia-apiを使用しウィキペディアのページの全文を取得

では、早速wikipedia-apiを使用しウィキペディアのページの全文を取得するスクリプトを書いていきます。

■コード

import wikipediaapi

wiki_test = wikipediaapi.Wikipedia("ja",extract_format=wikipediaapi.ExtractFormat.WIKI)

page_test = wiki_test.page("大阪府")

print(page_test.text)

ページの全文を取得する際は、importでwikipediaapiを呼び出します。

呼び出した後に、wiki_testという変数を定義し、その中でwikipediaapi.Wikipedia()を使用しwikipediaオブジェクトを初期化します。この際に括弧内に、第1の引数,パラメータとして言語を渡します。今回は「ja(日本語)」を渡します。次に第2の引数,パラメータとして「extract_format」を指定します。今回は「wikipediaapi.ExtractFormat.WIKI」としてWIKI(フォーマット)としてページを抽出(Extract)します。

オブジェクトをwiki_test変数に格納後、今度はpage_testという変数を定義し、wiki_test.page()を使用します。括弧内には、引数,パラメータとして取得するウィキペディア内のページを指定します。これで、指定したウィキペディア内のページが取得され、変数に格納されます。

格納後、取得したウィキペディア内のページが格納されたpage_test変数からテキスト・全文(text)をprint()関数で出力します。

■実行・検証

このスクリプトを「wki_page_full_text.py」という名前で、Pythonが実行されている作業ディレクトリ(カレントディレクトリ)に保存し、コマンドプロンプトから実行してみます。

実行してみると、wikipedia-apiを使用し、指定したウィキペディア内のページが取得され、変数に格納。格納後、変数の中からテキスト・全文(text)をprint()関数で出力させることができました。

■HTML形式(フォーマット)で全文(text)を出力する

出力後、HTML形式(フォーマット)で全文(text)を出力するスクリプトも書いてみます。

■コード

import wikipediaapi

wiki_test = wikipediaapi.Wikipedia("ja",extract_format=wikipediaapi.ExtractFormat.HTML)

page_test = wiki_test.page("大阪府")

print(page_test.text)

HTML形式(フォーマット)で全文(text)を出力する際は、wiki_testという変数を定義し、その中でwikipediaapi.Wikipedia()を使用しwikipediaオブジェクトを初期化します。この際に括弧内に、第1の引数,パラメータとして言語を渡します。今回は「ja(日本語)」を渡します。次に第2の引数,パラメータとして「extract_format」を指定します。今回は「wikipediaapi.ExtractFormat.HTML」とします。これでHTML(フォーマット)としてページを抽出(Extract)することができます。

■実行・検証

このスクリプトを「wki_page_full_text_2.py」という名前で、Pythonが実行されている作業ディレクトリ(カレントディレクトリ)に保存し、コマンドプロンプトから実行してみます。

実行してみると、HTML形式(フォーマット)で全文(text)を出力させることができました。

コメント

タイトルとURLをコピーしました