Pythonでgoose3を用いてニュース記事のタイトルを取得し出力する

Pythonでgoose3を用いてニュース記事のタイトルを取得し出力してみます。

今回はgoose3を用います。このライブラリ・モジュールは、Pythonの標準ライブラリではありませんので、事前にインストールする必要があります。

■Python

今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)

■goose3を用いてニュース記事のタイトルを取得し出力する

では、早速goose3を用いてニュース記事のタイトルを取得し出力するスクリプトを書いていきます。

■コード

from goose3 import Goose

url = 'https://news.yahoo.co.jp/pickup/*****'

g = Goose()

article = g.extract(url=url)

print(article.title)

「from import」を用いてgoose3のGooseを呼び出します。その後、urlという変数を定義し、その中に取得するニュース記事のURLを格納します。今回はYahoo!ニュースの記事のURLを指定しています。

URLを格納後、gという変数を定義し、その中でGoose()を用います。その後、articleという変数を定義し、その中でg.extract()を用います。括弧内には引数,パラメータとして、解析するURLを渡します。今回はurl変数を渡しています。これで、HTMLページから記事のコンテンツを抽出することができます。

最後に抽出した記事のコンテンツ(article)からタイトル(title)を取得しprint()を用いて出力させます。

■実行・検証

このスクリプトを「page_auto.py」という名前で、Pythonが実行されている作業ディレクトリ(カレントディレクトリ)に保存し、コマンドプロンプトから実行してみます。

実行してみると、goose3を用いて検証のために指定したYahoo!ニュース記事のコンテンツを取得し、そこからタイトルだけを出力させることができました。

コメント

タイトルとURLをコピーしました