feedparserを使用しPythonでRSSフィードの取得してみます。
RSSとは「RichSite Summary」の略語。RSSフィードのXMLファイル拡張子を使用し、Webサイトの投稿タイトル、説明、およびリンクを含むテキストファイルを作成。次にWebサイトの作成者は、このXMLファイルを使用して、WebサイトのページにRSSフィードを追加します。XMLファイルは、このRSSフィードを介して、任意のRSSリーダーに表示される標準形式で新しいコンテンツを自動的に配信されます。
feedparserモジュールは、Pythonの標準ライブラリではありませんので、事前にインストールする必要があります。
■Python
今回のPythonのバージョンは、「3.8.2」を使用しています。(Windows10)
■feedparserモジュールのインストール
feedparserモジュールのインストールをインストールするために、Windowsのコマンドプロンプトを起動します。
pip install feedparser
起動後、上記のコマンドを入力し、Enterキーを押します。
Collecting feedparser
Downloading feedparser-6.0.2-py3-none-any.whl (80 kB)
|████████████████████████████████| 80 kB 509 kB/s
Processing c:\users\user\appdata\local\pip\cache\wheels\83\63\2f\117884c3b19d46b64d3d61690333aa80c88dc14050e269c546\sgmllib3k-1.0.0-py3-none-any.whl
Installing collected packages: sgmllib3k, feedparser
Successfully installed feedparser-6.0.2 sgmllib3k-1.0.0
Enterキーを押すと、インストールが開始され、「Successfully installed」と表示されれば、正常にインストールは完了となります。
■feedparserモジュールを使用しRSSフィードの取得する
インストールが完了となりましたので、feedparserモジュールを使用しRSSフィードの取得するスクリプトを書いていきます。
■コード
import feedparser d_rss_feed = feedparser.parse(r'https://laboratory.kazuuu.net/feed/rss2') print(d_rss_feed.feed.title) print(d_rss_feed.feed.link)
インポートでfeedparserモジュールを呼び出して、d_rss_feedという変数を作成し、その中にfeedparser.parse()でRSSフィードを取得するWebサイトのURLを指定します。今回は当サイト「https://laboratory.kazuuu.net/」を指定しています。なお、当サイトはRSS 2.0を採用しています。
RSSフィードを取得し、今回はfeed.titleでフィードのタイトル、feed.linkでフィードのリンクを出力してみます。(参考URL:https://feedparser.readthedocs.io/en/latest/basic.html)
■実行
今回書いたスクリプトを「get_rss_feed.py」という名前で保存し、コマンドプロンプトから実行してみます。
実行してみると、RSSフィードが取得され、指定した要素が出力されることを確認できました。
コメント