Pythonでchardetを使用し文字コードを検出する

Pythonでchardetを使用し文字コードを検出してみます。

今回は、chardetを使用します。chardetはPythonの標準ライブラリではありませんので、事前にインストールする必要があります。

■Python

今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)

■chardetを使用し文字コードを検出する

では、早速chardetを使用し文字コードを検出するスクリプトを書いていきます。

■コード

import urllib.request
import chardet

rawdata = urllib.request.urlopen('https://laboratory.kazuuu.net/').read()

print(chardet.detect(rawdata))

今回はurllib.requestモジュール(標準ライブラリ)のurllib.request.urlopen()を用いて、括弧内に引数,パラメータとして、サイトのURLを渡し、URLを開きread()で開いたURLのコンテンツを読み取り、rawdata変数に格納します。今回はサイトのURLを、当サイト(https://laboratory.kazuuu.net/)を指定しています。

格納後、chardet.detect()で、rawdata変数内の情報から文字コードを検出してみます。検出結果をprint()で出力します。

■実行・検証

このスクリプトを「char_test.py」という名前で、Pythonが実行されている作業ディレクトリ(カレントディレクトリ)に保存し、コマンドプロンプトから実行してみます。

実行してみると、urllib.requestモジュールを用いたことで、指定したサイトのURLを開き、URL内のコンテンツを読み取り、変数内に格納。格納後、chardet.detect()で「’encoding’: ‘utf-8(文字コード)’」と出力させることができました。

コメント

タイトルとURLをコピーしました