Pythonでchardetを使用し文字コードを検出してみます。
今回は、chardetを使用します。chardetはPythonの標準ライブラリではありませんので、事前にインストールする必要があります。
■Python
今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)
■chardetを使用し文字コードを検出する
では、早速chardetを使用し文字コードを検出するスクリプトを書いていきます。
■コード
import urllib.request import chardet rawdata = urllib.request.urlopen('https://laboratory.kazuuu.net/').read() print(chardet.detect(rawdata))
今回はurllib.requestモジュール(標準ライブラリ)のurllib.request.urlopen()を用いて、括弧内に引数,パラメータとして、サイトのURLを渡し、URLを開きread()で開いたURLのコンテンツを読み取り、rawdata変数に格納します。今回はサイトのURLを、当サイト(https://laboratory.kazuuu.net/)を指定しています。
格納後、chardet.detect()で、rawdata変数内の情報から文字コードを検出してみます。検出結果をprint()で出力します。
■実行・検証
このスクリプトを「char_test.py」という名前で、Pythonが実行されている作業ディレクトリ(カレントディレクトリ)に保存し、コマンドプロンプトから実行してみます。
実行してみると、urllib.requestモジュールを用いたことで、指定したサイトのURLを開き、URL内のコンテンツを読み取り、変数内に格納。格納後、chardet.detect()で「’encoding’: ‘utf-8(文字コード)’」と出力させることができました。
コメント