zipファイルをPandasにおけるDataFrameとして読み取る

zipファイルをPandasにおけるDataFrameとして読み取ってみます。

なお、Pandasモジュールは、Pythonの標準ライブラリではありませんので、事前にインストールする必要はありません。また、zipfile36というモジュールが必要になりますので、これも事前にインストールする必要があります。

■Python

今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)

■csvファイルをzipファイルに圧縮する

zipファイルをPandasにおけるDataFrameとして読み取りますが、その前にcsvファイルを用意し、zipファイルに圧縮します。

今回は「sample.csv」という上記のcsvファイルを用意しました。

このcsvファイルをzipファイルに圧縮します。zipファイルは「C:\Users\user\test(フォルダパス)」に置いておきます。

■zipファイルをPandasにおけるDataFrameとして読み取る

zipファイルの用意ができましたので、zipファイルをPandasにおけるDataFrameとして読み取るスクリプトを書いていきます。

■コード

import zipfile
import pandas as pd 

df = pd.read_csv(r'C:\Users\user\test\sample.zip',compression='zip')

print(df.head())

インポートでzipfileモジュール、pandasモジュールを呼び出します。呼び出した後にdfという変数を作成します。作成後、その中にpandasでcsvファイルを読み込むためにpd.read_csv()と記述します。括弧内の第1の引数には、今回用意したzipファイルが置かれている場所を指定します。第2の引数では、圧縮方式を指定します。今回はzipファイルなので、「zip」と記述します。

これでzipファイルに圧縮されたcsvファイルを読み取ることができます。

最後にprint関数でdf.head()と記述し、csvファイルの中身をPandasにおけるDataFrameとして出力してみます。

■実行

このスクリプトを「zip_df_reader.py」という名前で保存し、コマンドプロンプトから実行してみます。

実行してみると、zipファイルに圧縮されたcsvファイルの中身が読み取られ、PandasにおけるDataFrameとして出力できることを確認できました。

コメント

タイトルとURLをコピーしました