zipファイルをPandasにおけるDataFrameとして読み取ってみます。
なお、Pandasモジュールは、Pythonの標準ライブラリではありませんので、事前にインストールする必要はありません。また、zipfile36というモジュールが必要になりますので、これも事前にインストールする必要があります。
■Python
今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認)
■csvファイルをzipファイルに圧縮する
zipファイルをPandasにおけるDataFrameとして読み取りますが、その前にcsvファイルを用意し、zipファイルに圧縮します。
今回は「sample.csv」という上記のcsvファイルを用意しました。
このcsvファイルをzipファイルに圧縮します。zipファイルは「C:\Users\user\test(フォルダパス)」に置いておきます。
■zipファイルをPandasにおけるDataFrameとして読み取る
zipファイルの用意ができましたので、zipファイルをPandasにおけるDataFrameとして読み取るスクリプトを書いていきます。
■コード
import zipfile import pandas as pd df = pd.read_csv(r'C:\Users\user\test\sample.zip',compression='zip') print(df.head())
インポートでzipfileモジュール、pandasモジュールを呼び出します。呼び出した後にdfという変数を作成します。作成後、その中にpandasでcsvファイルを読み込むためにpd.read_csv()と記述します。括弧内の第1の引数には、今回用意したzipファイルが置かれている場所を指定します。第2の引数では、圧縮方式を指定します。今回はzipファイルなので、「zip」と記述します。
これでzipファイルに圧縮されたcsvファイルを読み取ることができます。
最後にprint関数でdf.head()と記述し、csvファイルの中身をPandasにおけるDataFrameとして出力してみます。
■実行
このスクリプトを「zip_df_reader.py」という名前で保存し、コマンドプロンプトから実行してみます。
実行してみると、zipファイルに圧縮されたcsvファイルの中身が読み取られ、PandasにおけるDataFrameとして出力できることを確認できました。
コメント