用python pandas讀取大檔案

Author Avatar
Sakamoto 5月 21, 2018

有時候會需要用python來讀取一些比較大的檔案來對其做操作,我們可以使用pandas這個python來分塊讀取檔案,可以使用pd.read_csv 中的 chunksize 來設定一次讀入多少數據。

1
2
3
4
5
6
7
8
9
10
11
12
import  numpy as np
filename = r'./[filename].csv'
chunksize = 10 ** 6

def process(df):
# 你想要對檔案做的事情 。:.゚ヽ(*´∀`)ノ゚.:。

data = pd.read_csv(filename, chunksize=chunksize)

# 運用chunksize來讀取檔案會使其建立 TextFileReader 因此要用下面方式來讀取文件內容
for df in data:
process(df)

Reference