Python:处理日志文件200GB

我有一个日志文件,这个大小是200Gb。 我尝试找到执行此操作的方式,但我不知道。 我认为分割这个文件是没用的,但也许有办法做到这一点。 也许我可以做到这一点MapreduceHadoop?我不使用这个应用程序,但也许任何人有这个任务,并可以帮助解决方案。Python:处理日志文件200GB

回答:

对于不适合在RAM文件中,在成批读:

chunksize = 10 ** 6 

for chunk in pd.read_csv(filename, chunksize=chunksize):

process(chunk)

从SQL查询又如:

df_list = [] 

for chunk in pd.read_sql_query(sql , conn, chunksize=10):

df_list.append(chunk)

frames=pd.concat(df_list, ignore_index=True)

以上是 Python:处理日志文件200GB 的全部内容, 来源链接: utcz.com/qa/266892.html

回到顶部