Python:处理日志文件200GB
我有一个日志文件,这个大小是200Gb。 我尝试找到执行此操作的方式,但我不知道。 我认为分割这个文件是没用的,但也许有办法做到这一点。 也许我可以做到这一点Mapreduce
或Hadoop
?我不使用这个应用程序,但也许任何人有这个任务,并可以帮助解决方案。Python:处理日志文件200GB
回答:
对于不适合在RAM文件中,在成批读:
chunksize = 10 ** 6 for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)
从SQL查询又如:
df_list = [] for chunk in pd.read_sql_query(sql , conn, chunksize=10):
df_list.append(chunk)
frames=pd.concat(df_list, ignore_index=True)
以上是 Python:处理日志文件200GB 的全部内容, 来源链接: utcz.com/qa/266892.html