Python：处理日志文件200GB

我有一个日志文件，这个大小是200Gb。我尝试找到执行此操作的方式，但我不知道。我认为分割这个文件是没用的，但也许有办法做到这一点。也许我可以做到这一点Mapreduce或Hadoop？我不使用这个应用程序，但也许任何人有这个任务，并可以帮助解决方案。Python：处理日志文件200GB

对于不适合在RAM文件中，在成批读：

chunksize = 10 ** 6 
for chunk in pd.read_csv(filename, chunksize=chunksize): 
    process(chunk)

从SQL查询又如：

df_list = [] 
for chunk in pd.read_sql_query(sql , conn, chunksize=10): 
    df_list.append(chunk) 
frames=pd.concat(df_list, ignore_index=True)