将Pandas数据框转换为Dask数据框

假设我的熊猫数据框为:

df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})

当我转换成数据帧DASK又该namedivisions参数包括:

from dask import dataframe as dd 

sd=dd.DataFrame(df.to_dict(),divisions=1,meta=pd.DataFrame(columns=df.columns,index=df.index))

TypeError: ()缺少1个必需的位置参数:“ name”

:假设我创建一个熊猫数据框,如:

pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})

同样,如何创建dask数据框,因为它需要三个附加参数asname,divisionsmeta

sd=dd.Dataframe({'a':[1,2,3],'b':[4,5,6]},name=,meta=,divisions=)

谢谢您的回复。

回答:

我认为您可以使用dask.dataframe.from_pandas

from dask import dataframe as dd 

sd = dd.from_pandas(df, npartitions=3)

print (sd)

dd.DataFrame<from_pa..., npartitions=2, divisions=(0, 1, 2)>

编辑:

我找到解决方案:

import pandas as pd

import dask.dataframe as dd

from dask.dataframe.utils import make_meta

df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})

dsk = {('x', 0): df}

meta = make_meta({'a': 'i8', 'b': 'i8'}, index=pd.Index([], 'i8'))

d = dd.DataFrame(dsk, name='x', meta=meta, divisions=[0, 1, 2])

print (d)

dd.DataFrame<x, npartitions=2, divisions=(0, 1, 2)>

以上是 将Pandas数据框转换为Dask数据框 的全部内容, 来源链接: utcz.com/qa/408757.html

回到顶部