Python-通过字典有效替换熊猫系列中的值
如何s
通过字典替换熊猫系列中的值d
已被询问并多次提出。
推荐的方法(1,2,3,4)
是要么使用s.replace(d)
,有时也使用s.map(d)
如果所有的系列值是在字典键找到。
但是,使用性能的s.replace
速度通常不合理,通常比简单的列表理解速度慢5-10
倍。
替代方法s.map(d)
具有良好的性能,但是仅当在字典中找到所有键时才建议使用。
为什么s.replace
这么慢,如何提高性能?
import pandas as pd, numpy as npdf = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()
##### TEST 1 #####
d = {i: i+1 for i in range(1000)}
%timeit df['A'].replace(d) # 1.98s
%timeit [d[i] for i in lst] # 134ms
##### TEST 2 #####
d = {i: i+1 for i in range(10)}
%timeit df['A'].replace(d) # 20.1ms
%timeit [d.get(i, i) for i in lst] # 243ms
注意:此问题未标记为重复问题,因为它正在寻找有关在给定不同数据集的情况下何时使用不同方法的具体建议。这在答案中是明确的,并且是其他问题通常未解决的一个方面。
回答:
一个简单的解决方案是选择一种方法,该方法取决于对字典键完全覆盖值的估计。
一般情况
- df[‘A’].map(d)如果所有值都已映射,则使用;否则 要么
df[‘A’].map(d).fillna(df[‘A’]).astype(int)如果映射的值大于5%,则使用。
d中的值很少,例如<5%
采用
df['A'].replace(d)
〜5%的“交叉点”特定于以下基准测试。
有趣的是,map
在任何一种情况下,简单的列表理解通常都表现不佳。
标杆管理
import pandas as pd, numpy as npdf = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()
##### TEST 1 - Full Map #####
d = {i: i+1 for i in range(1000)}
%timeit df['A'].replace(d) # 1.98s
%timeit df['A'].map(d) # 84.3ms
%timeit [d[i] for i in lst] # 134ms
##### TEST 2 - Partial Map #####
d = {i: i+1 for i in range(10)}
%timeit df['A'].replace(d) # 20.1ms
%timeit df['A'].map(d).fillna(df['A']).astype(int) # 111ms
%timeit [d.get(i, i) for i in lst] # 243ms
说明
之所以s.replace
这么慢,是因为它所做的不仅仅是映射字典。它处理一些极端情况和可能很少见的情况,这些情况通常在任何情况下都应格外小心。
这是replace()in
的摘录pandas\generic.py
。
items = list(compat.iteritems(to_replace))keys, values = zip(*items)
are_mappings = [is_dict_like(v) for v in values]
if any(are_mappings):
# handling of nested dictionaries
else:
to_replace, value = keys, values
return self.replace(to_replace, value, inplace=inplace,
limit=limit, regex=regex)
似乎涉及许多步骤:
- 将字典转换为列表。
- 遍历列表并检查嵌套字典。
- 将键和值的迭代器输入到替换函数中。
可以将其与来自map()中的更精简的代码进行比较pandas\series.py:
if isinstance(arg, (dict, Series)): if isinstance(arg, dict):
arg = self._constructor(arg, index=arg.keys())
indexer = arg.index.get_indexer(values)
new_values = algos.take_1d(arg._values, indexer)
以上是 Python-通过字典有效替换熊猫系列中的值 的全部内容, 来源链接: utcz.com/qa/420009.html