在numpy数组中向前填充NaN值的最有效方法

回答:

作为一个简单的示例,请考虑arr以下定义的numpy数组:

import numpy as np

arr = np.array([[5, np.nan, np.nan, 7, 2],

[3, np.nan, 1, 8, np.nan],

[4, 9, 6, np.nan, np.nan]])

其中,arr像这样在控制台输出:

array([[  5.,  nan,  nan,   7.,   2.],

[ 3., nan, 1., 8., nan],

[ 4., 9., 6., nan, nan]])

我现在想按行“向前填充” nanarray中的值arr。我的意思是用nan左侧最接近的有效值替换每个值。所需的结果如下所示:

array([[  5.,   5.,   5.,  7.,  2.],

[ 3., 3., 1., 8., 8.],

[ 4., 9., 6., 6., 6.]])


回答:

我试过使用for循环:

for row_idx in range(arr.shape[0]):

for col_idx in range(arr.shape[1]):

if np.isnan(arr[row_idx][col_idx]):

arr[row_idx][col_idx] = arr[row_idx][col_idx - 1]

我还尝试过使用熊猫数据框作为中间步骤(因为熊猫数据框具有非常整洁的内置方法用于正向填充):

import pandas as pd

df = pd.DataFrame(arr)

df.fillna(method='ffill', axis=1, inplace=True)

arr = df.as_matrix()

以上两种策略都能产生预期的结果,但是我一直在想:仅使用numpy向量化运算的策略不是最有效的一种吗?


回答:

还有另一种更有效的方法来“填充” nannumpy数组中的值吗?(例如,通过使用numpy向量化操作)


更新:解决方案比较

到目前为止,我已经尝试安排所有解决方案的时间。这是我的安装脚本:

import numba as nb

import numpy as np

import pandas as pd

def random_array():

choices = [1, 2, 3, 4, 5, 6, 7, 8, 9, np.nan]

out = np.random.choice(choices, size=(1000, 10))

return out

def loops_fill(arr):

out = arr.copy()

for row_idx in range(out.shape[0]):

for col_idx in range(1, out.shape[1]):

if np.isnan(out[row_idx, col_idx]):

out[row_idx, col_idx] = out[row_idx, col_idx - 1]

return out

@nb.jit

def numba_loops_fill(arr):

'''Numba decorator solution provided by shx2.'''

out = arr.copy()

for row_idx in range(out.shape[0]):

for col_idx in range(1, out.shape[1]):

if np.isnan(out[row_idx, col_idx]):

out[row_idx, col_idx] = out[row_idx, col_idx - 1]

return out

def pandas_fill(arr):

df = pd.DataFrame(arr)

df.fillna(method='ffill', axis=1, inplace=True)

out = df.as_matrix()

return out

def numpy_fill(arr):

'''Solution provided by Divakar.'''

mask = np.isnan(arr)

idx = np.where(~mask,np.arange(mask.shape[1]),0)

np.maximum.accumulate(idx,axis=1, out=idx)

out = arr[np.arange(idx.shape[0])[:,None], idx]

return out

接下来是此控制台输入:

%timeit -n 1000 loops_fill(random_array())

%timeit -n 1000 numba_loops_fill(random_array())

%timeit -n 1000 pandas_fill(random_array())

%timeit -n 1000 numpy_fill(random_array())

产生以下控制台输出:

1000 loops, best of 3: 9.64 ms per loop

1000 loops, best of 3: 377 µs per loop

1000 loops, best of 3: 455 µs per loop

1000 loops, best of 3: 351 µs per loop

回答:

这是一种方法-

mask = np.isnan(arr)

idx = np.where(~mask,np.arange(mask.shape[1]),0)

np.maximum.accumulate(idx,axis=1, out=idx)

out = arr[np.arange(idx.shape[0])[:,None], idx]

如果您不想创建另一个数组,而只是arr自己填写NaN ,请用以下命令替换最后一个步骤-

arr[mask] = arr[np.nonzero(mask)[0], idx[mask]]

样本输入,输出-

In [179]: arr

Out[179]:

array([[ 5., nan, nan, 7., 2., 6., 5.],

[ 3., nan, 1., 8., nan, 5., nan],

[ 4., 9., 6., nan, nan, nan, 7.]])

In [180]: out

Out[180]:

array([[ 5., 5., 5., 7., 2., 6., 5.],

[ 3., 3., 1., 8., 8., 5., 5.],

[ 4., 9., 6., 6., 6., 6., 7.]])

以上是 在numpy数组中向前填充NaN值的最有效方法 的全部内容, 来源链接: utcz.com/qa/402166.html

回到顶部