熊猫数据框重新取样的ms值

Z时代
2024-01-10
分类：问答

熊猫菜鸟在这里。熊猫数据框重新取样的ms值

我有以下格式的文件：

SET, 0, 0, 0, 6938987, 0, 4 SET, 1, 1, 6938997, 128, 0, 0 SET, 2, 4, 6938998, 145, 0, 2 SET, 0, 9, 6938998, 147, 0, 0 SET, 1, 11, 6938998, 149, 0, 0 .... SET, 1, 30, 6946103, 6, 0, 0 SET, 2, 30, 6946104, 6, 0, 2 GET, 0, 30, 6946104, 8, 0, 0 SET, 1, 30, 6946105, 8, 0, 0 GET, 2, 30, 6946106, 7, 0, 0

第5列表示，我从一个系统测量毫秒（从Java的System.nanoTime转换（））。因此这些不代表任何日期/时间格式。我想要以5s为间隔进行聚合，例如从第一个6938987到6943987进行聚合：获取SET/GET的值计数，获取平均值，标准偏差等。

data = pd.read_csv('data2.log', sep=", ", header=None) 
data.columns = ["command", "server", "lenQueue", "inQueue", "diffQueue", "diffParse", "diffProcess"] 
r = data.resample("5ms", on='inQueue') 
TypeError: Only valid with DatetimeIndex, TimedeltaIndex or PeriodIndex, but got an instance of 'Int64Index'

任何方式做重采样与价值的差异，而不是一个时间序列：

我以不同的方式使用data.resample而是继续得到以下错误试过吗？ -

编辑由强尼建议的解决方案：

在timedelta转化毫秒，然后重新采样，以5ms的：

data['td'] = pd.to_timedelta(data['inQueue'], 'ms') 
data['sum'] = data.set_index(data['td'])['lenQueue'].resample('5ms').sum() 
[Other columns ommitted] 
        td sum 
0   00:00:00 NaN 
1  01:55:38.997000 NaN 
2  01:55:38.998000 NaN 
3  01:55:38.998000 NaN 
4  01:55:38.998000 NaN 
5  01:55:38.998000 NaN 
6  01:55:38.999000 NaN

难道是因为有其他列是必须也有一些聚合完成他们？如果是这样，我该怎么做多次？

回答：

错误消息告诉你，你需要转换为类似日期时间的格式，所以你需要这样做！

一个相当简单的方法是转换为timedelta而不是时间戳，您可以按如下所示进行操作。首先，让我们使用您的数据的一个简化版本：

In [143]: df 
Out[143]: 
    val  ms  
0 11 6938987 
1 22 6938997 
2 33 6938998

然后做一个新列“TD”表示以毫秒为单位，“MS”的timedelta。（如果你想要微秒，用“us”代替）：

In [144]: df['td'] = pd.to_timedelta(df['ms'],'ms') 
In [145]: df 
Out[145]: 
    val  ms    td 
0 11 6938987 01:55:38.987000 
1 22 6938997 01:55:38.997000 
2 33 6938998 01:55:38.998000

然后你可以很容易地使用resample。请注意，您需要使用某些操作（例如总和，最大值，平均值等）重复采样。在这里，我将与总结：

In [146]: df.set_index(df['td'])['val'].resample('5ms').sum() 
Out[146]: 
td 
01:55:38.987000 11.0 
01:55:38.992000  NaN 
01:55:38.997000 55.0 
Freq: 5L, Name: val, dtype: float64

以上是熊猫数据框重新取样的ms值的全部内容，来源链接： utcz.com/qa/257986.html

熊猫数据框重新取样的ms值

回答：

其他人也看了：

熊猫：在单独的列中显示嵌套的字典中的值

更改浮点索引值的字符串索引值熊猫系列

【WPS教程】如何修改数据透视表的汇总方式？

从一个数据框中创建一个以一列值为参考的数组