
Python-pandas轴是什么意思?
这是我的生成数据框的代码:import pandas as pdimport numpy as npdff = pd.DataFrame(np.random.randn(1,2),columns=list('AB'))然后我得到了数据框:+------------+---------+--------+| | A | B |+------------+---------+---------| 0 | 0.626386| 1.52325|+----...
2024-01-10
有条件替换 Pandas
我可能在做一些非常愚蠢的事情,但是我很沮丧。我有一个数据框,我想用超过零的值替换特定列中的值。我以为这是实现此目标的一种方式:df[df.my_channel > 20000].my_channel = 0如果将通道复制到新的数据框中,这很简单:df2 = df.my_channel df2[df2 > 20000] = 0这完全符合我的要求,但似乎无法与通道一起...
2024-01-10
Pandas系列无法获取索引
不知道这里出了什么问题…我想要的只是本系列中的第一个也是唯一的元素>>> a1 0-5fffd6b57084003b1b582ff1e56855a6!1-AB8769635...Name: id, dtype: object>>> len (a)1>>> type(a)<class 'pandas.core.series.Series'>>>> a[0]Traceback (most recent call last): File "<pyshell#1>", line 1, in <module>...
2024-01-10
Pandas替换和不区分大小写
使得更换不区分大小写似乎并不在下面的例子中(我要替换的效果 JR。 或 小 与 JR ):In [0]: pd.Series('Jr. eng').str.replace('jr.', 'jr', regex=False, case=False)Out[0]: 0 Jr. eng为什么?我有什么误会?回答:该case参数实际上是一种方便的选择flags=re.IGNORECASE。如果替换不是基于正则表达式的,则与替换无关。因...
2024-01-10
Pandas:选择两列不同的行
假设我有一个数据框如下a b c 1 1 450 2 742 2 541 4 44现在,我希望a和b列不同的行。所以预期的输出是a b c 0 2 741 4 44我怎样才能做到这一点?回答:我喜欢可读性,请使用query:df.query('a != b')输出: a b c1 0 2 743 1 4 44...
2024-01-10
pandas重命名索引
我有以下数据框,在这里我想将索引从重命名summary为id:summary student count 0 error 61 yes 12 no 13 other 9我尝试过: newdf = df.reset_index().rename(columns={df.index.name:'foo'})它给出:summary index student count 0 0 ...
2024-01-10
pandas.Panel弃用警告实际上建议什么?
我有一个使用pandas Panels生成MultiIndex pandasDataFrames的程序包。但是,每当我使用pandas.Panel时,都会收到以下DeprecationError:弃用警告:不建议使用面板,并且在以后的版本中将其删除。推荐的表示此类3维数据类型的方法是通过Panel.to_frame()方法在DataFrame上使用MultiIndex。或者,您可以使用xarray包http://xar...
2024-01-10
Pandas将数据框列写入csv
我正在编写一个脚本,以将带有标头的大.xlsx文件减少到一个csv中,然后根据标头名称仅写有所需列的新csv文件。import pandasimport csvdf = pandas.read_csv('C:\\Python27\\Work\\spoofing.csv')time = df["InviteTime (Oracle)"]orignum = df["Orig Number"]origip = df["Orig IP Address"]destnum = df["Dest Number"]df.t...
2024-01-10
Pandas:对数据透视表进行排序
第一次尝试熊猫,我试图先按照索引对数据透视表进行排序,然后再对一系列值进行排序。到目前为止,我已经尝试过:table = pivot_table(sheet1, values='Value', rows=['A','B'], aggfunc=np.sum)# Sorts by value ascending, can't change to descendingtable.copy().sort()table# The following gives me the correct ordering in v...
2024-01-10
Pandas:分别对每一列进行排序
我的数据框看起来像这样,只是更大了。d = {'Col_1' : pd.Series(['A', 'B']), 'Col_2' : pd.Series(['B', 'A', 'C']), 'Col_3' : pd.Series(['B', 'A']), 'Col_4' : pd.Series(['C', 'A', 'B', 'D']), 'Col_5' : pd.Series(['A', 'C']),}df = pd.DataFrame(d)Col_1 Col_2 Col_3 Col_4 Col_5...
2024-01-10
为什么我的Pandas的“应用”功能不能引用多个列?
当将多个列与以下数据框一起使用时,Pandas Apply函数存在一些问题df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)})和以下功能def my_test(a, b): return a % b当我尝试使用以下功能时:df['Value'] = df.apply(lambda row: my_tes...
2024-01-10
如何在Pandas中合并两个专属列?
我有两列,这些列是独占的。 如果column1中第i行的条目是NaN,我想用第2列中的任何内容替换NaN。如何快速完成而无需迭代所有行?如何在Pandas中合并两个专属列?回答:你可以做类似df.loc[df.column1.isnull(), 'column1'] = df.column2 或可替代(这可能是更好的性能),df.column1 = np.where(df.column1.isnull(), df.colum...
2024-01-10
高效扁平化pandas数据框
我有一个pandas数据框。看起来像这样:pd.DataFrame(data=np.arange(1,10).reshape(3,3), index=['A', 'B', 'C'], columns=['A', 'B', 'C'])但有100行和100列。我想展平它,使其看起来像这样:pd.DataFrame({'row' : ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'], 'col' : ['A', 'B', 'C']*3, 'val' : np.arange...
2024-01-10
pandas中的for循环真的不好吗?我什么时候应该在意?
是for循环真正的“坏”?如果不是,在什么情况下它们会比使用更常规的“矢量化”方法更好?1个我熟悉“矢量化”的概念,以及熊猫如何利用矢量化技术来加快计算速度。向量化功能在整个系列或DataFrame上广播操作,以实现比传统上迭代数据快得多的加速。但是,我很惊讶地看到很多代码(包括来...
2024-01-10
将Pandas数据框转换为Dask数据框
假设我的熊猫数据框为:df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})当我转换成数据帧DASK又该name和divisions参数包括:from dask import dataframe as dd sd=dd.DataFrame(df.to_dict(),divisions=1,meta=pd.DataFrame(columns=df.columns,index=df.index))TypeError: ()缺少1个必需的位置参数:“ name” :假设我创建一个熊...
2024-01-10
Pandas在每个组中获得最高的n条记录
假设我有这样的pandas DataFrame:>>> df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4],'value':[1,2,3,1,2,3,4,1,1]})>>> df id value0 1 11 1 22 1 33 2 14 2 25 2 36 2 47 3 18 4 1我想获得一个新的DataFrame,其中每个ID的前2个记...
2024-01-10
Pandas-如何展平列中的层次结构索引
我有一个在轴1(列)中具有层次结构索引的数据框(来自groupby.agg操作): USAF WBAN year month day s_PC s_CL s_CD s_CNT tempf sum sum sum sum amax amin0 702730 26451 1993 1 1 1 0 12 13 30.92 2...
2024-01-10
从pandas数据框列获取列表
我有一个看起来像这样的Excel文档。cluster load_date budget actual fixed_priceA 1/1/2014 1000 4000 YA 2/1/2014 12000 10000 YA 3/1/2014 36000 2000 YB 4/1/2014 15000 10000 NB 4/1/2014 12000 11500 NB 4/1/2014 90000 1...
2024-01-10
Pandas:随机删除行,而不会改组数据集
我有一个数据集,它需要省略几行,同时保留行的顺序。我的想法是使用一个掩码,该掩码0的长度介于数据集的长度和数据集的长度之间,但是我不确定如何在不对行进行混排的情况下设置掩码,即类似于对数据集进行采样的方法。示例:数据集有5行和2列,我想随机删除一行。Col1 | Col2 A | 1 B | ...
2024-01-10
Pandas,未来警告:使用多个键进行索引
当我对groupby对象的多个列应用函数时,Pandas会发出“未来警告”。它建议使用列表作为索引而不是元组。怎么会这样呢?>>> df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])>>> df.groupby([0,1])[1,2].apply(sum)<stdin>:1: FutureWarning: Indexing with multiple keys (implicitly converted to a tuple of keys) will be depre...
2024-01-10
按名称列表对Pandas中的多个列进行切片
我正在尝试通过两种不同的方法在Pandas数据框中选择多个列:1)通过列号,例如1-3列和6列起。和2)通过列名列表,例如:years = list(range(2000,2017))months = list(range(1,13))years_month = list(["A", "B", "B"])for y in years: for m in months: y_m = str(y) + "-" + str(m) years_month.append(y_m)然后...
2024-01-10
Pandas DataFrame按时间戳分组
我有一个用例,其中:数据的格式为:Col1,Col2,Col3和时间戳。现在,我只想获取行数与时间戳箱的数量。也就是说,对于每半小时的存储桶(甚至没有对应行的存储桶),我需要计算有多少行。时间戳记分布在一年内,因此我无法将其划分为24个存储桶。我必须每隔30分钟将它们装箱。回答:group...
2024-01-10
将包含多行JSON的文件加载到Pandas中
我正在尝试将JSON文件读入Python熊猫(0.14.0)数据帧中。这是JSON文件的第一行:{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "date": "2005-08-26", "text": "This is a pretty typical cafe. The sandw...
2024-01-10
在Pandas中,groupby分组列消失后
我有以下名为ttm的数据框: usersidid clienthostid eventSumTotal LoginDaysSum score0 12 1 60 3 17281 11 1 240 3 13313 5 1 5...
2024-01-10
Pandas,将数据框中的所有数值乘以一个常数
如何将数据框中的所有数值乘以一个常量而不必显式指定列名?例:In [13]: df = pd.DataFrame({'col1': ['A','B','C'], 'col2':[1,2,3], 'col3': [30, 10,20]})In [14]: dfOut[14]: col1 col2 col30 A 1 301 B 2 102 C 3 20我尝试过,df.multiply但是它也会通过多次连接来影响字符串值。In [15]: df...
2024-01-10
