numpy 中 Axis
如何理解Pandas 和 Numpy里的axis | 不正经数据科学家
a=np.random.randn(3, 3,4)
a
array([[[-1.07545889, -0.6768323 , -1.0880692 , 0.57601962],[ 1.56703709, -1.49662137, 0.82062876, 0.63184192], [-0.69757345, 1.18234807, -1.55820847, -1.72833287]],
[[ 1.63360391, -0.46357388, 1.39688357, -2.63435781],
[-1.64659948, -0.56986644, 0.19513227, -0.54037261],
[ 0.24695649, -0.16908192, -0.43023855, -0.86536263]],
[[-1.9470638 , -0.55732135, 2.89679383, 1.65513333],
[ 0.43883947, 0.68183404, 0.17368639, 0.93905156],
[ 0.30187719, -0.44903865, 0.40887671, -2.20298026]]])
a[1,1:,2]
array([ 0.19513227, -0.43023855])
a[1,1:,2:]
array([[ 0.19513227, -0.54037261],[-0.43023855, -0.86536263]])
np.arange(12).reshape(3,4) # 这是一个二维的向量
axis=0 消去第一维的 3
------> cloumns axis=1
| [[ 0, 1, 2, 3],
rows [ 4, 5, 6, 7],
| [ 8, 9, 10, 11]]
二维数组 (2,5)
当axis=0时 结果保留 ( 5)
当axis=1时 结果保留 (2 )
演示示例:
b=np.arange(1,11).reshape(2,5)
barray([[ 1, 2, 3, 4, 5], [ 6, 7, 8, 9, 10]])
b.sum(axis=1)
array([15, 40])
b.sum(axis=0)
array([ 7, 9, 11, 13, 15])
axis=1的作用是: 沿着1轴依次处理数据
axis=1的结果是: 消掉axis所指示的维度,结果就是axis=1的纬度塌陷 shape(3,4) --> shape(3,)
axis = 0,就是沿着列求所有行的平均值,代表了纵轴。
axis = 1,指的是沿着行求所有列的平均值,代表了横轴,
axis=0与axis='rows' 是一样的(在Pandas里),是不是更加容易理解了?
axis=1 和axis='columns'
df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["A", "B", "C", "D"],index=["1", "2", "3"])
print(df.drop(['A'],axis=1)) // 删除A列
print(df.drop(['A'],axis='colums')) // 删除A列
df.mean(axis=0) 统计第0轴的数据均值,也就是统计所有行的数据
np.mean(z,axis=0)#按列求均值
np.mean(z,axis=1)#按行求均值
mean(axis=0) 计算的是每一列平均值, |
mean(axis=1) 计算的是每一行平均值。
drop(0,axis=0)删除行,
drop(['A'],axis=1)删除列。
print(df.mean(axis=0)) // 列平均:沿着行求平均
print(df.mean(axis=1)) // 行平均:沿着列方向求平均
print(df.drop(0,axis=0)) // 删除行
结论: axis=n 指示的是要操作的轴,代表的含义是自身所在的维度塌陷.
指的就是一种更加容易理解的方式,“0就是行的axis,1就是列的axis,当以axis=1来drop,那么就是drop一个column,而axis=1 来取mean,那么就是这个操作‘穿越’了列的axis,产生了行上的mean”。
实际上axis = 1,指的是沿着行求所有列的平均值,代表了横轴,那axis = 0,就是沿着列求所有行的平均值,代表了纵轴。
三维
当 axis=0 时 结果 (3,5)
当 axis=1 时 结果 (2,5)
a=np.arange(1,31).reshape(2,3,5)
a
array([[[ 1, 2, 3, 4, 5],[ 6, 7, 8, 9, 10], [11, 12, 13, 14, 15]],
[[16, 17, 18, 19, 20],
[21, 22, 23, 24, 25],
[26, 27, 28, 29, 30]]])
a.sum(axis=0)
array([[17, 19, 21, 23, 25],[27, 29, 31, 33, 35], [37, 39, 41, 43, 45]])
a.sum(axis=1)
array([[18, 21, 24, 27, 30],[63, 66, 69, 72, 75]])
a.sum(axis=2)
array([[ 15, 40, 65],[ 90, 115, 140]])
df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]],
columns=["col1", "col2", "col3", "col4"],
index=["idx1", "idx2", "idx3"])
通过不同的axis,numpy会沿着不同的方向进行操作:如果不设置,那么对所有的元素操作;
如果axis=0,则沿着纵轴进行操作;
axis=1,则沿着横轴进行操作。但这只是简单的二位数组,
如果是多维的呢?可以总结为一句话:设axis=i,则numpy沿着第i个下标变化的方向进行操作。操作的结果就是消掉axis所指的轴
例如刚刚的例子,可以将表示为:data =[[a00, a01],[a10,a11]],所以axis=0时,沿着第0个下标变化的方向进行操作,也就是a00->a10, a01->a11,也就是纵坐标的方向,axis=1时也类似。
使用axis的相关函数
在numpy中,使用的axis的地方非常多,处理上文已经提到的average、max、min、sum,比较常见的还有sort和prod,
Pandas与Numpy中一个非常重要的参数:axis.(轴)
Stackoverflow问题如下:
python中的axis究竟是如何定义的呢?他们究竟代表是DataFrame的行还是列?考虑以下代码:
df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"])
df
col1 col2 col3 col40 1 1 1 1 1 2 2 2 2 2 3 3 3 3
如果我们调用df.mean(axis=1),我们将得到按行计算的均值
df.mean(axis=1)
0 1
1 2
2 3
然而,如果我们调用 df.drop((name, axis=1),我们实际上删掉了一列,而不是一行:
df.drop("col4", axis=1)
col1 col2 col3
0 1 1 1
1 2 2 2
2 3 3 3
Can someone help me understand what is meant by an "axis" in pandas/numpy/scipy?
有人能帮我理解一下,在pandas、numpy、scipy三都当中axis参数的真实含义吗?
投票最高的答案揭示了问题的本质:
其实问题理解axis有问题,df.mean其实是在每一行上取所有列的均值,而不是保留每一列的均值。也许简单的来记就是axis=0代表往跨行(down),而axis=1代表跨列(across),作为方法动作的副词(译者注)
换句话说:
使用0值表示沿着每一列或行标签\索引值向下执行方法
使用1值表示沿着每一行或者列标签模向执行对应的方法
下图代表在DataFrame当中axis为0和1时分别代表的含义:
axis参数作用方向图示
另外,记住,Pandas保持了Numpy对关键字axis的用法,用法在Numpy库的词汇表当中有过解释:
轴用来为超过一维的数组定义的属性,二维数据拥有两个轴:第0轴沿着行的垂直往下,第1轴沿着列的方向水平延伸。
所以问题当中第一个列子 df.mean(axis=1)代表沿着列水平方向计算均值,而第二个列子df.drop(name, axis=1) 代表将name对应的列标签(们)沿着水平的方向依次删掉。