numpy 中 Axis


原文链接: numpy 中 Axis

df.mean(axis=0) 统计第0轴的数据均值,也就是统计所有行的数据
np.mean(z,axis=0)#按列求均值
np.mean(z,axis=1)#按行求均值

结论: axis=n 指示的是要操作的轴,代表的含义是自身所在的维度塌陷.

二维数组 (2,5)

当axis=0时 结果 ( 5)
当axis=1时 结果 ( 2)

b=np.arange(1,11).reshape(2,5)
b
array([[ 1, 2, 3, 4, 5],

   [ 6,  7,  8,  9, 10]])

b.sum(axis=1)
array([15, 40])
b.sum(axis=0)
array([ 7, 9, 11, 13, 15])

三维

当 axis=0 时 结果 (3,5)
当 axis=1 时 结果 (2,5)

a=np.arange(1,31).reshape(2,3,5)
a
array([[[ 1, 2, 3, 4, 5],

    [ 6,  7,  8,  9, 10],
    [11, 12, 13, 14, 15]],
   [[16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25],
    [26, 27, 28, 29, 30]]])

a.sum(axis=0)
array([[17, 19, 21, 23, 25],

   [27, 29, 31, 33, 35],
   [37, 39, 41, 43, 45]])

a.sum(axis=1)
array([[18, 21, 24, 27, 30],

   [63, 66, 69, 72, 75]])

a.sum(axis=2)
array([[ 15, 40, 65],

   [ 90, 115, 140]])

df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]],

              columns=["col1", "col2", "col3", "col4"],
              index=["idx1", "idx2", "idx3"]
             )

通过不同的axis,numpy会沿着不同的方向进行操作:如果不设置,那么对所有的元素操作;如果axis=0,则沿着纵轴进行操作;axis=1,则沿着横轴进行操作。但这只是简单的二位数组,如果是多维的呢?可以总结为一句话:设axis=i,则numpy沿着第i个下标变化的放下进行操作。例如刚刚的例子,可以将表示为:data =[[a00, a01],[a10,a11]],所以axis=0时,沿着第0个下标变化的方向进行操作,也就是a00->a10, a01->a11,也就是纵坐标的方向,axis=1时也类似。

使用axis的相关函数
在numpy中,使用的axis的地方非常多,处理上文已经提到的average、max、min、sum,比较常见的还有sort和prod,

Stackoverflow.com是程序员的好去处,本公众号将以pandas为主题,开始一个系列,争取做到每周一篇,翻译并帮助pandas学习者一起理解一些有代表性的案例。今天的主题就是Pandas与Numpy中一个非常重要的参数:axis.(轴)

Stackoverflow问题如下:

python中的axis究竟是如何定义的呢?他们究竟代表是DataFrame的行还是列?考虑以下代码:

df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]],
columns=["col1", "col2", "col3", "col4"])
df
col1 col2 col3 col4

0     1     1     1     1
1     2     2     2     2
2     3     3     3     3

如果我们调用df.mean(axis=1),我们将得到按行计算的均值

df.mean(axis=1)
0 1
1 2
2 3

然而,如果我们调用 df.drop((name, axis=1),我们实际上删掉了一列,而不是一行:

df.drop("col4", axis=1)
col1 col2 col3
0 1 1 1
1 2 2 2
2 3 3 3

Can someone help me understand what is meant by an "axis" in pandas/numpy/scipy?
有人能帮我理解一下,在pandas、numpy、scipy三都当中axis参数的真实含义吗?

投票最高的答案揭示了问题的本质:

其实问题理解axis有问题,df.mean其实是在每一行上取所有列的均值,而不是保留每一列的均值。也许简单的来记就是axis=0代表往跨行(down),而axis=1代表跨列(across),作为方法动作的副词(译者注)

换句话说:

使用0值表示沿着每一列或行标签\索引值向下执行方法
使用1值表示沿着每一行或者列标签模向执行对应的方法 

下图代表在DataFrame当中axis为0和1时分别代表的含义:

axis参数作用方向图示

另外,记住,Pandas保持了Numpy对关键字axis的用法,用法在Numpy库的词汇表当中有过解释:

轴用来为超过一维的数组定义的属性,二维数据拥有两个轴:第0轴沿着行的垂直往下,第1轴沿着列的方向水平延伸。

所以问题当中第一个列子 df.mean(axis=1)代表沿着列水平方向计算均值,而第二个列子df.drop(name, axis=1) 代表将name对应的列标签(们)沿着水平的方向依次删掉。

`