numpy 中 Axis

by · 2018年05月24日 · 1924 Words · ~4min reading time | Improve on

a=np.random.randn(3, 3,4)

a
array([[[-1.07545889, -0.6768323 , -1.0880692 , 0.57601962],
    [ 1.56703709, -1.49662137,  0.82062876,  0.63184192],
    [-0.69757345,  1.18234807, -1.55820847, -1.72833287]],

   [[ 1.63360391, -0.46357388,  1.39688357, -2.63435781],
    [-1.64659948, -0.56986644,  0.19513227, -0.54037261],
    [ 0.24695649, -0.16908192, -0.43023855, -0.86536263]],

   [[-1.9470638 , -0.55732135,  2.89679383,  1.65513333],
    [ 0.43883947,  0.68183404,  0.17368639,  0.93905156],
    [ 0.30187719, -0.44903865,  0.40887671, -2.20298026]]])

a[1,1:,2]
 array([ 0.19513227, -0.43023855])
a[1,1:,2:]
array([[ 0.19513227, -0.54037261],
   [-0.43023855, -0.86536263]])
np.arange(12).reshape(3,4) # 这是一个二维的向量
axis=0 消去第一维的 3
------> cloumns axis=1
| [[ 0, 1, 2, 3],
rows [ 4, 5, 6, 7],
| [ 8, 9, 10, 11]]

二维数组 (2,5)

当axis=0时结果保留 ( 5)
当axis=1时结果保留 (2 )
演示示例：

b=np.arange(1,11).reshape(2,5)
b
   array([[ 1,  2,  3,  4,  5],
          [ 6,  7,  8,  9, 10]])
b.sum(axis=1)
array([15, 40])
b.sum(axis=0)
array([ 7, 9, 11, 13, 15])

axis=1的作用是: 沿着1轴依次处理数据
axis=1的结果是: 消掉axis所指示的维度,结果就是axis=1的纬度塌陷 shape(3,4) --> shape(3,)

axis = 0，就是沿着列求所有行的平均值，代表了纵轴。
axis = 1，指的是沿着行求所有列的平均值，代表了横轴，
axis=0与axis='rows' 是一样的（在Pandas里），是不是更加容易理解了？
axis=1 和axis='columns'

df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["A", "B", "C", "D"],index=["1", "2", "3"]) 
print(df.drop(['A'],axis=1))        // 删除A列
print(df.drop(['A'],axis='colums')) // 删除A列

df.mean(axis=0) 统计第0轴的数据均值,也就是统计所有行的数据
np.mean(z,axis=0)#按列求均值
np.mean(z,axis=1)#按行求均值
mean(axis=0)   计算的是每一列平均值，  |
mean(axis=1)   计算的是每一行平均值。 
drop(0,axis=0)删除行， 
drop(['A'],axis=1)删除列。
print(df.mean(axis=0))         // 列平均:沿着行求平均
print(df.mean(axis=1))         // 行平均:沿着列方向求平均
print(df.drop(0,axis=0))       // 删除行

结论: axis=n 指示的是要操作的轴,代表的含义是自身所在的维度塌陷.
指的就是一种更加容易理解的方式，“0就是行的axis，1就是列的axis，当以axis=1来drop，那么就是drop一个column，而axis=1 来取mean，那么就是这个操作‘穿越’了列的axis，产生了行上的mean”。

实际上axis = 1，指的是沿着行求所有列的平均值，代表了横轴，那axis = 0，就是沿着列求所有行的平均值，代表了纵轴。

三维

当 axis=0 时结果 (3,5)
当 axis=1 时结果 (2,5)

a=np.arange(1,31).reshape(2,3,5)
a
array([[[ 1, 2, 3, 4, 5],
    [ 6,  7,  8,  9, 10],
    [11, 12, 13, 14, 15]],

   [[16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25],
    [26, 27, 28, 29, 30]]])

a.sum(axis=0)
array([[17, 19, 21, 23, 25],
   [27, 29, 31, 33, 35],
   [37, 39, 41, 43, 45]])
a.sum(axis=1)
array([[18, 21, 24, 27, 30],
   [63, 66, 69, 72, 75]])
a.sum(axis=2)
array([[ 15, 40, 65],
   [ 90, 115, 140]])

df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]],

              columns=["col1", "col2", "col3", "col4"],
              index=["idx1", "idx2", "idx3"])

通过不同的axis，numpy会沿着不同的方向进行操作：如果不设置，那么对所有的元素操作；
如果axis=0，则沿着纵轴进行操作；
axis=1，则沿着横轴进行操作。但这只是简单的二位数组，
如果是多维的呢？可以总结为一句话：设axis=i，则numpy沿着第i个下标变化的方向进行操作。操作的结果就是消掉axis所指的轴

例如刚刚的例子，可以将表示为：data =[[a00, a01],[a10,a11]]，所以axis=0时，沿着第0个下标变化的方向进行操作，也就是a00->a10, a01->a11，也就是纵坐标的方向，axis=1时也类似。

使用axis的相关函数
在numpy中，使用的axis的地方非常多，处理上文已经提到的average、max、min、sum，比较常见的还有sort和prod，

Pandas与Numpy中一个非常重要的参数：axis.(轴）

Stackoverflow问题如下：
python中的axis究竟是如何定义的呢？他们究竟代表是DataFrame的行还是列？考虑以下代码：

df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"])
df
col1 col2 col3 col4
0     1     1     1     1
1     2     2     2     2
2     3     3     3     3

如果我们调用df.mean(axis=1),我们将得到按行计算的均值

df.mean(axis=1)
0 1
1 2
2 3

然而，如果我们调用 df.drop((name, axis=1),我们实际上删掉了一列，而不是一行：

df.drop("col4", axis=1)
col1 col2 col3
0 1 1 1
1 2 2 2
2 3 3 3

Can someone help me understand what is meant by an "axis" in pandas/numpy/scipy?
有人能帮我理解一下，在pandas、numpy、scipy三都当中axis参数的真实含义吗？

投票最高的答案揭示了问题的本质：

其实问题理解axis有问题，df.mean其实是在每一行上取所有列的均值，而不是保留每一列的均值。也许简单的来记就是axis=0代表往跨行（down)，而axis=1代表跨列（across)，作为方法动作的副词（译者注）

换句话说:

使用0值表示沿着每一列或行标签\索引值向下执行方法
使用1值表示沿着每一行或者列标签模向执行对应的方法

下图代表在DataFrame当中axis为0和1时分别代表的含义:

axis参数作用方向图示

另外，记住，Pandas保持了Numpy对关键字axis的用法，用法在Numpy库的词汇表当中有过解释：

轴用来为超过一维的数组定义的属性，二维数据拥有两个轴：第0轴沿着行的垂直往下，第1轴沿着列的方向水平延伸。

所以问题当中第一个列子 df.mean(axis=1)代表沿着列水平方向计算均值，而第二个列子df.drop(name, axis=1) 代表将name对应的列标签（们）沿着水平的方向依次删掉。

numpy 中 Axis

二维数组 (2,5)

三维

Pandas与Numpy中一个非常重要的参数：axis.(轴）

分类

标签云