numpy 中 Axis


原文链接: numpy 中 Axis

如何理解Pandas 和 Numpy里的axis | 不正经数据科学家

a=np.random.randn(3, 3,4)

a
array([[[-1.07545889, -0.6768323 , -1.0880692 , 0.57601962],

    [ 1.56703709, -1.49662137,  0.82062876,  0.63184192],
    [-0.69757345,  1.18234807, -1.55820847, -1.72833287]],
   [[ 1.63360391, -0.46357388,  1.39688357, -2.63435781],
    [-1.64659948, -0.56986644,  0.19513227, -0.54037261],
    [ 0.24695649, -0.16908192, -0.43023855, -0.86536263]],

   [[-1.9470638 , -0.55732135,  2.89679383,  1.65513333],
    [ 0.43883947,  0.68183404,  0.17368639,  0.93905156],
    [ 0.30187719, -0.44903865,  0.40887671, -2.20298026]]])

a[1,1:,2]

 array([ 0.19513227, -0.43023855])

a[1,1:,2:]
array([[ 0.19513227, -0.54037261],

   [-0.43023855, -0.86536263]])

np.arange(12).reshape(3,4) # 这是一个二维的向量
axis=0 消去第一维的 3
------> cloumns axis=1
| [[ 0, 1, 2, 3],
rows [ 4, 5, 6, 7],
| [ 8, 9, 10, 11]]

二维数组 (2,5)

当axis=0时 结果保留 ( 5)
当axis=1时 结果保留 (2 )
演示示例:

b=np.arange(1,11).reshape(2,5)
b

   array([[ 1,  2,  3,  4,  5],
          [ 6,  7,  8,  9, 10]])

b.sum(axis=1)
array([15, 40])
b.sum(axis=0)
array([ 7, 9, 11, 13, 15])

axis=1的作用是: 沿着1轴依次处理数据
axis=1的结果是: 消掉axis所指示的维度,结果就是axis=1的纬度塌陷 shape(3,4) --> shape(3,)

axis = 0,就是沿着列求所有行的平均值,代表了纵轴。
axis = 1,指的是沿着行求所有列的平均值,代表了横轴,
axis=0与axis='rows' 是一样的(在Pandas里),是不是更加容易理解了?
axis=1 和axis='columns'

df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["A", "B", "C", "D"],index=["1", "2", "3"]) 
print(df.drop(['A'],axis=1))        // 删除A列
print(df.drop(['A'],axis='colums')) // 删除A列

df.mean(axis=0) 统计第0轴的数据均值,也就是统计所有行的数据
np.mean(z,axis=0)#按列求均值
np.mean(z,axis=1)#按行求均值
mean(axis=0)   计算的是每一列平均值,  |
mean(axis=1)   计算的是每一行平均值。 
drop(0,axis=0)删除行, 
drop(['A'],axis=1)删除列。
print(df.mean(axis=0))         // 列平均:沿着行求平均
print(df.mean(axis=1))         // 行平均:沿着列方向求平均
print(df.drop(0,axis=0))       // 删除行



结论: axis=n 指示的是要操作的轴,代表的含义是自身所在的维度塌陷.
指的就是一种更加容易理解的方式,“0就是行的axis,1就是列的axis,当以axis=1来drop,那么就是drop一个column,而axis=1 来取mean,那么就是这个操作‘穿越’了列的axis,产生了行上的mean”。

实际上axis = 1,指的是沿着行求所有列的平均值,代表了横轴,那axis = 0,就是沿着列求所有行的平均值,代表了纵轴。

三维

当 axis=0 时 结果 (3,5)
当 axis=1 时 结果 (2,5)

a=np.arange(1,31).reshape(2,3,5)
a
array([[[ 1, 2, 3, 4, 5],

    [ 6,  7,  8,  9, 10],
    [11, 12, 13, 14, 15]],
   [[16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25],
    [26, 27, 28, 29, 30]]])

a.sum(axis=0)
array([[17, 19, 21, 23, 25],

   [27, 29, 31, 33, 35],
   [37, 39, 41, 43, 45]])

a.sum(axis=1)
array([[18, 21, 24, 27, 30],

   [63, 66, 69, 72, 75]])

a.sum(axis=2)
array([[ 15, 40, 65],

   [ 90, 115, 140]])

df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]],

              columns=["col1", "col2", "col3", "col4"],
              index=["idx1", "idx2", "idx3"])

通过不同的axis,numpy会沿着不同的方向进行操作:如果不设置,那么对所有的元素操作;
如果axis=0,则沿着纵轴进行操作;
axis=1,则沿着横轴进行操作。但这只是简单的二位数组,
如果是多维的呢?可以总结为一句话:设axis=i,则numpy沿着第i个下标变化的方向进行操作。操作的结果就是消掉axis所指的轴

例如刚刚的例子,可以将表示为:data =[[a00, a01],[a10,a11]],所以axis=0时,沿着第0个下标变化的方向进行操作,也就是a00->a10, a01->a11,也就是纵坐标的方向,axis=1时也类似。

使用axis的相关函数
在numpy中,使用的axis的地方非常多,处理上文已经提到的average、max、min、sum,比较常见的还有sort和prod,

Pandas与Numpy中一个非常重要的参数:axis.(轴)

Stackoverflow问题如下:
python中的axis究竟是如何定义的呢?他们究竟代表是DataFrame的行还是列?考虑以下代码:

df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"])
df
col1 col2 col3 col4

0     1     1     1     1
1     2     2     2     2
2     3     3     3     3

如果我们调用df.mean(axis=1),我们将得到按行计算的均值

df.mean(axis=1)
0 1
1 2
2 3

然而,如果我们调用 df.drop((name, axis=1),我们实际上删掉了一列,而不是一行:

df.drop("col4", axis=1)
col1 col2 col3
0 1 1 1
1 2 2 2
2 3 3 3

Can someone help me understand what is meant by an "axis" in pandas/numpy/scipy?
有人能帮我理解一下,在pandas、numpy、scipy三都当中axis参数的真实含义吗?

投票最高的答案揭示了问题的本质:

其实问题理解axis有问题,df.mean其实是在每一行上取所有列的均值,而不是保留每一列的均值。也许简单的来记就是axis=0代表往跨行(down),而axis=1代表跨列(across),作为方法动作的副词(译者注)

换句话说:

使用0值表示沿着每一列或行标签\索引值向下执行方法
使用1值表示沿着每一行或者列标签模向执行对应的方法 

下图代表在DataFrame当中axis为0和1时分别代表的含义:

axis参数作用方向图示

另外,记住,Pandas保持了Numpy对关键字axis的用法,用法在Numpy库的词汇表当中有过解释:

轴用来为超过一维的数组定义的属性,二维数据拥有两个轴:第0轴沿着行的垂直往下,第1轴沿着列的方向水平延伸。

所以问题当中第一个列子 df.mean(axis=1)代表沿着列水平方向计算均值,而第二个列子df.drop(name, axis=1) 代表将name对应的列标签(们)沿着水平的方向依次删掉。

`