Figure 1.1 神经网络中全连接层示意图

第一章基于流形复数神经网络的混合波束成形

1.1 流形复数神经网络原理

在如图1.1所示的全连接神经网络中，对于一个接收 m 长度输入产生 n 长度输出的

全连接层，其内部运算形式为

y = ψ(xA

+ b), (1.1)

其中 x ∈ C

1×m

, A ∈ C

n×m

, b ∈ C

1×n

, ψ, y ∈ C

1×n

分别为网络输入、网络权重参数、网

络偏置参数、网络激活函数、网络输出。通过堆叠多个全连接层，得到多层前馈全连接

神经网络，其对信号的处理方式表示为

y =



i=1,...,s

+ b

), (1.2)

其中 s 表示网络层数，



表示重复上述流程以完成数据在多层网络间的传播。卷积神

经网络内部具有相似的数据处理流程，对于一个具有多个卷积层的神经网络，其数据处

理方式可以表示为

y =



i=1,...,s

∗ X

+ b

), (1.3)

其中 W

表示卷积核权重。

东南大学硕士学位论文

在普通神经网络中不存在对网络参数 A, W 的约束，流形复数神经网络通过在创建

全连接层或卷积层时指定流形种类，从而使得权重参数 A, W 满足特定的流形约束，比

如对 A 使用 Complex Stiefel 流形约束时，使得 A

A = I，对 W 使用 Complex Circle

流形约束时，使得 |[W ]

i,j

| = 1。通过这种方式可以对全连接网络或者卷积网络的参数添

加流形约束条件，并使用流形网络优化器更新网络参数，使得网络参数始终满足流形约

束条件。

接下来讲解流形复数神经网络的优化步骤。在开始优化之前需要生成一个随机数据

点 P ，需要注意的是由于点 P 随机生成，并不保证满足特定的流形约束条件，所以我

们需要额外的操作来生成优化起始点 u

= rand(P). (1.4)

grad

∇

proj(·)

Figure 1.2 流形切空间与梯度投影操作

[1]

j+1

retr(·)

Figure 1.3 切空间步进搜索和缩放

[1]

在优化的某一时刻，流形 O 在点 u

处的切空间定义为包含流形 O 在点 u

处的所

有切向量的空间，如图1.2所示，每个切向量都是流形 O 在点 u

处的一条切线形成的向

量。流形 O 在点 u

处的切空间记为

O =



v ∈ C

| [vu

]

m,m

= 0, ∀m ∈ M



, (1.5)

其中 v 是 u

的一条切线。在过点 u

的所有切线中，使得目标函数 f 增长最块的切向

量被称为黎曼梯度 grad

f，该梯度可以通过将点 u

处的欧几里得梯度 ∇

f 投影到切

空间 T

O 得到

grad

f = proj(u

, ∇

f). (1.6)

该点的黎曼梯度的反方向，即目标函数下降最快的方向作为搜索下一个迭代点的方

向 µ

= −grad

f，搜索步长为当前神经网络的学习率 δ

= lr。如图1.3所示，可以获得

在切空间上的下一个搜索点

∗

j+1

= u

+ δ

. (1.7)

并通过缩放操作将切空间 T

O 上的点转移到流形 O 上，获得下一步迭代点

j+1

= retr(u

∗

j+1

). (1.8)

第一章基于流形复数神经网络的混合波束成形

完成一次参数更新。综合式1.6，1.7，1.8网络参数的更新准则表示为

j+1

= retr



− δ

proj(u

, ∇



. (1.9)

点 u

的欧几里得梯度可以通过机器学习框架的自动求导机制获得，不同的流形拥

有不同的随机初始化函数、投影函数和缩放函数

[2]

。我们定义 P , X, U, X

∗

分别为随机

初始值、当前所在的点、欧几里得梯度、切空间里下一个迭代点。Complex Stiefel 流形

常用的随机初始化函数、投影函数和缩放函数分别为

rand(P ) = Q , (1.10)

proj(X, U) = U − X

U + U

, (1.11)

retr(X

∗

) = LR

. (1.12)

其中 Q 为对 P 进行 QR 分解得到的正交矩阵，L, R 为对 X

∗

进行奇异值分解得到的左

奇异矩阵和右奇异矩阵，然后取 L, R 的前 k 列重新赋值给 L, R，k 为 X

∗

行数和列数

的最小值。Complex Circle 流形常用的随机初始化函数、投影函数和缩放函数为

rand(P ) =

|P |

, (1.13)

proj(X, U) = U − R(U

∗

◦ X) ◦ X, (1.14)

retr(X

∗

) =

∗

. (1.15)

Complex Sphere 流形常用的随机初始化函数、投影函数和缩放函数为

rand(P ) =

∥P ∥

, (1.16)

proj(X, U) = U − X ◦ R



sum(X

∗

◦ U )



, (1.17)

retr(X

∗

) =

∗

∥X

∗

∥

. (1.18)

Complex Euclid 流形常用的随机初始化函数、投影函数和缩放函数为

rand(P ) =

√

, (1.19)

proj(X, U) = U , (1.20)

retr(X

∗

) = X

∗

. (1.21)

东南大学硕士学位论文

ۨմ

torch.nn.Linear

ManifoldLinear

torch.nn.Parameter

ManifoldParameter

ComplexSphere

ComplexStiefel

ComplexCircle

৐܈

ۨմ

૿ҵ

૿ӟ

ManifoldConv

ManifoldAdagrad

torch.optim.Adagrad

Manifold

৐܈

޾ޏ

߶঎

ৠৌ

ComplexEuclid

torch.nn.Conv2d

৐܈

ManifoldRMSprop

torch.optim.RMSprop

৐܈

Figure 1.4 流形复数神经网络优化框架

1.2 流形复数神经网络工程实现

整个流形复数神经网络优化框架如图1.4所示，流形复数神经网络框架基于 PyTorch

[3]

开发，针对网络的参数类、网络结构类和优化器类进行修改以适应流形约束。同时定义

流形类，规定了各类流形的随机初始化、投影和缩放操作。

首先定义了流形基类Manifold，对流形需要实现的方法进行了规定，但并不包含具

体的方法实现。接着定义了具体的流形类，它们继承基类Manifold，并根据不同流形的

定义，实现自己的随机初始化方法rand()、投影方法proj()和缩放方法retr()。

然后定义流形参数类ManifoldParameter，它继承自 PyTorch 中的参数类torch.nn.

Parameter，持有一个流形实现类的实例对象，表示参数类被该流形约束。接下来定

义了流形全连接网络类ManifoldLinear和流形卷积网络类ManifoldConv，它们分别继

承自 PyTorch 中的全连接网络类torch.nn.Linear和二维卷积网络类torch.nn.Conv2d，

同时它们内部持有一个流形参数类的实例对象，表示该网络内部的参数满足流形约束。

最后定义了三个流形网络优化器类：流形随机梯度下降优化器类ManifoldSGD，流形

自适应梯度优化器类ManifoldAdagrad以及流形均方根传播优化器类ManifoldRMSprop，

它们分别继承自 PyTorch 中的优化器torch.optim.SGD、torch.optim.Adagrad以

及torch.optim.RMSprop。在流形网络优化器中手动调用流形实例对象的投影方

法proj()和缩放方法retr()，保证参数在更新后仍旧满足流形约束条件。

流形随机梯度下降优化器为最简单优化器，其更新准则和式1.9相同。流形均方根传

播优化器借鉴 l

正则化的思想，每次更新参数时可以自适应的调整每个参数的学习率，

并通过指数衰减移动平均避免学习率早衰的问题

[4]

。其更新规则如1.1所示，其中输入参

数为学习率 δ 和衰减率 β，衰减率一般取值 0.9。

流形自适应梯度优化器和流形均方根传播优化器更新步骤相似，唯一的区别是将黎

曼梯度的指数衰减移动平均替换为累计衰减移动平均。

第一章基于流形复数神经网络的混合波束成形

算法 1.1 流形均方根传播优化器参数更新准则

1: 输入：学习率 δ，衰减率 β。

2: •

根据

PyTorch

的自动求导机制获得当前迭代点

的欧几里得梯度

。

3: • 根据式1.6将欧几里得梯度 U

投影到切空间获得黎曼梯度 G

。

4: • 计算黎曼梯度 G

的指数衰减移动平均 M

= (1 − β)



τ =1

t−τ

◦ G

。

5: • 计算衰减修正后梯度

√

◦ G

。

6: • 根据式1.6将衰减修正后梯度

投影到切空间，得到衰减修正后黎曼梯度 G

∗

。

7: • 根据式1.7计算切空间中的下一迭代点 X

∗

t+1

，并根据式1.8投影到流形上，得到下一个时刻

迭代点 X

t+1

。

8: 输出：下一个时刻迭代点 X

t+1

。

1.3 使用示例

使用流形全连接网络ManifoldLinear和流形卷积网络ManifoldConv模块，可以搭

建自己的流形复数神经网络。由于流形复数神经网络中的重要组件继承自 PyTorch，并

封装了底层实现，使得框架的使用方式和普通神经网络框架基本一致。下面我们简单展

示使用流形复数神经网络求解正交普鲁克问题

[5]

min

∥B − AC∥

s.t. C

C = I.

(1.22)

其中 A, B ∈ C

m×n

已知，C ∈ C

n×n

为待求解参数，且满足正交约束。构建的流形神经

网络仅包含一个流形全连接层，不使用偏置参数和激活函数，流形全连接层内部参数

即表示 C，由于 C 满足正交约束，所以使用 Complex Stiefel 流形对全连接层添加约束。

使用 ∥B −AC∥

作为损失函数，同时使用 Manifold RMSprop 优化器优化网络，求解示

例代码如下:

1 import ManiflodComplexNeuralNetwork as mcnn

2 import torch

4 class OPPNet(torch .nn. Module ):

5 def __init__ ( self ,n):

6 self.C = mcnn. ManifoldLinear (n, n, manifold = mcnn.ComplexStiefel , bias=False )

7 def forward(self , A,B):

8 return torch.linalg.norm ( self.C(A)-B)

10 net=OPPNet (n)

11 optimizer = mcnn . ManifoldRMSprop (net.parameters (), lr=lr)

13 for epoch in range (epoches ):

14 optimizer . zero_grad ()

15 loss=net (A,B)

16 loss. backward ()

17 optimizer . step ()

东南大学硕士学位论文

19 C=net.C.weight.T

Listing 1.1 求解正交普鲁克问题示例代码

参考文献

[1] Xu D, Yu X, Sun Y, et al. Resource allocation for secure IRS-assisted multiuser MISO systems[C]. In:

2019 IEEE Globecom Workshops (GC Wkshps). Waikoloa, USA. 2019. 1–6.

[2] Boumal N. An introduction to optimization on smooth manifolds[M].[S.l.]: United Kingdom: Cambridge

University Press, 2023: 154–173.

[3] Paszke A, Gross S, Massa F, et al. PyTorch: An Imperative Style, High-Performance Deep Learning

Library[C]. In: Advances in Neural Information Processing Systems. Vancouver Canada. 2019. 32.

[4] Tieleman T, Hinton G, et al. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent

magnitude[J]. COURSERA: Neural networks for machine learning, 2012, 4(2):26–31.

[5] Schönemann P H. A generalized solution of the orthogonal procrustes problem[J]. Psychometrika, 1966,

31(1):1–10.

参考文献 7