最优化算法复习笔记

2024-07-31

前置知识

线性组合：对于一组向量 $a_{1},\ldots,a_{n}$ ，若存在一组标量 $c_{1},\ldots,c_{n}$ 使 $a = \sum c_{i}a_{i}$ ，则称 $a$ 可由这组向量线性表示，且 $c_{1},\ldots,c_{n}$ 称为 $a$ 关于 $a_{1},\ldots,a_{n}$ 的线性组合系数。
线性相关、线性无关：对于一组向量，若能够由非全为零的系数线性表示为零向量则称为线性相关，否则称为线性无关。
张成子空间：由一组向量线性组合得到的向量集合称为张成子空间。
基、维数：若向量组线性无关且张成整个空间，则称为基，此向量组的向量个数称为维数。
秩：矩阵的秩是指矩阵的列空间的维数。
- 秩的其他定义：矩阵的行秩、列秩、左零空间、右零空间的维数……
保秩运算：TODO
矩阵的逆及其计算：若 $A$ 为可逆矩阵，则 $A^{- 1}$ 存在，且 $AA^{- 1} = A^{- 1}A = I$ 。
- 当矩阵的行列式不为零时，矩阵可逆。
线性方程组 $Ax = b$ 解的存在性理论：
解的表达方式：
- 齐次线性方程组的解： $Ax = 0$ 的解称为齐次线性方程组的解。
- 非齐次线性方程组的解： $Ax = b$ 的解称为非齐次线性方程组的解。
范数：向量空间中的范数是一个函数，其满足非负性、齐次性、三角不等式
内积：向量空间中的内积是一个函数，其满足对称性、线性性、正定性
各种范数不等式：
- 1-范数： $\| x\|_{1} = \sum|x_{i}|$
- 2-范数： $\| x\|_{2} = \sqrt{\sum x_{i}^{2}}$
- 无穷范数： $\| x\|_{\infty} = \max|x_{i}|$
线性变换：一个向量空间到另一个向量空间的映射，且满足线性性质（保持加法和数乘）。
- 线性变换意义下的特征值：对于一个线性变换 $T$ ，若存在一个非零向量 $v$ 使得 $T(v) = \lambda v$ ，则称 $\lambda$ 为 $T$ 的特征值， $v$ 为 $T$ 的特征向量。
相似变换：若存在一个可逆矩阵 $P$ 使得 $B = P^{- 1}AP$ ，则称 $A$ 和 $B$ 相似。
正交矩阵：若 $A^{T}A = I$ ，则称 $A$ 为正交矩阵。
对称矩阵：若 $A^{T} = A$ ，则称 $A$ 为对称矩阵。
正交投影算子：TODO
值域、零空间及其关系：
- 值域：线性变换 $T$ 的值域是指所有 $T(x)$ 的集合。
- 零空间：线性变换 $T$ 的零空间是指所有 $T(x) = 0$ 的集合。
- 关系：值域和零空间的维数之和等于原空间的维数。
正定二次型及其性质：若对于任意非零向量 $x$ ，都有 $x^{T}Ax > 0$ ，则称 $A$ 为正定二次型。
矩阵导出范数：对于给定的向量范数 $\| \cdot \|$ ，矩阵 $A$ 的导出范数定义为 $\| A\| = \sup\limits_{x \neq 0}\frac{\| Ax\|}{\| x\|} = \sup\limits_{\| x\| = 1}\| Ax\|$ 。
瑞利不等式：对于一个对称矩阵 $A$ ，有 $\lambda_{\min} \leq \frac{x^{T}Ax}{x^{T}x} \leq \lambda_{\max}$ 。

线搜索

求解单峰的一元单值函数在闭区间上的最小值。

黄金分割法

将区间 $\lbrack a,b\rbrack$ 分成三份，切分点（比例）为 $\lbrack 0,\lambda,\mu,1\rbrack$ ，其中 $\lambda = 1 - \mu$ ， $\frac{\mu}{1} = \frac{\lambda}{\mu}$ ，每次选择 $\lbrack 0,\mu\rbrack$ 或 $\lbrack\lambda,1\rbrack$ 作为新的区间，且只需要计算一个新的切分点。

计算可得 $\lambda = \frac{\sqrt{5} - 1}{2} \approx 0.618$ ， $\mu = 1 - \lambda \approx 0.382$ 。

记第 $k$ 步时两侧区间的长度占比为 $\rho_{k}$ ，那么满足 $\rho_{k + 1}\left( 1 - \rho_{k} \right) = 1 - 2\rho_{k}$ 时，其压缩率为 $\prod 1 - \rho_{k}$ 。当 $\rho_{k} = \frac{3 - \sqrt{5}}{2}$ 时，则为上面提到的黄金分割点，而若 $\rho_{k} = 1 - \frac{F_{N - k + 1}}{F_{N - k + 2}}$ （其中 $F_{i}$ 为斐波那契数列）时，其压缩率为 $\frac{1}{F_{N + 1}}$ ，总压缩比比黄金分割法更小。

二分法

将区间 $\lbrack a,b\rbrack$ 分成两份，每次选择中点 $c = \frac{a + b}{2}$ 作为新的区间的一端，通过 $f^{\prime}(c)$ 的符号来确定新的区间。

需要一阶导数，每一步的压缩比为 $\frac{1}{2}$ 。

牛顿法、割线法

二阶泰勒逼近： $q(x) = f\left( x_{k} \right) + f^{\prime}\left( x_{k} \right)\left( x - x_{k} \right) + \frac{1}{2}f^{\prime\prime}\left( x_{k} \right)\left( x - x_{k} \right)^{2}$

取 $q(x)$ 的极小值点作为下一个迭代点,即 $\underline{q^{\prime}\left( x_{k + 1} \right) = 0} \Rightarrow x_{k + 1} = x_{k} - \frac{f^{\prime}\left( x_{k} \right)}{f^{\prime\prime}\left( x_{k} \right)}$ 。

当 $f^{\prime\prime}\left( x_{k} \right) > 0$ 时，牛顿法可以正常运行；如果在一些点处 $\underline{f^{\prime\prime}\left( x_{k} \right) < 0}$ ，则可能会出现收敛到极大点的情况。

割线法是牛顿法的一种变形，即用 $f^{\prime\prime}\left( x_{k} \right) \approx \frac{f^{\prime}\left( x_{k} \right) - f^{\prime}\left( x_{k - 1} \right)}{x_{k} - x_{k - 1}}$ 来代替二阶导数。此方法需要两个初始点，但只需要一阶导数。

这两种方法还可以用于计算 $g(x) = 0$ 的根（ $q\left( x_{k + 1} \right) = 0 \Rightarrow x_{k + 1} = x_{k} - \frac{g\left( x_{k} \right)}{g^{\prime}\left( x_{k} \right)}$ ），也被称为牛顿割线法。

信赖域

TODO

无约束优化

通用格式： $x_{k + 1} = x_{k} + \alpha_{k}p_{k}$ ，其中 $p_{k}$ 为搜索方向， $\alpha_{k}$ 为步长。

梯度下降法

搜索方向： $p_{k} = - \nabla f\left( x_{k} \right)$

最速下降法： $\alpha_{k} = \text{ argmin}_{\alpha \geq 0}f\left( x_{k} + \alpha p_{k} \right)$
对于最速下降法，只要 $\nabla f\left( x_{k} \right) \neq 0$ ，则 $f\left( x_{k + 1} \right) < f\left( x_{k} \right)$ 。

牛顿法

将 $f:{\mathbb{R}}^{n} \rightarrow {\mathbb{R}}$ 在 $x_{k}$ 处进行二阶泰勒展开，得到 $q(x) = f\left( x_{k} \right) + \nabla{f\left( x_{k} \right)}^{\top}\left( x - x_{k} \right) + \frac{1}{2}\left( x - x_{k} \right)^{\top}H\left( x_{k} \right)\left( x - x_{k} \right)$ ，其中 $H\left( x_{k} \right)$ 为 $f$ 在 $x_{k}$ 处的海森矩阵。若 $H\left( x_{k} \right)$ 正定，则 $q(x)$ 有唯一极小值点，即 $x_{k + 1} = x_{k} - {H\left( x_{k} \right)}^{- 1}\nabla f\left( x_{k} \right)$

实际求解时，可以用 $H\left( x_{k} \right)p_{k} = - \nabla f\left( x_{k} \right)$ 来求解 $p_{k}$ ，然后用 $x_{k + 1} = x_{k} + p_{k}$ 来求解 $x_{k + 1}$ 。

共轭梯度法

共轭方向

$Q$ 是一个对称实矩阵，若 $p_{i}^{\top}Qp_{j} = 0(i \neq j)$ ，则称 $p_{1},\ldots,p_{n}$ 为 $Q$ 关于 $Q$ 共轭。

克莱姆-施密特过程构造共轭方向

给定一组 ${\mathbb{R}}^{n}$ 的线性无关向量 $a_{1},\ldots,a_{n}$ ，可以通过以下过程得到一组关于对称正定矩阵 $Q$ 共轭的向量 $p_{1},\ldots,p_{n}$ ：

$p_{1} = a_{1}$
$p_{k + 1} = a_{k + 1} - \sum_{i = 1}^{k}\left( a_{k + 1}^{\top}Qp_{i} \right)\frac{p_{i}}{p_{i}^{\top}Qp_{i}}$

矩阵特征值分解构造共轭方向

若 $Q$ 为对称正定矩阵，且 $Q = P\Lambda P^{- 1}$ ，则 $p_{i} = Pe_{i}$ 为 $Q$ 关于 $Q$ 共轭的向量。

共轭梯度法的步长与方向的推导

设 $x^{\ast} - x_{0} = \sum_{i = 0}^{n - 1}\beta_{i}d_{i}$ ，两端同时乘以 $d_{k}^{\top}Q$ 可以得到 $d_{k}^{\top}Q\left( x^{\ast} - x_{0} \right) = \beta_{k}d_{k}^{\top}Qd_{k}$ （共轭的性质），因此 $\beta_{k} = \frac{d_{k}^{\top}Q\left( x^{\ast} - x_{0} \right)}{d_{k}^{\top}Qd_{k}}$

考虑第 $k$ 步： $\begin{array}{r} x^{\ast} - x_{0} = x^{\ast} - x_{k} + \left( x_{k} - x_{0} \right) \\ \Rightarrow d_{k}^{\top}Q\left( x^{\ast} - x_{0} \right) = d_{k}^{\top}Q\left( x^{\ast} - x_{k} \right) \end{array}$

由于 $\nabla f(x) = Qx - b$ ， $\nabla f\left( x_{k} \right) = \nabla f\left( x_{k} \right) - \nabla f\left( x^{\ast} \right) = Q\left( x_{k} - x^{\ast} \right)$ ，则综合这两个子式可以得到 $d_{k}^{\top}Q\left( x^{\ast} - x_{0} \right) = d_{k}^{\top}Q\left( x^{\ast} - x_{k} \right) = d_{k}^{\top}\left( - \nabla f\left( x_{k} \right) \right)$ ，即 $\beta_{k} = \frac{- d_{k}^{\top}\nabla f\left( x_{k} \right)}{d_{k}^{\top}Qd_{k}}$

考虑到 $d_{k}$ 一般通过迭代得到。 $d_{k}$ 需要满足与之前的 $d_{i}$ 宫娥与 $d_{k} = \text{ span}\left( d_{k - 1},\nabla f\left( x_{k} \right) \right)$ 两个条件（后者的原因可能就是“共轭梯度法”这个名字的来源吧），因此设 $d_{k} = \beta_{k}d_{k - 1} - \nabla f\left( x_{k} \right)$ ，因为共轭，有 $d_{k - 1}^{\top}Qd_{k} = \beta_{k}d_{k - 1}^{\top}Qd_{k - 1} - d_{k - 1}^{\top}Q\nabla f\left( x_{k} \right) \Rightarrow \beta_{k} = \ldots$

拟牛顿法

在牛顿法中 $x_{k} = x_{k - 1} - {H\left( x_{k - 1} \right)}^{- 1}\nabla f\left( x_{k - 1} \right)$ 中，每一步都要计算 ${H\left( x_{k - 1} \right)}^{- 1}$ ，而拟牛顿法通过近似 $H\left( x_{k - 1} \right)$ 或者它的逆来减少计算量，即 $B_{k} \approx H\left( x_{k - 1} \right)$ 或 $H_{k} \approx {H\left( x_{k - 1} \right)}^{- 1}$ 。

$f^{\prime\prime}\left( x_{k} \right) \approx \frac{f^{\prime}\left( x_{k} \right) - f^{\prime}\left( x_{k - 1} \right)}{x_{k} - x_{k - 1}} \Rightarrow f^{\prime}\left( x_{k - 1} \right) \approx f^{\prime}\left( x_{k} \right) + f^{\prime\prime}\left( x_{k} \right)\left( x_{k - 1} - x_{k} \right)$

记 $\Delta g_{k} = \nabla f\left( x_{k - 1} \right) - \nabla f\left( x_{k} \right),\Delta x_{k} = x_{k - 1} - x_{k}$ （好扭曲的符号……），则上式简记为 $\left( \nabla^{2}f\left( x_{k} \right) \right)^{- 1}\Delta g_{k - 1} = \Delta x_{k - 1}$ ，即 $H_{k}\Delta g_{k - 1} = \Delta x_{k - 1}$ 。

通常希望 $H_{k}$ 满足：对称正定、迭代计算量少、近似效果好。

SR1

$\begin{cases} H_{k + 1}\Delta g_{k} = \Delta x \\ H_{k + 1} = H_{k} + auu^{\top} \end{cases}$

代入得 $\left( H_{k} + auu^{\top} \right)\Delta g_{k} = \Delta x_{k} = H_{k}\Delta g_{k} + auu^{\top}\Delta g_{k}$ ，即 $au^{\top}\Delta g_{k}u = \Delta x_{k}u - H_{k}\Delta g_{k}u$ 。注意到 $au^{\top}\Delta g_{k}$ 是一个标量，不妨让它等于 $1$ ，则 $u$ 与 $a$ 依次可以解出。

公式太长，这里不放。

DFP

思想和上面类似，只不过变成了秩二修正，即 $H_{k + 1} = H_{k} + auu^{\top} + bvv^{\top}$ 。

同样代入得到 $au^{\top}\Delta g_{k}u + bv^{\top}\Delta g_{k}v = \Delta x_{k} - H_{k}\Delta g_{k}$

一个简单的解为 $u = \Delta x_{k},v = H_{k}\Delta g_{k}$ 。

公式太长，还是不放。

BFGS

思想和上面类似，只不过变成了估计 $\nabla^{2}f\left( x_{k} \right)$ ，即 $B_{k + 1} = B_{k} + auu^{\top} + bvv^{\top}$ 。

这下代入的应该是 $B_{k}\Delta x_{k} = \Delta g_{k}$ 了，即 $au^{\top}\Delta x_{k}u + bv^{\top}\Delta x_{k}v = \Delta g_{k} - B_{k}\Delta x_{k}$

与 DFP 非常对称。

Sherman-Morrison 公式

对于一个矩阵 $A$ ，若 $A + uv^{\top}$ 可逆，则有 $\left( A + uv^{\top} \right)^{- 1} = A^{- 1} - \frac{A^{- 1}uv^{\top}A^{- 1}}{1 + v^{\top}A^{- 1}u}$ 。

线性规划

标准型与松弛

$\begin{aligned} \text{ minimize } & c^{\top}x \\ \text{s.t. } & Ax = b \geq 0 \\ & x \geq 0 \end{aligned}$

化标准型方法：

$\max f(x) \Rightarrow \min - f(x)$
$x \leq c \Rightarrow x + x^{\prime} = c,x^{\prime} \geq 0$ （松弛）
$ax = b < 0 \Rightarrow - ax = - b$
$x \in {\mathbb{R}} \Rightarrow x = x^{\prime} - x^{\prime\prime},x^{\prime},x^{\prime\prime} \geq 0$ （非负拆分）

设 $A \in {\mathbb{R}}_{m \times n}$ ，其中 $m < n$ ，于是进行列重排，使得 $A = \lbrack B,D\rbrack,B \in {\mathbb{R}}_{m \times m}$ ，于是存在一个解 $x^{\top} = \left\lbrack B^{- 1}b;0 \right\rbrack$ ，被称为基本解； $B$ 的列被称为基本列， $x_{B} = B^{- 1}b$ 被称为基本变量。

注：若 $x_{B}$ 中有零值，则被称为退化的基本解。若某个可行解为（退化的）基本解，则称为（退化的）基本可行解。

单纯形法

基本思想：从一个基本可行解出发，通过改变基本变量，使得目标函数值逐渐减小，直到找到最优解。

当将 $A$ 划分为 $\left\lbrack B~|~D \right\rbrack$ 后，目标函数值就可以表达为 $z = c_{B}^{\top}B^{- 1}b + \left( c_{D}^{\top} - c_{B}^{\top}B^{- 1}D \right)x_{D}$ ，其中定义 $r_{D} = c_{D}^{\top} - c_{B}^{\top}B^{- 1}D$ 。由于 $x \geq 0$ ，因此若 $r_{D} \geq 0$ ，则有最优解 $x = \left\lbrack B^{- 1}b;0 \right\rbrack$ ，否则将 $r_{D}$ 中的一个负值对应的列加入基本列，然后通过高斯消元法来求解新的基本解。

单纯形法的矩阵形式

$\begin{pmatrix} B & D & b \\ c_{B}^{\top} & c_{D}^{\top} & 0 \end{pmatrix} \Rightarrow \begin{pmatrix} I & B^{- 1}D & B^{- 1}b \\ 0 & c_{D}^{\top} - c_{B}^{\top}B^{- 1}D & - c_{B}^{\top}B^{- 1}b \end{pmatrix} = \begin{pmatrix} I & B^{- 1}D & B^{- 1}b \\ 0 & r_{D}^{\top} & - z_{0} \end{pmatrix}$

若 $r_{D} \geq 0$ ，则找到最优解 $x = \left\lbrack B^{- 1}b;0 \right\rbrack$ ，此时 $z = z_{0}$
否则，选择最小的 $r_{D}$ 中的元素 $r_{D_{j}}$ ，然后进行转轴运算。

转轴元素的选取

在选好列 $l$ 后，由于 $b^{\prime}_{i} = b_{i} - \frac{b_{k}}{a_{kl}}a_{il}$ ，所以希望 $\frac{b_{k}}{a_{k_{l}}}$ 最小。

初始解的选择——二阶段法

$\min c^{\top}x \Rightarrow \min y_{1} + \ldots + y_{m}$ $\left\lbrack A~|~I \right\rbrack\lbrack x;y\rbrack = b,x,y \geq 0$

若这个问题的最优解对应函数值为 $z > 0$ ，则原问题无解
若解中存在 $y_{i} > 0$ ，则
- 若 $y_{i}$ 所在行的 $A$ 部分的所有元素均为零，则 $y_{i}$ 为冗余约束，可以将其去掉
- 否则以任意一个非零的 $y_{i}$ 所在行的 $A$ 部分的元素进行转轴操作
若解中不存在 $y_{i} > 0$ ，则将 $y_{i}$ 所在列删去，直至得到一个原问题的基本可行解，此时再替换 $c$

大 M 法

$\begin{cases} \min c^{\top}x \\ Ax = b \\ x \geq 0 \end{cases} \Rightarrow \begin{cases} \min c^{\top}x + M\sum y_{i} \\ Ax\underline{+ y} = b \\ x,y \geq 0 \end{cases}$

将 $M$ 代入一个无穷大的数处理即可。

具体在应用这些方法时，只需要能够构造出可行解即可，即：在 $A$ 中有只包含 1 个 $1$ 的列时，不需要严格构造 $m$ 个 $y$ 。

整数规划

割平面法

原理：通过增加约束条件，把由单纯形法得到的非整数解从可行集中去除掉。新增的约束条件不去除可行集中的整数解。不断增加约束条件，直到得到一个整数最优解。

分支定界法

原理：将整数规划问题松弛，若解包含非整数分量 $x_{i} = x^{\ast}$ ，则分为两个问题： $x_{i} \leq \left\lfloor x^{\ast} \right\rfloor$ 与 $x_{i} \geq \left\lfloor x^{\ast} \right\rfloor + 1$ ，然后递归求解。

约束优化

等式约束

$\min f(x)\quad\text{ s.t. }h(x) = 0$

其中 $x \in {\mathbb{R}}^{n},f:{\mathbb{R}}^{n} \rightarrow {\mathbb{R}},h:{\mathbb{R}}^{n} \rightarrow {\mathbb{R}}^{m},m \leq n$

正则点：若 $h_{i\left( x^{\ast} \right)} = 0,\nabla h_{i}\left( x^{\ast} \right)$ 线性无关，则 $x^{\ast}$ 为正则点。 $x^{\ast}$ 为正则点 $\Leftrightarrow R\left( \nabla h\left( x^{\ast} \right) \right) = m$

切线空间 $T\left( x^{\ast} \right) = \left\{ y:\nabla{h\left( x^{\ast} \right)}^{\top}y = 0 \right\}$ ，法线空间 $N\left( x^{\ast} \right) = \text{ span}\left( \nabla h\left( x^{\ast} \right) \right)$

Lagrange 函数

选择点 $x^{\ast}$ 使得 $h\left( x^{\ast} \right) = 0,\nabla h\left( x^{\ast} \right) \neq 0$ ，过 $x^{\ast}$ 的水平集 $x(t),t \in (a,b)$ 有 $x^{\ast} = x\left( t^{\ast} \right),\forall t,h\left( x(t) \right) = 0$ ，则 $\frac{d}{dt}h\left( x(t) \right) = \left( \nabla h(x) \right)^{\top}\dot{x}(t) = 0$ 。若 $x^{\ast}$ 为 $f(x)$ 在 $\left\{ x:h(x) = 0 \right\}$ 上的极小点，则同理可得 $\nabla f\left( x^{\ast} \right)$ 与 $\dot{x}(t)$ 也正交。

（一阶必要条件）综上：若 $x^{\ast}$ 为等式约束的极值点，则 $\nabla f\left( x^{\ast} \right)$ 与 $\nabla h\left( x^{\ast} \right)$ 平行，即 $\exists\lambda^{\ast}\text{ s.t. }\nabla f\left( x^{\ast} \right) + \left( \lambda^{\ast} \right)^{\top}\nabla h\left( x^{\ast} \right) = 0,\quad h\left( x^{\ast} \right) = 0$

（Lagrange 函数）定义 $l(x;\lambda) = f(x) + \lambda^{\top}h(x)$ 则一阶的两个必要条件可以写成 $\nabla l\left( x^{\ast};\lambda^{\ast} \right) = 0$

（二阶必要条件）若正则点 $x^{\ast}$ 为等式约束的极小点，则存在 $\lambda^{\ast}$ 使得一阶条件满足且 $\nabla^{2}l\left( x^{\ast};\lambda^{\ast} \right)$ 在切线空间 $T\left( x^{\ast} \right)$ 上半正定（ $\forall y \in T\left( x^{\ast} \right),y^{\top}\nabla^{2}l\left( x^{\ast};\lambda^{\ast} \right)y \geq 0$ ）

不等式约束

$\min f(x)\quad\text{ s.t. }h(x) = 0,g(x) \leq 0$

其中 $x \in {\mathbb{R}}^{n},f:{\mathbb{R}}^{n} \rightarrow {\mathbb{R}},h:{\mathbb{R}}^{n} \rightarrow {\mathbb{R}}^{m},g:{\mathbb{R}}^{n} \rightarrow {\mathbb{R}}^{p},m \leq n$

积极/非积极约束、正则点

对于一个不等式约束 $g_{i}(x) \leq 0$ ，若在 $x^{\ast}$ 处 $g_{i}\left( x^{\ast} \right) = 0$ ，则称 $g_{i}\left( x^{\ast} \right)$ 为积极约束；若 $g_{i}\left( x^{\ast} \right) < 0$ ，则称 $g_{i}\left( x^{\ast} \right)$ 为非积极约束。

等式约束总是积极约束。

若 $x^{\ast}$ 满足所有约束条件 $J\left( x^{\ast} \right) \triangleq \left\{ j:g_{j}\left( x^{\ast} \right) = 0 \right\}$ 如果 $\nabla h_{i}\left( x^{\ast} \right),\nabla g_{j}\left( x^{\ast} \right),1 \leq j \leq m,j \in J\left( x^{\ast} \right)$ （所有积极约束）线性无关，则称 $x^{\ast}$ 为正则点。

KKT 条件

$\min f(x)\quad\text{ s.t. }h(x) = 0,g(x) \leq 0$

原始可行性： $h\left( x^{\ast} \right) = 0,g\left( x^{\ast} \right) \leq 0$
对偶可行性： $\mu^{\ast} \geq 0$
互补松弛条件： $\mu^{\ast}g\left( x^{\ast} \right) = 0$
原始最优性： $\nabla f\left( x^{\ast} \right) + \left( \lambda^{\ast} \right)^{\top}\nabla h\left( x^{\ast} \right) + \left( \mu^{\ast} \right)^{\top}\nabla g\left( x^{\ast} \right) = 0$

注意 $\mu \gtreqless 0$ 与 $g(x) \gtreqless 0$

对偶可行性

当约束条件为 $g_{j(x)} \leq 0$ 时，可行集的方向为 $- \nabla g_{j}(x)$ ，因此要使得 $x^{\ast}$ 为最优解，需要 $\nabla f\left( x^{\ast} \right) = - \sum\mu_{j}^{\ast}\nabla g_{j}\left( x^{\ast} \right),\mu^{\ast} \geq 0$

互补松弛条件

$\mu_{j}g_{j}\left( x^{\ast} \right) = 0$ 说明了对于每个约束：

若为积极约束，则约束体现在原始最优性中
若为非积极约束，此约束不应该对最优解产生影响（即不约束 $\nabla f\left( x^{\ast} \right)$ 的方向）

二阶必要条件

$L(x,\lambda,\mu) = \nabla^{2}f(x) + \lambda^{\top}\nabla^{2}h(x) + \mu^{\top}\nabla^{2}g(x)$

若 $x^{\ast}$ 为正则点，则极小值的二阶必要条件为：存在 $\lambda^{\ast},\mu^{\ast}$ 使得在满足一阶 KKT 条件的情况下，对于所有 $y \in T\left( x^{\ast} \right)$ 有 $y^{\top}L\left( x^{\ast},\lambda^{\ast},\mu^{\ast} \right)y \geq 0$

拉格朗日对偶

$l(x;\lambda,\mu) = f(x) + \lambda^{\top}h(x) + \mu^{\top}g(x)$

原问题为 $\min f(x)\quad\text{ s.t. }h(x) = 0,g(x) \leq 0$ ，因此 $l(x;\lambda,\mu) \leq f(x)$ ，代入最优解 $x^{\ast}$ 有 $l\left( x^{\ast};\lambda^{\ast},\mu^{\ast} \right) \leq f\left( x^{\ast} \right)$ ，自然有 $\max l\left( x^{\ast};\lambda^{\ast},\mu^{\ast} \right) \leq f\left( x^{\ast} \right)$ ，因此可以定义拉格朗日对偶函数 $g(\lambda,\mu) = \max l(x;\lambda,\mu)$

弱对偶性

由上面的推导可知， $g\left( \lambda^{\ast},\mu^{\ast} \right) \leq f\left( x^{\ast} \right)$ ，这被称为弱对偶性。

最大值中的最小值大于等于最小值中的最大值

强对偶性

若可行解 $x^{\ast},\lambda^{\ast},\mu^{\ast}$ 满足 $g\left( \lambda^{\ast},\mu^{\ast} \right) = f\left( x^{\ast} \right)$ ，则 $x^{\ast}$ 为原问题的最优解， $\lambda^{\ast},\mu^{\ast}$ 为对偶问题的最优解，这被称为强对偶性。

拉格朗日函数 $l(x;\lambda,\mu)$ 存在鞍点当且仅当强对偶性成立。

Slater 条件：若存在一个 $x$ 使得 $h(x) = 0,g(x) < 0$ ，则强对偶性成立。（反之不一定成立）

线性规划的例子

$\begin{array}{r} \min c^{\top}x \\ \text{s.t. }Ax = b,x \geq 0 \end{array}$

得到 $l(x;\lambda) = c^{\top}x + \lambda^{\top}(Ax - b)$ ，原始问题为 $\min\limits_{x}\max\limits_{\lambda}l(x;\lambda)$ ，对偶问题为 $\max\limits_{\lambda}\min\limits_{x}l(x;\lambda)$ 。令 $g(\lambda) = \min\limits_{x}l(x;\lambda) = \min\limits_{x}\left( \left( c^{\top} + \lambda^{\top}A \right)x - \lambda^{\top}b \right)$ 则对偶问题为 $\max\limits_{\lambda}g(\lambda)$ 。

因为 $x \geq 0$ ，所以如果 $c^{\top} + \lambda^{\top}A$ 的某个分量为负，则 $g(\lambda)$ 可以取到 $- \infty$ ；因此需要 $c^{\top} + \lambda^{\top}A \geq 0$ ，此时 $g(\lambda) = - \lambda^{\top}b$ ，因此对偶问题为 $\max\limits_{\lambda} - \lambda^{\top}b\quad\text{ s.t. }c^{\top} \geq - \lambda^{\top}A$

或： $\min\limits_{\lambda}\lambda^{\top}b\text{ s.t. }\lambda^{\top}A \leq c$

凸优化

函数图像： $\text{epi}(f) = \left\{ \lbrack x;t\rbrack:x \in \Omega,t \geq f(x) \right\}$
凸函数：若 $\text{epi}(f)$ 为凸集，则称 $f$ 为凸函数
凸集：若对于任意 $x,y \in C,0 \leq \lambda \leq 1$ ，有 $\lambda x + (1 - \lambda)y \in C$ ，则称 $C$ 为凸集
广义梯度：对于凸函数 $f$ ，定义 $\nabla f(x) = \left\{ g:f(y) \geq f(x) + g^{\top}(y - x),\forall y \right\}$ （在 $x$ 处能够“包住”整个函数的切线集合，类似全空间减去一个椎体）
- 定义在开凸集上的二阶连续函数：凸函数 $\Leftrightarrow$ $\nabla^{2}f(x)$ 半正定（凹函数：半负定）
保凸性质：线性组合、求上确界……

凸优化问题的性质

局部最优解 $\Leftrightarrow$ 全局最优解
全局极小条件：若 $x^{\ast}$ 满足对任意可行方向 $d$ ，有 $d^{\top}\nabla f\left( x^{\ast} \right) \geq 0$ ，则 $x^{\ast}$ 为全局极小点
拉格朗日条件、KKT 条件在凸优化问题中是充分条件

投影方法

约束问题 $\min f(x)\text{ s.t. }x \in \Omega$ 用无约束优化迭代格式 $x_{k + 1} = x_{k} + \alpha_{k}d_{k}$ 来求解可能会导致迭代点不在可行域内，因此需要投影方法来保证迭代点在可行域内。

投影：设 $\Omega$ 为非空闭凸集， $\forall x \in {\mathbb{R}}^{n}$ ，定义其在 $\Omega$ 上的投影为 $\prod(x) = \text{ argmin}_{z \in \Omega}\| x - z\|$

$\Omega$ 为非空闭凸集时，投影存在且唯一
投影是非扩张的： $\|\prod(x) - \prod(y)\| \leq \| x - y\|$

投影方法： $x_{k + 1} = \prod(x_{k} + \alpha_{k}d_{k})$

简单集合的投影表达式

箱形约束： $\Omega = \left\{ x \in {\mathbb{R}}^{n}:l \leq x \leq u \right\}$ ，则 $\prod(x) = \text{ median}(l,x,u)$
球形约束： $\Omega = \left\{ x \in {\mathbb{R}}^{n}:\| x\| \leq r \right\}$ ，则 $\prod(x) = \min(1,\frac{r}{\| x\|})x$

拉格朗日法

约束问题 $\min f(x)\text{ s.t. }h(x) = 0,g(x) \leq 0$ 的拉格朗日函数为 $l(x;\lambda,\mu) = f(x) + \lambda^{\top}h(x) + \mu^{\top}g(x)$

$\begin{array}{r} x_{k + 1} = x_{k} - \alpha_{k}\nabla_{x}l\left( x_{k};\lambda_{k},\mu_{k} \right) \\ \lambda_{k + 1} = \lambda_{k} + \beta_{k}h\left( x_{k} \right) \\ \mu_{k + 1} = \left\lbrack \mu_{k} + \gamma_{k}g\left( x_{k} \right) \right\rbrack_{+} \end{array}$

罚函数法

约束问题 $\min f(x)\text{ s.t. }x \in \Omega$ 等价于无约束问题 $\min f(x) + \iota_{\Omega}(x)$ ，其中 $\iota_{\Omega}(x)$ 为指示函数，定义为 $\iota_{\Omega}(x) = \begin{cases} 0, & \quad\text{ if }x \in \Omega \\ + \infty, & \quad\text{ otherwise} \end{cases}$

一般使用 $\gamma P(x)$ 近似指示函数，其中 $\gamma$ 称为罚因子， $P(x)$ 称为罚函数。

罚函数一般满足：

连续
$P(x) = 0 \Leftrightarrow x \in \Omega$
$P(x) \geq 0$

约束优化的罚函数：

精确罚函数： $P(x) = |h(x)| + |g^{+ (x)}|$
二次罚函数： $P(x) = \| h(x)\|^{2} + \| g^{+ (x)}\|^{2}$

增广拉格朗日法

相当于 $\min f(x) + \gamma(\| h(x)\|^{2} + \| g^{+ (x)}\|^{2})\text{ s.t. }h(x) = 0,g(x) \leq 0$

增广拉格朗日函数： $l(x;\lambda,\mu,\gamma) = f(x) + \lambda^{\top}h(x) + \mu^{\top}g(x) + \gamma(\| h(x)\|^{2} + \| g^{+ (x)}\|^{2}),\mu \geq 0$

迭代格式：

$x_{k + 1} = \text{ argmin}_{x}l\left( x;\lambda_{k},\mu_{k},\gamma \right)$
$\lambda_{k + 1} = \lambda_{k} + \gamma h\left( x_{k} \right)$
$\mu_{k + 1} = \left\lbrack \mu_{k} + \gamma g^{+ \left( x_{k} \right)} \right\rbrack_{+}$

多目标优化（了解）

多目标优化：具有多个目标函数的优化问题，通常是多个目标函数之间存在矛盾，无法同时优化。

Pareto 最优解

定义：若 $x^{\ast}$ 为 Pareto 最优解，则不存在 $x$ 使得 $f(x) \leq f\left( x^{\ast} \right)$ 且 $f(x) \neq f\left( x^{\ast} \right)$ 。

求解过程：维护一个 Pareto 集合，对任意候选解：

若其受到 Pareto 集合中某个解的支配，则舍弃
若其支配 Pareto 集合中某个解，则删除被支配的解，且加入该解
否则加入 Pareto 集合

转换为单目标优化

线性加权法： $f^{\prime}(x) = c^{\top}f(x),c > 0$ ，但是 $c$ 的选择是一个问题
极小极大法： $f^{\prime}(x) = \max\limits_{i}f_{i}(x)$ ，但是分量函数需要兼容（即：单位一致），且可能 $f^{\prime}(x)$ 不可微分
范数法：若目标向量全部非负，则 $f^{\prime}(x) = \| f(x)\|_{2}$
转化为约束问题：选择一个 $i$ ，问题转化为 $\min f_{i}(x)\text{ s.t. }\forall j \neq i,f_{j}(x) \leq b_{j}$ ，需要先确定一个期望

unimplemented: 不确定的线性规划