最优化问题概括¶

最优化问题通常需要对实际需求进行定性和定量分析
- 建立恰当的数学模型来描述该问题
- 设计合适的计算方法来寻找问题的最优解
- 探索研究模型和算法的理论性质
- 考察算法的计算性能等
泛指定量决策问题
- 主要关心如何对有限资源进行有效分配和控制
- 并达到某种意义上的最优
很多数学问题难以直接给出显式解，最优化模型就成为人们最常见的选择

最优化问题的一般形式¶

$min\ \ f(x), \\ s.t.\ \ x \in \chi \tag{1.1.1}$

其中：

$x=(x_1,x_2,\cdots,x_n)^T \in \mathbb{R}^n$ 是决策变量

$f: \mathbb{R}^n \rightarrow \mathbb{R}$ 是目标函数

$\chi \subseteq \mathbb{R}^n$ 是约束集合或可行域，可行域包含的点，称为可行解或可行点，记号：$s.t.$ 是 $subject\ to$ 的缩写，专指约束条件

当 $\chi = \mathbb{R}^n$ 时，问题 $(1.1.1)$ 称为无约束优化问题

集合 $\chi$

约束函数 $c_i(x):\mathbb{R}^n \rightarrow \mathbb{R},\ \ i=1,2,\cdots,m+1$

具体形式：

$\chi = \{ x \in \mathbb{R}^n |\ c_i(x) \leq 0, i=1,2,\cdots,m, \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ c_i(x)=0,i=m+1,m+2,\cdots,m+l \}$

在所有满足约束条件的决策变量中，使目标函数取最小值的变量 $x^{*}$ 称为优化问题 $(1.1.1)$ 的最优解，即对任意 $x \in \chi$ 都有 $f(x) \geq f(x^{*})$

如果我们求解在约束集合 $\chi$ 上目标函数 $f(x)$ 的最大值，则问题 $(1.1.1)$ 的“$min$”替换为“$max$”．

当目标函数的最小 (最大）值不存在时，我们便关心其下（上）确界，即将问题 $(1.1.1)$ 中的“$min(max)$”改为“$inf(sup)$”。

最优化问题的类型与应用背景¶

分类
- 按照目标函数和约束函数的形式来分
  - 当目标函数和约束函数均为线性函数时，问题 $(1.1.1)$ 称为线性规划
  - 当目标函数和约束函数中至少有一个为非线性函数时，相应的问题称为非线性规划
  - 如果目标函数是二次函数而约束函数是线性函数则称为二次规划
  - 包含非光滑函数的问题称为非光滑优化
  - 不能直接求导数的问题称为无导数优化
  - 变量只能取整数的问题称为整数规划
  - 在线性约束下极小化关于半正定矩阵的线性函数的问题称为半定规划，其广义形式为锥规划
- 按照最优解的性质来分
  - 最优解只有少量非零元素的问题称为稀疏优化
  - 最优解是低秩矩阵的问题称为低秩矩阵优化
  - 此外还有几何优化、二次锥规划、张量优化、鲁棒优化、全局优化、组合优化、网络规划、随机优化、动态规划、带微分方程约束优化、微分流形约束优化、分布式优化等
- 就具体应用而言
  - 问题 $(1.1.1)$ 可涵盖统计学习、压缩感知、最优运输、信号处理、图像处理、机器学习、强化学习、模式识别、金融工程、电力系统等领域的优化模型

在投资组合优化中，人们希望通过寻求最优的投资组合以降低风险、提高收益
- 这时决策变量 $x_i$ 表示在第 $i$ 项资产上的投资额
- 向量 $x ∈ R^n$ 表示整体的投资分配
- 约束条件可能为总资金数、每项资产的最大（最小）投资额、最低收益等
- 目标函数通常是某种风险度量
- 如果是极小化收益的方差，则该问题是典型的二次规划；
- 如果是极小化风险价值 (value at risk) 函数，则该问题是混合整数规划；
- 如果极小化条件风险价值（conditional value at risk) 函数，则该问题是非光滑优化，也可以进一步化成线性规划

实例：稀疏优化¶

这类技术广泛应用于压缩感知 $（compressive\ sensing）$，即通过部分信息恢复全部信息的解决方案
- 真正有用的解是所谓的“稀疏解”，即原始信号中有较多的零元素．如果加上稀疏性这一先验信息，且矩阵 $A$ 以及原问题的解 $u$ 满足某些条件，那么我们可以通过求解稀疏优化问题把 $u$ 与方程组 $(1.2.1)$ 的其他解区别开

线性方程组求解问题：

$$Ax=b \tag{1.2.1}$$

其中，向量 $x \in \mathbb{R}^n, b\in \mathbb{R}^m$，矩阵 $A\in \mathbb{R}^{m\times n}$

且向量 $b$ 的维数远小于向量 $x$ 的维数，即 $m\ll n$

由于 $m \ll n$，方程组 $(1.2.1)$ 是欠定的，因此存在无穷多个解

在自然科学和工程中常常遇到已知向量 $b$ 和矩阵 $A$，想要重构向量 $x$ 的问题

$\color{red}{tips}:$

由若干个偏微分方程所构成的等式组就称为偏微分方程组，其未知函数也可以是若干个。
- 当方程的个数少于未知函数的个数时，就称为欠定的。
- 当方程的个数超过未知函数的个数时，就称这偏微分方程组为超定的。

$\color{red}{tips}:$

正态分布 $（Normal\ distribution）$，也称“常态分布”，又名高斯分布 $（Gaussian\ distribution）$
- 最早由棣莫弗 $（Abraham\ de\ Moivre）$ 在求二项分布的渐近公式中得到。
- $C.F.$高斯在研究测量误差时从另一个角度导出了它。
- $P.S.$拉普拉斯和高斯研究了它的性质。
- 正态分布是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。
- 正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。
若随机变量 $X$ 服从一个数学期望(均值)为 $μ$、方差为 $σ^2$ 的正态分布，记为 $N(μ，σ^2)$。
- 其概率密度函数为正态分布的期望值 $μ$ 决定了其位置，
- 其标准差 $σ$ 决定了分布的幅度。
- 当 $μ = 0,σ = 1$ 时的正态分布是标准正态分布。

$\color{red}{tips}:$

什么是显式解，隐式解？
- 显式解和隐式解是指方程求解之后的表达式的两种表达方式
- 显式解就是指方程的解可以用 $y=2x+3$ 等形式表示，即要求解的未知量单独放在方程的左边，右边均为已知的字母和常数。
- 隐式解恰恰相反，即要求解的未知量没有单独的拿出来放在方程的一边
  - 在这种情况下，方程往往是比较复杂的
  - 如果用显式解表达会显得十分复杂，或者根本无法用显示解表达
  - 如 $x^2+y^3=10$ 这种解的表达式
    - 未知量和已知量均放在一边。

$\color{red}{tips}:$

$NP(Non-deterministic\ Polynomial)-Hard$ 问题
- $P\ Problem$: 对于任意的输入规模 n nn，问题都可以在 n nn 的多项式时间内得到解决；
- $NP(Non-deterministic\ Polynomial)\ Problem$: 可以在多项式的时间里验证一个解的问题；
- $NPC(Non-deterministic\ Polynomial\ Complete)\ Problem$: 满足两个条件:
  - 是一个 $NP$ 问题
  - 所有的 $NP$ 问题都可以约化到它
- $NP-hard\ Problem$: 满足NPC问题的第 2 条，但不一定要满足第 1 条。（NP-Hard问题要比 NPC问题的范围广）

$\color{red}{tips}:$

$L_0$ 范数、$L_1$ 范数与稀疏
- $L_0$ 范数是指向量中非 $0$ 的元素的个数。
- 如果我们用 $L_0$ 范数来规则化一个参数矩阵 $W$ 的话，就是希望 $W$ 的大部分元素都是 $0$。
- 换句话说，让参数 $W$ 是稀疏的。
- 看到了“稀疏”二字，大家都应该从“压缩感知”和“稀疏编码”中醒悟过来
  - 原来用的“稀疏”就是通过它来实现的。
  - 可是看到的 $papers$ 世界中，稀疏不是都通过 $L_1$ 范数 $||W||_1$ 来实现吗？
  - 这里把 $L_0$ 和 $L_1$ 放在一起的原因，因为他们有着某种不寻常的关系。
$L1$ 范数是什么？它为什么可以实现稀疏？
- $L_1$ 范数是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”$（Lasso\ regularization）$。
- 为什么 $L_1$ 范数会使权值稀疏？
- 有人可能会这样回答“它是 $L_0$ 范数的最优凸近似”。
- 实际上，还存在一个更美的回答：
  - 任何的规则化算子，
  - 如果他在 $W_i=0$ 的地方不可微，并且可以分解为一个“求和”的形式，
  - 那么这个规则化算子就可以实现稀疏。
- 即：$W$ 的 $L_1$ 范数是绝对值 $|w|$ 在 $w=0$ 处是不可微
既然 $L_0$ 可以实现稀疏，为什么不用 $L_0$ ，而要用 $L_1$ 呢？
- 一是因为 $L_0$ 范数很难优化求解（$NP-H$ 问题）
- 二是 $L_1$ 范数是 $L_0$ 范数的最优凸近似，而且它比 $L_0$ 范数要容易优化求解。

示例：

构造一个 $128\times 256$ 的矩阵 $A$，它的每个元素都服从高斯分布（正态分布）
精确解 $u$ 只有 $10\%$ 的元素非零，每一个非零元素也服从高斯分布
则 $u$ 是方程组 $(1.2.1)$ 唯一的非零元素最少的解

$\min\limits_{x\in \mathbb{R}^n} \ \ ||x||_0, \\ s.t.\ \ Ax = b. \tag{1.2.2}$

其中 $||x||_0$ 是指 $x$ 中非零元素的个数

$\min\limits_{x\in \mathbb{R}^n} \ \ ||x||_1, \\ s.t.\ \ Ax = b. \tag{1.2.3}$

定义 $ℓ_1$ 范数：$||x||_1 = \sum\limits_{i=1}^{n}{|x_i|}$，并将其替换到问题 $(1.2.2)$ 当中，得到另一个形式上非常相似的问题（又称 $ℓ_1$ 范数优化问题，基追踪问题）：

可以从理论上证明：若 $A,b$ 满足一定的条件，向量 $u$ 也是 $ℓ_1$ 范数优化问题 $(1.2.3)$ 的唯一最优解．

虽然问题 $(1.2.3)$ 仍没有显式解，但与问题 $(1.2.2)$ 相比难度已经大大降低．

$\min\limits_{x\in \mathbb{R}^n} \ \ ||x||_2, \\ s.t.\ \ Ax = b. \tag{1.2.4}$

$||x||_2 = \bigg (\sum\limits_{i=1}^{n}{x_i^2}\bigg )^{\frac{1}{2}}$

问题 $(1.2.4)$ 实际上就是原点到仿射集 $Ax = b$ 的投影。遗憾的是，$u$ 并不是问题 $(1.2.4)$ 的解

这时因为 $ℓ_1$ 范数优化问题的解具有稀疏性而 $ℓ_2$ 范数优化问题的解不具有该性质

$\min\limits_{x\in \mathbb{R}^n} \ \ \ \ \mu ||x||_1 + \frac{1}{2}||Ax - b||_2^2 \tag{1.2.5}$

其中 $µ > 0$ 是给定的正则化参数。问题 $(1.2.5)$ 又称为 $LASSO（least\ absolute\ shrinkage\ and\ selection\ operator）$

实例：低秩矩阵恢复¶

秩亏
- 一个矩阵的秩是具有相同大小的矩阵能达到的最高秩，则该矩阵为满秩
- 如果矩阵矩阵不具有满秩，则该矩阵为秩亏。

低秩矩阵恢复 $（low\ rank\ matrix\ completion）$

其约束条件保证了构造的低秩矩阵 X 与 M 中的所有已知元素完全相同．但是极小化矩阵的秩是 NP 难的问题，如何将其化成一个容易求解的问题呢？

示例场景：电影评级矩阵 $M$
- 行：所有电影
- 列：所有用户
- $M_{ij}$：每一个用户对每一部电影的评级
- $\Omega$：矩阵 $M$ 中所有已知评级元素的下标的集合
构造一个矩阵 $X$，使得在给定位置的元素等于已知评级元素，即满足 $X_{ij}=M_{ij},(ij)\in \Omega$

满足这个条件的矩阵 $X$ 有无穷多个，那么如何得到一个真正有价值的 $X$ 呢？
- 矩阵 $M$ 的列可能是亏秩的
- 矩阵 $M$ 的行可能是亏秩的

寻找一个低秩矩阵 $X$ 可能给出很好的解．令 $rank(X)$ 为矩阵 $X$ 的秩，该问题可以表达为:

$\min\limits_{X\in \mathbb{R}^{m\times n}} \ \ \ \ \ \ \ rank(X), \\ s.t.\ \ X_{ij} = M_{ij}. (i,j)\in \Omega \tag{1.3.1}$

$\min\limits_{X\in \mathbb{R}^{m\times n}} \ \ \ \ \ \ \ ||X||_{*}, \\ s.t.\ \ X_{ij} = M_{ij}. (i,j)\in \Omega \tag{1.3.2}$

矩阵 $X$ 的核范数 $（nuclear\ norm）$： $||X||_∗ = \sum\limits_{i}\sigma_i(X)$

问题 $(1.3.2)$ 是一个凸优化问题，并且在一定条件下它与问题 $(1.3.1)$ 等价

考虑到观测可能出现误差，对于给定的参数 $µ > 0$，我们也写出该问题的二次罚函数形式：

$\min\limits_{x\in \mathbb{R}^{m\times n}} \ \ \ \ \mu ||x||_{*} + \frac{1}{2} \sum\limits_{(i,j)\in \Omega}(X_{ij}-M_{ij})^2 \tag{1.3.3}$

实例：深度学习¶

卷积网络的设计受到了生物学和神经科学的启发
深度学习目前的发展早已超越了机器学习模型中的神经科学观点

多层感知机 $（multi-layer\ perceptron,\ MLP）$
- 深度前馈网络 $（deep\ feedforward\ network）$
- 前馈神经网络 $（feedforward\ neural\ network）$

一种由 $p$ 个输入单元和 $q$ 个输出单元构成的 $(L+2)$ 层感知机，其含有
- 一个输入层
- 一个输出层
- $L$ 个隐藏层

该感知机的第 $l$ 个隐藏层共有 $m^{(l)}$ 个神经元，为了方便我们用
- $l = 0$ 表示输入层，
- $l = L + 1$ 表示输出层
- 定义
  - $m(0) = p$
  - $m(L+1) = q$
设 $y^{(l)}\in \mathbb{R}^{m^{(l)}}$ 为第 $l$ 层的所有神经元
同样地，为了能够处理每一个隐藏层的信号偏差，除输出层外，我们
- 令 $y(l)$ 的第一个元素等于 $1$，即 $y_1^{(l)}= 1,0 ⩽ l ⩽ L$
- 而其余的元素则是通过上一层的神经元的值进行加权求和得到.

令参数 $x = (x^{(1)} ,x^{(2)} ,\cdots ,x^{(L+1)})$ 表示网络中所有层之间的权重

其中 $x_{i,k}^{(l)}$ 是第 $(l−1)$ 隐藏层的第 $k$ 个单元连接到第 $l$ 隐藏层的第 $i$ 个单元对应的权重

则在第 $l$ 隐藏层中，第 $i$ 个单元 $(i>1$，当 $l = L + 1$ 时可取为 $i ⩾ 1)$ 计算输出信息 $y_{i}^{(l)}$ 为:

$$y_i^{(l)}=t(z_i^{(l)}), \\[2ex] z_i^{(l)}=\sum\limits_{k=1}^{m^{(l-1)}} x_{i,k}^{l}y_{k}^{(l-1)} \tag{1.4.1}$$

这里函数 $t(·)$ 称为激活函数，常见的类型有

$Sigmoid$ 函数 $$t(z)=\frac{1}{1+exp(-z)^{'}}$$
$Heaviside$ 函数 $$t(z)=\begin{cases}1,\quad z\geq 0 \\[2ex] 0,\quad x < 0 \end{cases}$$
$ ReLU$ 函数 $t(z)=max\{0,z\}. \tag{1.4.2}$

整个过程可以描述为 $$y^{(0)} \stackrel{x^{1}}{\longrightarrow} z^{(1)} \stackrel{t}{\longrightarrow} y^{(1)} \stackrel{x^{2}}{\longrightarrow} \cdots \stackrel{t}{\longrightarrow} y^{(L+1)}$$

多层感知机的每一层输出实际就是由其上一层的数值作线性组合再逐分量作非线性变换得到的

若将
- $y^{(0)}$ 视为自变量，
- $y^{(L+1)}$ 视为因变量，
则多层感知机实际上定义了一个以 $x$ 为参数的函数 $h(a;x):\mathbb{R}^{p}\longrightarrow \mathbb{R}^{q}$
- 这里 $a$ 为输入层 $y^{(0)}$ 的取值．当输入数据为 $a_i$ 时，其输出 $h(a_i;x)$ 将作为真实标签 $b_i$ 的估计．

若选择平方误差为损失函数，则我们得到多层感知机的优化模型：

$\min\limits_{x} \sum\limits_{i=1}^{m} || h(a_i;x) - b_i||_2^2 + \lambda r(x), \tag{1.4.3}$

其中

$r(x)$ 是正则项，用来刻画解的某些性质，如光滑性或稀疏性等；
$\lambda$ 称为正则化参数，用来平衡模型的拟合程度和解的性质
如果 $\lambda$ 太小，那么对解的性质没有起到改善作用；
如果 $\lambda$ 太大，则模型与原问题相差很大，可能是一个糟糕的逼近．

卷积神经网络¶

卷积神经网络 $（convolutional\ neural\ network，CNN）$ 是一种深度前馈人工神经网络，专门用来处理如时间序列数据或是图像等网格数据．

卷积是两个变量在某范围内相乘后求和的结果

与全连接网络-相邻两层之间的节点都是相连或相关的 不同，卷积神经网络的思想是通过局部连接以及共享参数的方式来大大减少参数量，从而减少对数据量的依赖以及提高训练的速度．

典型的 $CNN$ 网络结构通常由一个或多个

卷积层
- 是一种特殊的网络层，它首先对输入数据进行卷积操作产生多个特征映射，之后使用非线性激活函数（比如 $ReLU$）对每个特征进行变换
下采样层（$subsampling$）
- 一般位于卷积层之后，它的作用是减小数据维数并提取数据的多尺度信息，其结果最终会输出到下一组变换
顶层的全连接层
- 结构与多层感知机的结构相同

组成．

给定一个二维图像 $I\in \mathbb{R}^{n\times n}$ 和卷积核 $K\in \mathbb{R}^{k\times k}$ ，我们定义一种简单的卷积操作 $S = I ∗ K$，它的元素是 $$S_{i,j} = ⟨ I(i:i + k − 1,j:j + k−1) ,K⟩ , \tag{1.4.4}$$

其中

两个矩阵 $X,Y$ 的内积是它们相应元素乘积之和，即 $⟨X,Y⟩ = \sum\limits_{i,j}X_{ij}Y_{ij}$，

$I(i:i+k−1,j:j+k−1)$ 是矩阵 $I$ 从位置 $(i,j)$ 开始的一个 $k\times k$ 子矩阵．

给定一个训练集 $D = \{\{ a_1 ,b_1 \} , \{ a_2 ,b_2 \} , ··· , \{ a_m ,b_m \}\}$ ，
- 其中
  - $a_i$ 是训练图片，
  - $b_i$ 是其对应的标签
卷积神经网络对应的优化问题的形式仍可套用 $(1.4.3)$，
- 函数 $h ( a_i ;x )$ 由卷积神经网络构成，
- $x$ 是卷积神经网络的参数．

最优化的基本概念¶

形成完备的最优化体系：
- 构造最优化模型
  - 最优化模型的构造和实际问题紧密相关
  - 目标函数 $f$ 和约束函数 $c_i$ 都是由模型来确定的
- 确定最优化问题的类型和设计算法
  - 在确定模型之后，需要对模型对应的优化问题进行分类
  - 分类的必要性是因为不存在对于所有优化问题的一个统一的算法
  - 需要针对具体优化问题所属的类别，来设计或者调用相应的算法求解器
- 实现算法或调用优化算法软件包进行求解
  - 同一类优化问题往往存在着不同的求解算法
  - 对于具体的优化问题，需要充分利用问题的结构，并根据问题的需求（求解精度和速度等）来设计相应的算法
  - 根据算法得到的结果，可以判别模型构造是否合理或者进一步地改进模型
  - 算法分析可以帮助设计替代模型，以确保快速且比较精确地求出问题的解

连续和离散优化问题¶

连续优化问题
- 指决策变量所在的可行集合是连续的，比如平面、区间等．如稀疏优化问题 $(1.2.2) — (1.2.5)$ 的约束集合就是连续的．
离散优化问题
- 指决策变量能在离散集合上取值，比如离散点集、整数集等
- 常见的离散优化问题有整数规划，其对应的决策变量的取值范围是整数集合．

在实际中离散优化问题往往比连续优化问题更难求解．实际中的离散优化问题往往可以转化为一系列连续优化问题来进行求解．

比如线性整数规划问题中著名的分支定界方法，就是松弛成一系列线性规划问题来进行求解．

无约束和约束优化问题¶

可以通过将约束$（ \chi \neq \mathbb{R}^n ）$ 罚到目标函数上转化为无约束问题，所以在某种程度上，约束优化问题就是无约束优化问题．

很多约束优化问题的求解也是转化为一系列的无约束优化问题来做，常见方式有增广拉格朗日函数法、罚函数法等．

但约束优化问题的理论以及算法研究仍然是非常重要的，因为借助于约束函数，我们能够更好地描述可行域的几何性质，进而更有效地找到最优解

随机和确定性优化问题¶

随机优化问题是指目标或者约束函数中涉及随机变量而带有不确定性的问题

不像确定性优化问题中目标和约束函数都是确定的，随机优化问题中总是包含一些未知的参数．

随机优化问题的目标函数是关于一个未知参数的期望的形式

因为参数的未知性，实际中常用的方法是通过足够多的样本来逼近目标函数，得到一个新的有限和形式的目标函数．

线性和非线性规划问题¶

目前，求解线性规划问题最流行的两类方法依然是单纯形法和内点法．

虽然单纯形方法在实际问题中经常表现出快速收敛，但是其复杂度并不是多项式的．

线性规划是指问题 $(1.1.1)$ 中目标函数和约束函数都是线性的．当目标函数和约束函数至少有一个是非线性的，那么对应的优化问题的称为非线性规划问题．

凸和非凸优化问题¶

凸优化问题是指最小化问题 $(1.1.1)$ 中的目标函数和可行域分别是凸函数和凸集．

如果其中有一个或者两者都不是凸的，那么相应的最小化问题是非凸优化问题．

因为凸优化问题的任何局部最优解都是全局最优解，其相应的算法设计以及理论分析相对非凸优化问题简单很多．

若问题 $(1.1.1)$ 中的 $min$ 改为 $max$，且目标函数和可行域分别为凹函数和凸集，我们也称这样的问题为凸优化问题．这是因为对凹函数求极大等价于对其相反数（凸函数）求极小．

凸函数是数学函数的一类特征。凸函数就是一个定义在某个向量空间的凸子集C（区间）上的实值函数。

全局和局部最优解¶

在问题 $(1.1.1)$ 的求解中，我们想要得到的是其全局最优解，但是由于实际问题的复杂性，往往只能够得到其局部最优解

定义 $1.1$ (最优解) 对于可行点 $\overline{x}$ (即 $\overline{x} \in X $ )，定义如下概念：

$(1)$ 如果 $f (\overline{x})\leq f(x), \forall x \in \chi$ ，那么称 $\overline{x}$ 为问题 $(1.1.1)$ 的全局极小解（点），有时也称为（全局）最优解或最小值点；

$(2)$ 如果存在 $\overline{x}$ 的一个 $ε$ 邻域 $N_{ε}(\overline{x})$ 使得$f(\overline{x})\leq f(x) , \forall x \in N_{ε}(\overline{x}) ∩ \chi$ , 那么称 $\overline{x}$ 为问题 $(1.1.1)$ 的局部极小解（点），有时也称为局部最优解；

(3) 进一步地，如果有 $f(\overline{x}) < f(x), ∀x ∈ N_ε(\overline{x})∩X , x \neq \overline{x}$ 成立，则称 $\overline{x}$ 为问题 $(1.1.1)$ 的严格局部极小解（点）．

如果一个点是局部极小解，但不是严格局部极小解，我们称之为非严格局部极小解．

我们想要得到的是其全局最优解，但是由于实际问题的复杂性，往往只能够得到其局部最优解

在给定优化问题之后，我们要考虑如何求解．

根据优化问题的不同形式，其求解的困难程度可能会有很大差别．

对于一个优化问题，如果能用代数表达式给出其最优解，那么这个解称为显式解，

对应的问题往往比较简单．例如二次函数在有界区间上的极小化问题，我们可以通过比较其在对称轴上和区间两个端点处的值得到最优解，这个解可以显式地写出．

但实际问题往往是没有办法显式求解的，因此常采用迭代算法．

迭代算法的基本思想：

从一个初始点 $x_0$ 出发，按照某种给定的规则进行迭代，得到一个序列 $\{x_k\}$
如果迭代在有限步内终止，那么希望最后一个点就是优化问题的解
如果迭代点列是无穷集合，那么希望该序列的极限点（或者聚点）则为优化问题的解

为了使算法能在有限步内终止，一般会通过一些收敛准则来保证迭代停在问题的一定精度逼近解上．

对于无约束优化问题，常用的收敛准则有：

$$\frac{f(x^k)-f^*}{max\{|f^*|,1\}} \leq \varepsilon_{1},\ \ \ ||\nabla f(x^k)|| \leq \varepsilon_{2} \tag{1.5.1} $$

其中：

$\varepsilon_{1}, \varepsilon_{2}$ 为给定的很小的正数

$||·||$ 表示某种范数（可简单理解为 $l_2$ 范数：$||x||_2 = \bigg (\sum\limits_{i=1}^{n}x_i^2 \bigg )^{\frac{1}{2}} $

$f^*$ 为函数 $f$ 的最小值（假设已知或者以某种方式估计得到）

$∇ f(x_k)$ 表示函数 $f$ 在点 $x$ 处的梯度（光滑函数在局部最优点处梯度为零向量）

对于约束优化问题，还需要考虑约束违反度，具体地，要求最后得到的点满足

$$c_i(x^k) \leq \varepsilon_{3}, i=1,2,\cdots,m,$$$$|c_i(x^k)| \leq \varepsilon_{4}, i=m+1,m+2,\cdots,m+l,$$

其中：

$\varepsilon_{3}, \varepsilon_{4}$ 为很小的正数，用来刻画 $x^k$ 的可行性

由于一般情况下事先并不知道最优解，在最优解唯一的情形下一般使用某种基准算法来得到 $x^∗$ 的一个估计，之后计算其与 $x^k$ 的距离以评价算法的性能．

因为约束的存在，我们不能简单地用目标函数的梯度来判断最优性，实际中采用的判别准则是点的最优性条件的违反度

对于一个具体的算法，根据其设计的出发点，我们不一定能得到一个高精度的逼近解．此时，为了避免无用的计算开销，我们还需要一些停机准则来及时停止算法的进行

在算法设计中，一个重要的标准是算法产生的点列是否收敛到优化问题的解．

在设计优化算法时，我们有一些基本的准则或技巧．对于复杂的优化问题，基本的想法是将其转化为一系列简单的优化问题（其最优解容易计算或者有显式表达式）来逐步求解．常用的技巧有：

泰勒 $（Taylor）$ 展开
对偶
拆分
块坐标下降

在设计和比较不同的算时，另一个重要的指标是算法的渐进收敛速度．

与收敛速度密切相关的概念是优化算法的复杂度 $N(ε)$ ，

即计算出给定精度 $ε$ 的解所需的迭代次数或浮点运算次数．

最优化理论之简介

最优化问题概括¶

最优化问题的一般形式¶

最优化问题的类型与应用背景¶

实例：稀疏优化¶

实例：低秩矩阵恢复¶

实例：深度学习¶

多层感知机¶

卷积神经网络¶

最优化的基本概念¶

连续和离散优化问题¶

无约束和约束优化问题¶

随机和确定性优化问题¶

线性和非线性规划问题¶

凸和非凸优化问题¶

全局和局部最优解¶

优化算法¶