Skip to content

Commit

Permalink
Merge pull request #36 from datawhalechina/定理7.6
Browse files Browse the repository at this point in the history
定理7.6+鞅+σ-代数+过滤
  • Loading branch information
zhimin-z authored Jul 11, 2024
2 parents a59245b + 5aa2a54 commit 9f2bbc9
Show file tree
Hide file tree
Showing 2 changed files with 113 additions and 2 deletions.
40 changes: 39 additions & 1 deletion docs/chapter1/chapter1.md
Original file line number Diff line number Diff line change
Expand Up @@ -1434,4 +1434,42 @@ $$
$$
\frac{d}{dx}(xy−f(x))=y−\nabla f(x)=0
$$
此时有$y=\nabla f(x)$,得证。
此时有$y=\nabla f(x)$,得证。
## σ-代数
## 15. 鞅
鞅(Martingale)是概率论中的一个重要概念,用于描述某些类型的随机过程。鞅过程的特点是,它的未来期望值在已知当前信息的条件下等于当前值。
### 形式化定义
设 $\{X_t\}$ 是一个随机过程,$\{\mathcal{F}_t\}$ 是一个随时间 $t$ 变化的过滤(即包含随时间增加的所有信息的 σ-代数的序列)。
当这个随机过程 $\{X_t\}$ 是鞅时,必须满足以下条件:
1. 适应性(Adaptedness):对于每一个 $t$,$X_t$ 是 $\mathcal{F}_t$-可测的(即 $X_t$ 的值在时间 $t$ 时刻是已知信息的函数)。
2. 积分性(Integrability):对于所有 $t$,$E[|X_t|] < \infty$。
3. 鞅性质(Martingale Property):对于所有 $t$ 和 $s \geq t$,有$E[X_s | \mathcal{F}_t] = X_t$。这意味着在已知当前时刻 $t$ 的信息 $\mathcal{F}_t$ 条件下,未来某个时刻 $s$ 的期望值等于当前时刻 $t$ 的值。
### 直观解释
鞅的定义保证了在已知当前信息的条件下,未来值的期望等于当前值,这反映了一种“无偏性”。因此,鞅过程可以被看作是一种“公平游戏”。设想一个赌徒在一个赌场中进行赌博,如果这个赌徒的资金变化形成一个鞅过程,那么在任何时刻,给定当前的资金情况,未来资金的期望值都是当前的资金,这表示没有系统性的赢或输的趋势。
### 举例说明
考虑一个简单的随机游走过程,其中 $X_{t+1} = X_t + Z_{t+1}$,其中 $Z_{t+1}$ 是一个独立同分布的随机变量,取值为 $+1$ 或 $-1$,且概率各为 $50\%$。在这种情况下,如果我们设 $X_0 = 0$,那么 $\{X_t\}$ 是一个鞅,因为每一步的期望值都是零。
### 鞅的类型
除了标准的鞅,还有两个相关的概念:
1. 超鞅(Submartingale):如果对于所有 $t$ 和 $s \geq t$,有 $E[X_s | \mathcal{F}_t] \geq X_t$,则称 $\{X_t\}$ 为超鞅(或上鞅)。
2. 亚鞅(Supermartingale):如果对于所有 $t$ 和 $s \geq t$,有 $E[X_s | \mathcal{F}_t] \leq X_t$,则称 $\{X_t\}$ 为亚鞅(或下鞅)。
这里给出一个区分超鞅和亚鞅的记忆方法:“生活是一个超鞅:随着时间的推进,期望降低。”
### 鞅差序列
鞅差 $D_t$ 被定义为为:$D_t = X_t - X_{t-1}$,鞅差序列(Martingale Difference Sequence)$\{D_t\}$ 则满足以下条件:
1. 适应性(Adaptedness):对于每一个 $t$,$D_t$ 是 $\mathcal{F}_t$-可测的。
2. 零条件期望(Zero Conditional Expectation):对于所有 $t$,有 $E[D_t | \mathcal{F}_{t-1}] = 0$,即在已知过去的信息 $\mathcal{F}_{t-1}$ 的条件下,$D_t$ 的条件期望为零。这意味着当前的观察值不提供对未来观察值的系统性偏差,即每一步的变化是纯随机的。
虽然鞅差序列中的每个元素的条件期望为零,但这并不意味着这些元素是独立的。相反,它们可以有复杂的依赖关系。鞅差序列的关键性质是每个元素在条件期望下为零,这使得它在分析鞅和集中不等式(如 Bernstein 不等式)中非常有用。
75 changes: 74 additions & 1 deletion docs/chapter7/chapter7.md
Original file line number Diff line number Diff line change
Expand Up @@ -77,7 +77,80 @@ $$



## 4.【定理补充】Epoch-GD的收敛率
## 4.【定理证明】鞅差序列的Bernstein不等式

**P49**定理7.6给出了鞅差序列的Bernstein不等式,我们在这里给出其证明。

我们对原文中出现的条件方差定义进行些许勘误,即$X_n$的条件方差定义为:
$$
V_n^2 = \sum_{k=1}^n \mathbb{E}[X_k^2|F_{k-1}]
$$

此时,考虑函数 $f(x) = (e^{\theta x} -\theta x-1)/x^2$,并且 $f(0) = \theta^2/2$。

通过不断地对这个函数进行求导,我们可知该函数是非减的。即$f(x) \leq f(1), x \leq 1$,因此:
$$e^{\theta x} = 1 + \theta x + x^2f(x) \leq 1+\theta x+x^2f(1) = 1 + \theta x + g(\theta)x^2, \quad x \leq 1$$

将其用于随机变量 $X_k/K$ 的期望,可得:
$$\mathbb{E} \left[\exp \left(\frac{\theta X_k}{K}\right) \bigg| \mathcal{F}_{k-1}\right] \leq 1 + \frac{\theta}{K} \mathbb{E} \left[X_k | \mathcal{F}_{k-1} \right] + \frac{g(\theta)}{K^2} \mathbb{E} \left[X_k^2 | \mathcal{F}_{k-1} \right]$$

由于 $\{X_k\}$ 是一个鞅差序列,我们有 $\mathbb{E} \left[X_k | \mathcal{F}_{k-1} \right] = 0$,结合 $1+x \leq e^x, x \geq 0$,我们有:
$$ \mathbb{E} \left[\exp \left(\frac{\theta X_k}{K}\right) \bigg| \mathcal{F}_{k-1}\right] = 1 + \frac{g(\theta)}{K^2} \mathbb{E} \left[X_k^2 | \mathcal{F}_{k-1} \right] \leq \exp \left(g(\theta) \frac{\mathbb{E} [X_k^2|\mathcal{F}_{k-1}]}{K^2} \right) $$

考虑一个随机过程:
$$Q_k = \exp \left(\theta \frac{S_k}{K} - g(\theta) \frac{\Sigma_k^2}{K^2}\right), \quad Q_0 = 1$$
我们证明这个过程对于滤波 $\mathcal{F}_n$ 是一个超鞅,即 $\mathbb{E} [Q_k|\mathcal{F}_{k-1}] \leq Q_{k-1}$。

证明如下:
$$
\begin{align*}
\mathbb{E} [Q_k|\mathcal{F}_{k-1}] &= \mathbb{E} \left[\exp \left(\theta \frac{S_k}{K} - g(\theta) \frac{\Sigma_k^2}{K^2}\right)\bigg|\mathcal{F}_{k-1}\right] \\
&= \mathbb{E} \left[\exp \left(\theta \frac{S_{k-1}}{K} - g(\theta) \frac{\Sigma_{k-1}^2}{K^2} - g(\theta)\frac{\mathbb{E} [X_k^2|\mathcal{F}_{k-1}]}{K^2} + \theta \frac{X_k}{K}\right)\bigg|\mathcal{F}_{k-1}\right] \\
&= \exp \left(\theta \frac{S_{k-1}}{K} - g(\theta) \frac{\Sigma_{k-1}^2}{K^2} - g(\theta)\frac{\mathbb{E} [X_k^2|\mathcal{F}_{k-1}]}{K^2}\right) \mathbb{E} \left[ \exp \left(\theta \frac{X_k}{K}\right)\bigg|\mathcal{F}_{k-1}\right]
\end{align*}
$$

应用在之前证明过的不等式,我们得到:
$$\mathbb{E} [Q_k|\mathcal{F}_{k-1}] \leq \exp \left(\theta \frac{S_{k-1}}{K} - g(\theta) \frac{\Sigma_{k-1}^2}{K^2}\right) = Q_{k-1}$$

我们定义 $A = \{k \geq 0: \max_{i=1,\cdots,k} S_i \gt t,\Sigma_k^2 \le v\}$,然后我们有:
$$Q_k\geq \exp \left(\theta \frac{t}{K} - g(\theta) \frac{v}{K^2}\right), k \in A$$

由于 $\{Q_k\}$ 是超鞅,我们有:
$$\mathbb{E} [Q_k|\mathcal{F}_{k-1}] \leq \mathbb{E} [Q_{k-1}|\mathcal{F}_{k-2}] \leq \cdots \leq Q_0 = 1$$

考虑到 $1 \geq \mathbb{P}(A)$,我们有:
$$1 \geq \mathbb{E} [Q_k|\mathcal{F}_{k-1}] \geq \exp \left(\theta \frac{t}{K} - g(\theta) \frac{v}{K^2}\right) \geq \exp \left(\theta \frac{t}{K} - g(\theta) \frac{v}{K^2}\right) \mathbb{P}(A), k \in A$$

因此:
$$
\begin{align*}
\mathbb{P}(A) \leq \exp \left(g(\theta) \frac{v}{K^2} -\theta \frac{t}{K} \right)
\end{align*}
$$

由于上述不等式对任何 $\theta > 0$ 都成立,我们可以写为:
$$P(A) \leq \inf_{\theta > 0} \exp \left(g(\theta) \frac{v}{K^2} - \theta \frac{t}{K} \right)$$
检查不等式右边的一阶导数,我们知道该下确界在 $\theta = \log (1+Kt/v)$ 处取得。

对于指数内部的表达式,我们进行如下变换:
$$
\begin{align*}
\theta \frac{t}{K} - g(\theta)\frac{v}{K^2} &= \log \left(1 + \frac{Kt}{v}\right) \frac{t}{K} - \frac{v}{K^2} \left(\frac{Kt}{v} - \log \left(1 + \frac{Kt}{v}\right) \right) \\
&=\frac{v}{K^2} \left( \left(1+\frac{Kt}{v} \right) \log \left(1 + \frac{Kt}{v}\right) - \frac{Kt}{v} \right) \\
&= \frac{v}{K^2} h\left( \frac{Kt}{v} \right)
\end{align*}
$$
其中 $h(u) = (1+u)\log(1+u) - u$。

通过对表达式求二阶导数的方法,我们也可以证明:
$$h(u) \geq \frac{u^2}{2(1 + u/3)},\quad u \geq 0$$

综上所述,我们有:
$$P(A) \leq \exp \left( -\frac{v}{K^2} h \left( \frac{Kt}{v} \right)\right) \leq \exp \left( - \frac{v}{K^2} \frac{K^2t^2}{2v (v+Kt/3)} \right) = \exp\left( -\frac{t^2}{2(v+Kt/3)}\right)$$


## 5.【定理补充】Epoch-GD的收敛率

**P150**引理7.2给出了Epoch-GD外层循环收敛率的泛化上界,我们对其中部分推导进行必要补充。

Expand Down

0 comments on commit 9f2bbc9

Please sign in to comment.