序列归一化方法

Instance Normalization

实例归一化最初用于图像风格迁移的生成任务，按照每个图像的每一个通道维度进行归一化操作

Batch Normalization（每个通道维度，计算batch内所有样本的统计结果）:

$y_{tijk} = {x_{tijk} - \mu_{i} \over {\sqrt{\sigma^2_{i} + \epsilon}}}$

$\mu_i = {1\over{HWT}}\sum_{t=1}^T\sum_{l=1}^W\sum_{m=1}^Hx_{tilm}$

$\sigma^2_i = {1\over{HWT}}\sum_{t=1}^T\sum_{l=1}^W\sum_{m=1}^H(x_{tilm} - \mu_i)^2$

Instance Normalization（每个样本，每个通道，计算统计结果）：

$y_{tijk} = {x_{tijk} - \mu_{ti} \over {\sqrt{\sigma^2_{ti} + \epsilon}}}$

$\mu_{ti} = {1\over{HW}}\sum_{l=1}^W\sum_{m=1}^Hx_{tilm}$

$\sigma^2_{ti} = {1\over{HW}}\sum_{l=1}^W\sum_{m=1}^H(x_{tilm} - \mu_{ti})^2$

DAIN是时序预测领域的自适应归一化方法。

对于时间序列数据集 $\{X^i \in \mathbb{R}^{d \times L}; i = 1, \dots, N\}$ ，将归一化过程拆分成三个步骤：

$\alpha^i = W_aa^i \in \mathbb{R}^d$

$a^i = {1 \over L}\sum^L_{j=1}x^i_j \in \mathbb{R}^d$

$\beta^i=\mathbf{W}_bb^i \in \mathbb{R}^d$

$b^i_k = \sqrt{{1 \over L}\sum^L_{j=1}(x^i_{jk} - \alpha^i_k)^2}, k=1,\dots,d$

$\tilde {\tilde x} ^i_j = \tilde x^i_j \odot \gamma^i$

$\gamma^i = sigmoid(\mathbf{W}_cc^i + \mathbf{b}) \in \mathbb{R}^d$

$c^i = {1 \over L}\sum^L_{j=1}\tilde x^i_j \in \mathbb{R}^d$

$\tilde x^i_j = (x^i_j - \alpha^i) \oslash \beta^i$

第一步、第三步仍然需要统计完整序列的均值信息