Transformer の数学

Deep Learning の文脈で正規化とはデータの分布を平均が 0 、分散が 1 のように統計的性質をもつように調整することです。

標準正規分布

確率変数 Z が標準正規分布に従うとは、以下の確率密度関数（ PDF: Probability Density Function ）を持つことをいいます。

\[f(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \quad \text{※ Probability Density Function}\]

$Z \sim \mathcal{N}(0, 1)$

\[\Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} dt\]

GELU（ Gaussian Error Linear Unit ）は以下のように定義されます。

\[\text{GELU}(x) = x \cdot P(Z \leq x) = x \cdot \Phi(x)\]

ここで Z ~ N(0, 1)、Φ(x) は標準正規分布の累積分布関数（ CDF ）です。

\[\text{GELU}(x) = x \cdot \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} dt\]

つまり標準正規分布のCDFで入力をスケーリングする関数です。

「大きい正の値はそのまま通し、大きい負の値は抑制する」確率的なゲートとして機能します。

厳密な Φ(x) は計算コストが高いため、実用上は近似が使われます：

tanh 近似（ OpenAI / BERT 等で使用）：

\[\text{GELU}(x) \approx \frac{x}{2} \left(1 + \tanh\left(\sqrt{\frac{2}{\pi}}\left(x + 0.044715x^3\right)\right)\right)\]

sigmoid近似：

\[\text{GELU}(x) \approx x \cdot \sigma(1.702x)\]

\[\text{ReLU}(x) = \max(0, x)\]

GELUは BERT・GPT・PaLM・Gemini 等の主要LLMで活性化関数として採用されています。標準正規分布のCDFを使うことで：

標準正規分布がLLMのアーキテクチャに直接組み込まれている好例です。

サイコロは離散型なので「確率密度関数」ではなく確率質量関数（PMF: Probability Mass Function）と呼びます。

確率質量関数：

\[P(Z = k) = 1/6, k = 1, 2, 3, 4, 5, 6\]

累積分布関数：

\[F(k) = Σ P(Z = n) = k/6, k = 1, 2, 3, 4, 5, 6 n=1\]