统计模拟(五)——耦合算子

本文为第一系列的原创文章之五, 目的在于总结“Simulation” -Sheldon M.Ross一书中出现的模拟随机变量的方法.

Copula

有关 Copula 的内容, 本书中介绍的不多. 在这里, 也仅仅只是对Copula以及其数学内容, 进行比较简单介绍.

类似于回归等方法, 当我们仅仅知道多个随机变量的边缘分布以及他们的相关系数时, 我们可以利用一个合适的 Copula 算子去模拟其联合分布. 这种模拟是不精确的, 是一种猜的过程, 但是会有其能发挥的作用.

以二维的 Copula 为例, 上述语言用数学语言描述就是: 已知 \(X\) 和 \(Y\) 的边缘分布 \(F\) 和 \(G\) :

\begin{align*}P(X\leq x)&=F(x)\\\ P(Y\leq y)&=G(y)\end{align*}

根据已知的 \(X\) 和 \(Y\) 的相关知识, 找到合适的 \(C(x,\ y)\) , 使得

\[H(x,\ y) = C(F(x),\ G(y))\]

而 \(C(x,\ y)\) 需要满足 \(C(0,\ 0)=0\) , 且对于 \(0\leq x,\ y\leq 1\):

\begin{align*}C(x,\ 1) &= x\\\ C(1,\ y) &= y\end{align*}

由于是模拟是纯粹猜的过程, 所以选取Copula的时候, Copula的独立性应该与两个随机变量尽量保持一致. 比如, \(X\) 与 \(Y\) 的相关系数为 \(\rho\) , 那么我们应当尽量使得由选取的Copula确定的变量的相关系数也为 \(\rho\) . (但是当 \(X\)和 \(Y\) 的相关性为 \(\rho\) 时, \(F(x)\) 和 \(G(y)\) 的相关系数不一定为 \(\rho\) .)

Gaussian Copula

高斯 Copula 是应用的比较多的一种 Copula. 假设 \(\Phi\) 是标准的正态分布函数, 并且已知 \(X\) 和 \(Y\) 是标准正态随机变量, 其相关系数为 \(\rho\) , 那么 \(\Phi(x)\) 和 \(\Phi(y)\) 的联合概率密度被记作 Gaussian Copula :

\begin{align*}C(x,\ y)=&P(\Phi(X) \leq x,\ \Phi(Y) \leq y)\\\ =&P(X \leq {\Phi}^{-1}(x),\ Y \leq {\Phi}^{-1}(y),)\\\ =&\int_{-\infty}^{{\Phi}^{-1}(x)}\int_{-\infty}^{{\Phi}^{-1}(y)}\dfrac{1}{2\pi\sqrt{1-\rho^2}}\\\ &\times exp\{-\dfrac{x^2+y^2-2\rho xy}{2(1-\rho^2)}\}dydx\end{align*}

Copula一般来源于实际的多维变量的联合分布, 根据 Sklar 定理:

“Sklar 定理(二元形式):

若 \(H(x,y)\) 是一个具有连续边缘分布的 \(F(x)\) 与 \(G(y)\) 的二元联合分布函数, 那么存在唯一的copula函数 \(C\) , 使得 \(H(x,\ y) = C(F(x),\ G(y)) \).

反之, 如果 \(C\) 是一个copula函数, 而 \(F\) 和 \(G\) 是两个任意的概率分布函数, 那么由上式定义的H函数一定是一个联合分布函数, 且对应的边缘分布刚好就是 \(F\) 和 \(G\) .”

我们可以知道, 对于任意的联合分布, 我们总能找到唯一的 Copula, 而且这个其相关性的特性完全由这个 Copula 确定, 而与其边缘分布无关. 但是, 在实际的各种数学模型建模中, 如果多维变量本身不适合使用高斯 Copula 进行耦合, 那么除了用已知的联合分布生成的 Copula 之外, 也会采用人工的 Copula, 比如 Archimedes Copula 等等.

下图是几种常用的阿基米德 Copula:

 
有关 Copula 的介绍就到这里, 在将来的文章中也许还会涉及.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.