概率论与数理统计

03 Dec 2018 16823字 57分次学习笔记
如果这篇博客帮助到你，可以请我喝一杯咖啡~
CC BY 4.0 （除特别声明或转载文章外）

部分参考了斯坦福大学 2014（吴恩达）机器学习教程中文笔记，感谢编者黄海广博士。

概率论的基本概念

随机试验

在概率论中，将具有以下三个特点的事件称为随机试验：

可以在相同的条件下重复进行
每次试验的可能结果不止一个，并且事先能够明确事件的所有可能结果
进行一次试验前不能确定哪个结果会出现

样本空间、随机事件

样本空间

随机事件$E$的所有基本结果组成的集合为$E$的样本空间，记为$S$。样本空间的元素，即$E$的每个结果，称为样本点或基本事件，有时记为$\omega$。

随机事件

称试验$E$的样本空间$S$的子集为$E$的随机事件，简称事件。在每次试验中，当且仅当这一子集中的一个样本点出现时，称这一事件发生。

特别地，由一个样本点组成的单点集，称为基本事件；样本空间$S$包含所有的基本点，每次试验中总是发生，称为必然事件，记为$\Omega$；空集$\varnothing$每次都不可能发生，称为不可能事件。

事件间的关系与事件的运算

子事件

$A \subset B$，若$A$发生，则$B$发生。

相等事件

$A = B$，即$A \subset B$，且$B \subset A$ 。

和事件

$A\bigcup B$（或$A + B$），$A$与$B$中至少有一个发生。

差事件

$A - B={x\vert x\in A,x\not\in B}$，$A$发生但$B$不发生。

积事件

$A\bigcap B$（或${AB}$），$A$与$B$同时发生。

互斥事件（互不相容）

$A\bigcap B$=$\varnothing$。基本事件是两两互斥的。

互逆事件（对立事件）

\[A\bigcap B=\varnothing\\ A\bigcup B=\Omega\\ A=\overline{B}\\ B=\overline{A}\]

完全事件组

${ {A}{1} }{ {A}{2} }\cdots { {A}_{n} }$两两互斥，且和事件为必然事件，即

\[A_i\bigcap A_j=\varnothing,i\ne j,\bigcap_{i=1}^n=\Omega\]

交换律

\[A\bigcup B=B\bigcup A\\ A\bigcap B=B\bigcap A\]

结合律

\[(A\bigcup B)\bigcup C=A\bigcup (B\bigcup C)\]

分配律

\[(A\bigcap B)\bigcap C=A\bigcap (B\bigcap C)\]

德·摩根律

\[\overline{A\bigcup B}=\overline{A}\bigcap \overline{B}\\ \overline{A\bigcap B}=\overline{A}\bigcup \overline{B}\]

频率与概率

频率

定义

相同条件下进行了 n 次试验，在这 n 次试验当中，事件 A 发生的频率$n_A$称为事件 A 的频数，比值$f_n(A)=\frac{n_A}{n}$称为事件 A 发生的频率。

性质

$0\leq f_n(A)\leq 1$
$f_n(S)=1$
有限可加性：若$A_1,A_2,\ldots,a_k$是两两互不相容的事件，则$f_n(A_1\bigcup A_2\bigcup\ldots\bigcup A_k)=f_n(A_1)+f_n(A_2)+\ldots+f_n(A_k)$

概率

定义

设 E 是随机试验，S 是它的样本空间，对于 E 的每一事件 A 赋予一个实数$P(A)$，称为事件 A 的概率，如果集合函数$P(\cdot)$满足下列条件：

非负性

对于每一事件 A，有$P(A)\ge 0$。

规范性

对于必然事件 S，有$P(S)=1$。

可列可加性

设$A_1,A_2,\ldots$是两两互不相容的事件，则$P(A_1\bigcup A_2\bigcup\ldots)=P(A_1)+P(A_2)+\ldots$。

性质

$P(\varnothing)=0$
有限可加性：$P(A_1\bigcup A_2\bigcup\ldots\bigcup A_n)=P(A_1)+P(A_2)+\ldots+P(A_n)$，可由上一条性质和可列可加性推出。
若$A\subset B$，则$P(B-A)=P(B)-P(A)\ge 0$
$P(A)\le 1$
逆事件的概率：$P(\overline{A})=1-P(A)$
加法公式：$P(A\bigcup B)=P(A)+P(B)-P(AB)$，推广到三元：$P(A\bigcup B\bigcup C)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)$
$P(A-B)=P(A)-P(AB)$
$P(A\overline{B})=P(A)-P(AB)$
$P(A)=P(AB)+P(A\overline{B})$
$P(A\bigcup B)=P(A)+P(\overline{A}B)=P(AB)+P(A\overline{B})+P(\overline{A}B)$

等可能概型（古典概型）

具备以下两个特点的试验被称作等可能概型（古典概型）：

试验的样本空间只包含有限个元素
试验中每个基本事件发生的可能性相同

古典概型计算公式

\[P(A)=\frac{A包含的基本事件数}{S包含的事件数}\]

实际推断原理

概率很小的事件在一次试验中实际上几乎是不发生的。

条件概率

$P(B\vert A)=\frac{P(AB)}{P(A)}$,表示$A$发生的条件下，$B$发生的概率。条件概率$P(\centerdot \vert B)$满足概率的所有性质，例如：

\[P({ {\overline{A} }_{1} }\vert B)=1-P({ {A}_{1} }\vert B)\\ P({ {A}_{1} }\bigcup { {A}_{2} }\vert B)=P({ {A}_{1} }\vert B)+P({ {A}_{2} }\vert B)-P({ {A}_{1} }{ {A}_{2} }\vert B)\\ P({ {A}_{1} }{ {A}_{2} }\vert B)=P({ {A}_{1} }\vert B)P({ {A}_{2} }\vert { {A}_{1} }B)\]

非负性

对于每一事件$B$，有$P(B\vert A)\ge 0$

规范性

对于必然事件$S$，有$P(S\vert A)=1$

可列可加性

\[P(\underset{i=1}{\overset{\infty}{\mathop{\bigcup } } }\,{ {B}_{i} }\vert A)=\sum_{i=1}^\infty P(B_i\vert A)\]

乘法定理

\[P({ {A}_{1} }{ {A}_{2} })=P({ {A}_{1} })P({ {A}_{2} }\vert { {A}_{1} })=P({ {A}_{2} })P({ {A}_{1} }\vert { {A}_{2} })\\ P({ {A}_{1} }{ {A}_{2} }\cdots { {A}_{n} })=P({ {A}_{1} })P({ {A}_{2} }\vert { {A}_{1} })P({ {A}_{3} }\vert { {A}_{1} }{ {A}_{2} })\cdots P({ {A}_{n} }\vert { {A}_{1} }{ {A}_{2} }\cdots { {A}_{n-1} })\]

全概率公式和贝叶斯公式

全概率公式

\[P(A)=\sum\limits_{i=1}^{n}{P(A\vert { {B}_{i} })P({ {B}_{i} }), { {B}_{i} }{ {B}_{j} } }=\varnothing ,i\ne j,\underset{i=1}{\overset{n}{\mathop{\bigcup } } }\,{ {B}_{i} }=\Omega\]

Bayes（贝叶斯）公式

\[P({ {B}_{j} }\vert A)=\frac{P(A\vert { {B}_{j} })P({ {B}_{j} })}{\sum\limits_{i=1}^{n}{P(A\vert { {B}_{i} })P({ {B}_{i} })} },j=1,2,\cdots ,n\]

上述公式中事件${ {B}_{i} }$的个数可为可列个。

独立性

若干个事件，如果对于其中任意个事件，它们的积事件的概率都等于各事件概率的积，则称这几个事件相互独立。

$A$与$B$相互独立$\Leftrightarrow P(AB)=P(A)P(B)$
$A$，$B$，$C$两两独立$\Leftrightarrow P(AB)=P(A)P(B)$;$P(BC)=P(B)P(C)$;$P(AC)=P(A)P(C)$;
$A$，$B$，$C$相互独立$\Leftrightarrow P(AB)=P(A)P(B)$;$P(BC)=P(B)P(C)$;$P(AC)=P(A)P(C)$;$P(ABC)=P(A)P(B)P(C)$

独立重复试验

将某试验独立重复$n$次，若每次试验中事件 A 发生的概率为$p$，则$n$次试验中$A$发生$k$次的概率为：$P{X=k}=C_{n}^{k}{ {p}^{k} }{ {(1-p)}^{n-k} }$

性质

若${ {A}{1} },{ {A}{2} },\cdots ,{ {A}{n} }$相互独立，则$P(\bigcap\limits{i=1}^{n}{ { {A}{i} } })=\prod\limits{i=1}^{n}{P({ {A}{i} })},$ $P(\bigcup\limits{i=1}^{n}{ { {A}{i} } })=\prod\limits{i=1}^{n}{(1-P({ {A}_{i} }))}$
若${ {A}{1} },{ {A}{2} },\cdots ,{ {A}{m} },{ {B}{1} },{ {B}{2} },\cdots ,{ {B}{n} }$相互独立，则$f({ {A}{1} },{ {A}{2} },\cdots ,{ {A}{m} })$与$g({ {B}{1} },{ {B}{2} },\cdots ,{ {B}{n} })$也相互独立，其中$f(\centerdot ),g(\centerdot )$分别表示对相应事件做任意事件运算后所得的事件，另外，概率为 1（或 0）的事件与任何事件相互独立。

互斥、互逆与独立性之间的关系

$A$与$B$互逆$\Rightarrow$ $A$与$B$互斥，但反之不成立，$A$与$B$互斥（或互逆）且均非零概率事件$\Rightarrow$ $A$与$B$不独立。

随机变量及其分布

随机变量

设随机试验的样本空间为$S={e}$，称定义在样本空间$S$上的实值单值函数$X=X(e)$为随机变量。

离散型随机变量及其分布律

取值有限或可列无限的随机变量称为离散型随机变量。设 X 的所有取值为$x_k(k=1,2,\ldots)$，称 X 取各个事件的概率$P{X=x_k}=p_k,k=1,2,\ldots$为离散型随机变量 X 的分布律，也可以写成表格形式：

$X$	$x_1$	$x_2$	$\ldots$	$x_n$	$\ldots$
$p_k$	$p_1$	$p_2$	$\ldots$	$p_n$	$\ldots$

其中，$p_k$满足：

$p_k\ge 0,k=1,2,\ldots$
$\sum_{k=1}^\infty p_k=1$

0-1 分布（两点分布）

$P{X=k} = p^{k}{(1 - p)}^{1 - k},k = 0,1$，则称 X 服从以 p 为参数的 0-1 分布（两点分布）

伯努利试验、二项分布

Binomial Distribution（二项分布）

背景：n 重 Bernoulli 试验中，每次试验感兴趣的事件 A 在 n 次试验中发生的次数 —— X 是一离散型随机变量。若$P(A)=p$,则$P_n(k)=P{X=k}=C_n^kp^k(1-p)^{n-k},k=0,1\ldots n$称 X 服从参数为$n, p$的二项分布，记作$X\sim B(n,p)$ 特别地，$0 – 1$分布是$n=1$的二项分布.

Poisson （泊松）分布

背景：已知某事发生速率为每单位时间 b 次，观察时间为 T 时间单位，X 为该观察时间内发生该事的总次数$\lambda=bT$ 设随机变量 X 的所有可能值是全体非负整数，若$P{X=k}=e^{-\lambda}\frac{\lambda^k}{k!},k=0,1,\ldots$其中$\lambda>0$是常数，则称 X 服从参数为$\lambda$的 Poisson 分布，记作$\pi(\lambda)$或$P(\lambda)$

泊松定理

可用于泊松分布逼近二项分布。设随机变量 X 服从二项分布，其分布律为$P{X=K}=C_n^kp^k(1-p)^{n-k}$,又设$np=\lambda$是常数，则有$\lim_{n\to\infty}P{X=K}=e^{-\lambda}\frac{\lambda^k}{k!}$ 在实际计算中,当$n\ge 20,p\leq 0.05$时，可用上述公式近似计算；而当$n\ge 100,np\leq 10$时，精度更好。

几何分布

在 n 次伯努利试验中，试验 k 次才得到第一次成功的机率。 $G(p):P{X=k} = {(1 - p)}^{k - 1}p,0 < p < 1,k = 1,2,\cdots,P{X = m + k\vert X > m} = P{X=k}$

超几何分布

设有产品 N 件，其中次品 D 件，其余为正品，从中随机地抽取 n 件。记 X 为抽到的的次品件数，求 X 的分布律. 此时抽到 k 件次品的概率为$H(N,M,n):P{X=k} = \frac{C_{M}^{k}C_{N - M}^{n -k} }{C_{N}^{n} },k =0,1,\cdots,min(n,M)$，称 X 服从超几何分布. 可以证明超几何分布的极限分布就是二项分布.

负二项分布(Pascal 分布)

离散均匀分布

随机变量的分布函数

定义

$F(x) = P(X \leq x), - \infty < x < + \infty$

性质

$0 \leq F(x) \leq 1$
$F(x)$单调不减
右连续$F(x) = F(x+0)$
$F( - \infty) = 0,F( + \infty) = 1$

连续型随机变量及其概率密度

概率密度$f(x)$非负可积，且:

$f(x) \geq 0$
$\int_{- \infty}^{+\infty}{f(x){dx} = 1}$
$x$为$f(x)$的连续点，则: $f(x) = F’(x)$分布函数$F(x) = \int_{- \infty}^{x}{f(t){dt} }$

均匀分布

设连续型随机变量 X 具有概率密度 $p(x)=\begin{cases}\frac{1}{b-a},a\leq x\leq b,\0,其它\end{cases}$则称 X 在$(a,b)$上服从均匀分布，记作$X\sim U(a,b)$ 分布函数$F(x)=\begin{cases}0,x<a\ \frac{x-a}{b-a},a\leq x< b\1,x\ge b\end{cases}$

指数分布

设连续型随机变量 X 具有概率密度 $p(X)=\begin{cases}\lambda e^{-\lambda x},x\ge 0,\0,x<0\end{cases}$，其中$\lambda >0$为常数，则称 X 在$(a,b)$上服从指数分布。分布函数$F(x)=\begin{cases}1-e^{-\frac{x}{\theta}},x>0\0,x\le 0\end{cases}$ 无记忆性：$\forall s,t>0$，$P{x>s+t\vert x>s}=p{x>t}$，即，如果 T 是某一元件的寿命，已知元件使用了 s 小时，它总共使用至少 s+t 小时的条件概率，与从开始使用时算起它使用至少 t 小时的概率相等。

正态分布（高斯分布，Gauss）

设连续型随机变量 X 具有概率密度 $p(X)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2} }$则称 X 服从参数为$\mu,\sigma$的正态分布或高斯分布，记作$X\sim N(\mu,\sigma^2)$ $\mu$是位置参数，即固定$\sigma$，对于不同的$\mu$，对应的 f(x)的形状不变化，只是位置不同。 $\sigma$是形状参数，即固定$\mu$，对于不同的$\sigma$，对应 f(x)位置不变化，只是$\sigma$越小，靠近$\mu$附近取值的概率越大，相应拐点越接近于 ox 轴。$\sigma$大小与曲线陡峭程度成反比（几何意义），与数据分散程度成正比（数据意义）。

标准正态分布 N(0,1)

密度函数$\varphi(x)=\frac{1}{\sqrt{2\pi} }e^{-\frac{x^2}{2} }$是偶函数，其分布函数为$\Phi(x)=\frac{1}{\sqrt{2\pi} }\int_{-\infty}^xe^{-\frac{t^2}{2} }\,dt$，其值可查表。正态分布表 $\varphi(0) = \frac{1}{\sqrt{2\pi} },\Phi(0) =\frac{1}{2},$ $\Phi( - a) = P(X \leq - a) = 1 - \Phi(a)$ $X\sim N\left( \mu,\sigma^{2} \right) \Rightarrow \frac{X -\mu}{\sigma}\sim N\left( 0,1 \right),P(X \leq a) = \Phi(\frac{a -\mu}{\sigma})$

随机变量的函数的分布

离散型：$P(X = x_{1}) = p_{i},Y = g(X)$，则: $P(Y = y_{j}) = \sum_{g(x_{i}) = y_{i} }^{}{P(X = x_{i})}$
连续型：$X\sim f_{X}(x),Y = g(x)$，则:$F_{y}(y) = P(Y \leq y) = P(g(X) \leq y) = \int_{g(x) \leq y}^{}{f_{x}(x)dx}$， $f_{Y}(y) = F’_{Y}(y)$
离散型随机变量的分布函数为阶梯间断函数；连续型随机变量的分布函数为连续函数，但不一定为处处可导函数。
存在既非离散也非连续型随机变量。

多维随机变量及其分布

二维随机变量

由两个随机变量构成的随机向量$(X,Y)$，联合分布为$F(x,y) = P{X \le x,Y \le y}$ $P{ X = x_{i},Y = y_{j}} = p_{ {ij} };i,j =1,2,\cdots$ $f(x,y) \geq 0$ $\int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{f(x,y)dxdy} } = 1$ $F(x,y) = \int_{- \infty}^{x}{\int_{- \infty}^{y}{f(u,v)dudv} }$

边缘分布

$p_{i \cdot} = \sum_{j = 1}^{\infty}p_{ {ij} },i =1,2,\cdots$ $p_{\cdot j} = \sum_{i}^{\infty}p_{ {ij} },j = 1,2,\cdots$ $f_{X}\left( x \right) = \int_{- \infty}^{+ \infty}{f\left( x,y \right){dy} }$ $f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$

条件分布

$P{ X = x_{i}\vert Y = y_{j}} = \frac{p_{ {ij} } }{p_{\cdot j} }$ $P{ Y = y_{j}\vert X = x_{i}} = \frac{p_{ {ij} } }{p_{i \cdot} }$ $f_{X\vert Y}\left( x \middle\vert y \right) = \frac{f\left( x,y \right)}{f_{Y}\left( y \right)}$ $f_{Y\vert X}(y\vert x) = \frac{f(x,y)}{f_{X}(x)}$

相互独立的随机变量

若$P{X\le x,Y\le y}=P{X\le x}P{Y\le y}$，即$F(x,y)=F_X(x)F_Y(y)$，则称随机变量$X,Y$是相互独立的。对于连续型随机变量，即$f(x,y)=f_X(x)f_Y(y)$在平面上几乎（除去面积为 0 的集合外）处处成立。对于离散型随机变量，即$P{X=x_i,Y=y_i}=P{X=x_i}P{Y=y_i}$。对于二维正态随机变量$(X,Y)$，$X,Y$相互独立的充要条件是参数$\rho=0$。

两个随机变量的函数的分布

二维均匀分布

$(x,y) \sim U(D)$ ,$f(x,y) = \begin{cases} \frac{1}{S(D)},(x,y) \in D \ 0,其他 \end{cases}$

二维正态分布

$(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$,$(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$ $f(x,y) = \frac{1}{2\pi\sigma_{1}\sigma_{2}\sqrt{1 - \rho^{2} } }.\exp\left{ \frac{- 1}{2(1 - \rho^{2})}\lbrack\frac{ {(x - \mu_{1})}^{2} }{\sigma_{1}^{2} } - 2\rho\frac{(x - \mu_{1})(y - \mu_{2})}{\sigma_{1}\sigma_{2} } + \frac{ {(y - \mu_{2})}^{2} }{\sigma_{2}^{2} }\rbrack \right}$

随机变量的独立性和相关性

$X$和$Y$的相互独立:$\Leftrightarrow F\left( x,y \right) = F_{X}\left( x \right)F_{Y}\left( y \right)$: $\Leftrightarrow p_{ {ij} } = p_{i \cdot} \cdot p_{\cdot j}$（离散型） $\Leftrightarrow f\left( x,y \right) = f_{X}\left( x \right)f_{Y}\left( y \right)$（连续型） $X$和$Y$的相关性：

相关系数$\rho_{ {XY} } = 0$时，称$X$和$Y$不相关，否则称$X$和$Y$相关

两个随机变量的函数的分布

$Z=X+Y$的分布

$f_{X+Y}(z)=\int_{-\infty}^\infty f(x,z-x)dx$

$Z=\frac{Y}{X}$的分布、$Z=XY$的分布

$f_{Y/X}(z)=\int_{-\infty}^\infty \vert x\vert f(x,xz)dx$ $f_{XY}(z)=\int_{-\infty}^\infty \frac{1}{\vert x\vert }f(x,\frac{z}{x})dx$

$M=\max{X,Y}$的分布、$N=\min{X,Y}$的分布

$F_{max}(z)=\Pi F_{x_i}(z)$ $F_{min}(z)=1-\Pi (1-F_{x_i}(z))$

离散型

$P\left( X = x_{i},Y = y_{i} \right) = p_{ {ij} },Z = g\left( X,Y \right)$ 则： $P(Z = z_{k}) = P\left{ g\left( X,Y \right) = z_{k} \right} = \sum_{g\left( x_{i},y_{i} \right) = z_{k} }^{}{P\left( X = x_{i},Y = y_{j} \right)}$

连续型

$\left( X,Y \right) \sim f\left( x,y \right),Z = g\left( X,Y \right)$ 则： $F_{z}\left( z \right) = P\left{ g\left( X,Y \right) \leq z \right} = \iint_{g(x,y) \leq z}^{}{f(x,y)dxdy}$，$f_{z}(z) = F’_{z}(z)$

重要公式与结论

$f_{X}(x) = \int_{- \infty}^{+ \infty}{f(x,y)dy,}$ $f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$ $P\left{ \left( X,Y \right) \in D \right} = \iint_{D}^{}{f\left( x,y \right){dxdy} }$ 若$(X,Y)$服从二维正态分布$N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$ 则有：

$X\sim N\left( \mu_{1},\sigma_{1}^{2} \right),Y\sim N(\mu_{2},\sigma_{2}^{2}).$
$X$与$Y$相互独立$\Leftrightarrow \rho = 0$，即$X$与$Y$不相关。
$C_{1}X + C_{2}Y\sim N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} + C_{2}^{2}\sigma_{2}^{2} + 2C_{1}C_{2}\sigma_{1}\sigma_{2}\rho)$
${\ X}$关于$Y=y$的条件分布为： $N(\mu_{1} + \rho\frac{\sigma_{1} }{\sigma_{2} }(y - \mu_{2}),\sigma_{1}^{2}(1 - \rho^{2}))$
$Y$关于$X = x$的条件分布为： $N(\mu_{2} + \rho\frac{\sigma_{2} }{\sigma_{1} }(x - \mu_{1}),\sigma_{2}^{2}(1 - \rho^{2}))$

若$X$与$Y$独立，且分别服从$N(\mu_{1},\sigma_{1}^{2}),N(\mu_{1},\sigma_{2}^{2}),$ 则：$\left( X,Y \right)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},0),$

$C_{1}X + C_{2}Y\sim{\ }N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} C_{2}^{2}\sigma_{2}^{2}).$

若$X$与$Y$相互独立，$f\left( x \right)$和$g\left( x \right)$为连续函数，则$f\left( X \right)$和$g(Y)$也相互独立。

随机变量的数字特征

数学期望

数学期望简称期望，又称均值。数学期望完全由概率分布决定。

离散型

若离散型随机变量$X$的分布律为$P\left{ X = x_{i} \right} = p_{i}$ ，且级数$E(X) = \sum_{i}^{}{x_{i}p_{i} }$绝对收敛，则称$E(x)$为随机变量$X$的数学期望。

连续型

$X\sim f(x),E(X) = \int_{- \infty}^{+ \infty}{xf(x)dx}$

性质

$E(C) = C,E\lbrack E(X)\rbrack = E(X)$
$E(C_{1}X + C_{2}Y) = C_{1}E(X) + C_{2}E(Y)$
若$X$和$Y$独立，则$E(XY) = E(X)E(Y)$
$\left\lbrack E(XY) \right\rbrack^{2} \leq E(X^{2})E(Y^{2})$

随机变量函数的数学期望

对于函数$Y = g(x)$：

$X$为离散型

$P{ X = x_{i}} = p_{i},E(Y) = \sum_{i}^{}{g(x_{i})p_{i} }$；

$X$为连续型

$X\sim f(x),E(Y) = \int_{- \infty}^{+ \infty}{g(x)f(x)dx}$ 扩展到多维函数：$Z = g(X,Y)$;$\left( X,Y \right)\sim P{ X = x_{i},Y = y_{j}} = p_{ {ij} }$;$E(Z) = \sum_{i}^{}{\sum_{j}^{}{g(x_{i},y_{j})p_{ {ij} } } }$ $\left( X,Y \right)\sim f(x,y)$;$E(Z) = \int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{g(x,y)f(x,y)dxdy} }$

方差

$D(X) = E\left\lbrack X - E(X) \right\rbrack^{2} = E(X^{2}) - \left\lbrack E(X) \right\rbrack^{2}$，有时也记作$Var(X)$。同时引入标准差（均方差）$\sigma (x)=\sqrt{D(X)}$。

离散型

$D(X) = \sum_{i}^{}{\left\lbrack x_{i} - E(X) \right\rbrack^{2}p_{i} }$

连续型

$D(X) = {\int_{- \infty}^{+ \infty}\left\lbrack x - E(X) \right\rbrack}^{2}f(x)dx$

性质

$\ D(X) = E(X^{2}) - E^{2}(X)$
$\ D(C) = 0,D\lbrack E(X)\rbrack = 0,D\lbrack D(X)\rbrack = 0$
$\ D\left( C_{1}X + C_{2} \right) = C_{1}^{2}D\left( X \right)$
$X$与$Y$相互独立，则$D(X \pm Y) = D(X) + D(Y)$
$\ D(X) = 0 \Leftrightarrow P\left{ X = C \right} = 1$
$\ D\left( X \right) < E\left( X - C \right)^{2},C \neq E\left( X \right)$

Chebyshev（切比雪夫）不等式

若随机变量$X$满足$E(X)=\mu$，方差$D(x)=\sigma^2$，则对于任意正数$\varepsilon$，有切比雪夫不等式$P{\vert X-\mu\vert \ge\varepsilon}\leq\frac{\sigma^2}{\varepsilon^2}$成立。

协方差及相关系数

$Cov(X,Y) = E\left\lbrack (X - E(X)(Y - E(Y)) \right\rbrack$称为随机变量$X,Y$的协方差，$\rho_{ {XY} } = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)} }$称为他们的相关系数。

性质

$\ Cov(X,Y) = Cov(Y,X)$
$\ Cov(aX,bY) = abCov(Y,X)$
$\ Cov(X_{1} + X_{2},Y) = Cov(X_{1},Y) + Cov(X_{2},Y)$
$\ \left\vert \rho\left( X,Y \right) \right\vert \leq 1$
$\ \rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$ ，其中$a > 0$
$\rho\left( X,Y \right) = - 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$，其中$a < 0$
一般有 $D(X \pm Y) = D(X) + D(Y) \pm 2Cov(X,Y) = D(X) + D(Y) \pm 2\rho\sqrt{D(X)}\sqrt{D(Y)}$

重要公式与结论

$\ Cov(X,Y) = E(XY) - E(X)E(Y)$
$\left\vert \rho\left( X,Y \right) \right\vert \leq 1,$且 $\rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$，其中$a > 0$
$\rho\left( X,Y \right) = - 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$，其中$a < 0$
下面 5 个条件互为充要条件：$\rho(X,Y) = 0$ $\Leftrightarrow Cov(X,Y) = 0$ $\Leftrightarrow E(X,Y) = E(X)E(Y)$ $\Leftrightarrow D(X + Y) = D(X) + D(Y)$ $\Leftrightarrow D(X - Y) = D(X) + D(Y)$。注：$X$与$Y$独立为上述 5 个条件中任何一个成立的充分条件，但非必要条件。

矩、协方差矩阵（待补充）

$E(X^{k})$称为$X$的$k$阶原点矩，简称$k$阶矩。 $E\left{ {\lbrack X - E(X)\rbrack}^{k} \right},k=2,3,\ldots$称为$X$的$k$阶中心矩。 $E(X^{k}Y^{l})$称为$X,Y$的$k+l$阶混合矩。 $E\left{ {\lbrack X - E(X)\rbrack}^{k} {\lbrack Y - E(Y)\rbrack}^{l}\right},k,l=2,3,\ldots$称为$X,Y$的$k+l$阶混合中心矩。显然，$E(X)$是$X的一阶原点矩，$D(X)$是$X 的二阶中心矩，$Cov(X,Y)$是$X,Y$的二阶混合中心矩。

大数定律及中心极限定理

大数定律

辛钦大数定理（弱大数定理）

设随机变量$X_1,X_2,\ldots,X_n,\ldots$相互独立，服从同一分布且具有数学期望$E(X_k)=\mu,(k=1,2,\ldots)$，则序列$\overline{X}=\frac{1}{n}\sum_{k=1}^nX_k$依概率收敛于$\mu$。

伯努利大数定理

伯努利大数定理是辛钦大数定理的一个重要推论，它表明：试验次数很大时，可用事件的频率代替事件的概率。设$f_A$是 n 次独立重复试验中事件 A 发生的次数，$p$是事件 A 在每次试验中发生的概率，则对于任意的正数$\varepsilon$，有$\lim_{n\to\infty}P{\vert \frac{f_A}{n}-p\vert <\varepsilon}=1$，$\lim_{n\to\infty}P{\vert \frac{f_A}{n}-p\vert \ge\varepsilon}=0$。

中心极限定理

独立同分布的中心极限定理

设随机变量$X_1,X_2,\ldots,X_n,\ldots$相互独立，服从同一分布且具有数学期望和方差$E(X_k)=\mu,D(X_k)=\sigma^2>0,(k=1,2,\ldots)$，则随机变量之和$\sum_{k=1}^nX_k$的标准化变量$Y_n=\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}$的分布函数$F_n(x)$对任意 x 满足$\lim_{n\to\infty}F_n(x)=\Phi(x)$。这就是说，n 足够大的时候，近似地有$\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}\sim N(0,1)$或$\overline{X}~N(\mu,\frac{\sigma^2}{n})$

Lyapunov（李雅普诺夫）定理

设随机变量$X_1,X_2,\ldots,X_n,\ldots$相互独立，具有数学期望和方差$E(X_k)=\mu_k,D(X_k)=\sigma_k^2>0,(k=1,2,\ldots)$，记$B_n=\sum_{k=1}^n\sigma_k^2$，若存在正数$\delta$，使得当$n\to\infty$时，$\frac{1}{B_n^{2+\delta}}\sum_{k=1}^nE{\vert X_k-\mu_k\vert ^{2+\delta}}\to 0$，则随机化变量之和$\sum_{k=1}^nX_k$的标准化变量$Z_n=\frac{\sum_{k=1}^nX_k-\sum_{k=1}^n\mu_k}{B_n}$的分布函数$F_n(x)$对于任意 x 满足$\lim_{n\to\infty}F_n(x)=\Phi(x)$。该定理表明，n 足够大的时候，近似地有$Z_n\sim N(0,1)$。

De Moivre-Laplace（棣莫弗-拉普拉斯）定理

独立同分布的中心极限定理的特殊情况，设随机变量$\eta_n(n=1,2,\ldots)$服从参数为$n,p(0 < p < 1) $的二项分布，则对于任意 x，有$\lim_{n\to\infty}P{\frac{\eta_n-np}{\sqrt{np(1-p)}}\leq x}=\Phi(x)$。

样本及抽样分布

随机样本

总体

研究对象的全体，它是一个随机变量，用$X$表示。

个体

组成总体的每个基本元素。

简单随机样本

来自总体$X$的$n$个相互独立且与总体同分布的随机变量$X_{1},X_{2}\cdots,X_{n}$，称为容量为$n$的简单随机样本，简称样本。

直方图和箱线图

直方图

箱线图

样本分位数

若$P(X \leq x_{\alpha}) = \alpha,$则称$x_{\alpha}$为$X$的$\alpha$分位数

抽样分布

统计量

设$X_{1},X_{2}\cdots,X_{n},$是来自总体$X$的一个样本，$g(X_{1},X_{2}\cdots,X_{n})$）是样本的连续函数，且$g()$中不含任何未知参数，则称$g(X_{1},X_{2}\cdots,X_{n})$为统计量。

样本均值

$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}$

样本方差

$S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{2}$

样本矩

样本$k$阶原点矩：$A_{k} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}^{k},k = 1,2,\cdots$

样本 k 阶中心矩

$B_{k} = \frac{1}{n}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{k},k = 1,2,\cdots$

常用统计量分布

$\chi^{2}$分布

$\chi^{2} = X_{1}^{2} + X_{2}^{2} + \cdots + X_{n}^{2}\sim\chi^{2}(n)$，其中$X_{1},X_{2}\cdots,X_{n},$相互独立，且同服从$N(0,1)$

$t$分布

$T = \frac{X}{\sqrt{Y/n} }\sim t(n)$ ，其中$X\sim N\left( 0,1 \right),Y\sim\chi^{2}(n),$且$X$，$Y$ 相互独立。

$F$分布

$F = \frac{X/n_{1} }{Y/n_{2} }\sim F(n_{1},n_{2})$，其中$X\sim\chi^{2}\left( n_{1} \right),Y\sim\chi^{2}(n_{2}),$且$X$，$Y$相互独立。

正态总体的常用样本分布

设$X_{1},X_{2}\cdots,X_{n}$为来自正态总体$N(\mu,\sigma^{2})$的样本，$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i},S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{ {(X_{i} - \overline{X})}^{2} }$，则：

$\overline{X}\sim N\left( \mu,\frac{\sigma^{2} }{n} \right){\ \ }$或者$\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n} } }\sim N(0,1)$
$\frac{(n - 1)S^{2} }{\sigma^{2} } = \frac{1}{\sigma^{2} }\sum_{i = 1}^{n}{ {(X_{i} - \overline{X})}^{2}\sim\chi^{2}(n - 1)}$
$\frac{1}{\sigma^{2} }\sum_{i = 1}^{n}{ {(X_{i} - \mu)}^{2}\sim\chi^{2}(n)}$
${\ \ }\frac{\overline{X} - \mu}{S/\sqrt{n} }\sim t(n - 1)$

重要公式与结论

对于$\chi^{2}\sim\chi^{2}(n)$，有$E(\chi^{2}(n)) = n,D(\chi^{2}(n)) = 2n$；
对于$T\sim t(n)$，有$E(T) = 0,D(T) = \frac{n}{n - 2}(n > 2)$；
对于$F\sim{\ }F(m,n)$，有 $\frac{1}{F}\sim F(n,m),F_{a/2}(m,n) = \frac{1}{F_{1 - a/2}(n,m)}$；
对于任意总体$X$，有 $E(\overline{X}) = E(X),E(S^{2}) = D(X),D(\overline{X}) = \frac{D(X)}{n}$