概统笔记

\(\mathcal{Author:gpf}\)

随机事件的概率

概念

\(P(A)=0\nRightarrow A=\emptyset\)

\(A\cap B=\emptyset\nRightarrow\) \(A\)\(B\) 独立

\(A\)\(B\) 独立 \(\nRightarrow\bar{A}\)\(B\) 独立

互不相容(交集为空)、互逆根据事件定义,独立根据概率定义

公式

加法公式:\(P(A+B)=P(A)+P(B)-P(AB)\)

条件概率:\(P(A|B)=\dfrac{P(AB)}{P(B)}\)

全概率公式:\(P(A)=\sum\limits_{i=1}^nP(B_i)P(A|B_i)\),其中 \(\sum\limits_{i=1}^nP(B_i)=S\)\(P(B_i)>0\)\(B_i\) 互不相容

另有 \(P(A)=P(AB)+P(A\bar{B})\)

贝叶斯公式:\(P(A|B)=\dfrac{P(A)P(B|A)}{P(B)}=\dfrac{P(A)P(B|A)}{P(A)P(B|A)+P(\bar{A})P(B|\bar{A})}\)

随机变量及其分布

一维随机变量

两点分布

泊松分布

\(P\{X=k\}=e^{-\lambda}\dfrac{\lambda^k}{k!},k=0,1,2...\) 其中 \(\lambda>0\),记作 \(X\sim\Pi(\lambda)\)

重要公式:\(e^x=\sum\limits_{k=0}^{+\infty}\dfrac{x^k}{k!}\)

几何分布

n次伯努利实验中,实验k次才成功一次的概率

\(P\{x=k\}=(1-p)^{k-1}p,k=1,2,...\) ,记为 \(X\sim GE(p)\)

超几何分布

书上定义:

M件正品,N件次品,从中任意取n件,取到的次品数X。

\(P\{X=k\}=\dfrac{C_N^kC_M^{n-k}}{C_{M+N}^n},k=0,1,2...l,l=\min\{n,N\}\)

讲义、高中、百度百科定义:

N件产品,M件次品,从中任意取n件,取到的次品数X。

\(P\{X=k\}=\dfrac{C_M^kC_{N-M}^{n-k}}{C_N^n},k=0,1,2...l,l=\min\{n,M\}\) ,记为 \(X\sim H(n,M,N)\)

N、M较大时,可用二项分布逼近,\(p=\dfrac{M}{N}\)

二项分布

\(P\{X=k\}=C_n^kp^k(1-p)^{n-k}\) ,记作 \(X\sim B(n,p)\)

当n很大、p较小时,二项分布近似于泊松分布,且有 \(C_n^kp^k(1-p)^{n-k}\approx\dfrac{e^{-\lambda}\lambda^k}{k!}\),其中 \(\lambda=np\)

均匀分布

指数分布

\(f(x)=\begin{cases}\lambda e^{-\lambda x}&x\geqslant0\\0&x<0\end{cases}\) ,其中 \(\lambda>0\) 为常数,称服从参数为 \(\lambda\) 的指数分布

指数分布具有无后效性

正态分布

\(f(x)=\dfrac{1}{\sigma\sqrt{2\pi}}e^{-\tfrac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty\) ,记作 \(X\sim N(\mu,\sigma^2)\)

重要公式:\(\int_{-\infty}^{+\infty}e^{-x^2}dx=\sqrt{\pi}\)

\(F(x)=\Phi(\frac{x-\mu}{\sigma})\)

\(\Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}dt\)\(\Gamma(x+1)=x\Gamma(x)\)\(\Gamma(n)=(n-1)!\)\(\Gamma(\frac{1}{2})=\sqrt{\pi}\)

二维随机变量

二维正态分布:

\(f(x,y)=\dfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\tfrac{1}{2(1-\rho^2)}[(\tfrac{x-\mu_1}{\sigma_1})^2-2\rho\tfrac{x-\mu_1}{\sigma_1}\tfrac{y-\mu_2}{\sigma_2}+(\tfrac{y-\mu_2}{\sigma_2})^2]}\)\((X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)\)

条件分布:\(F_{X|Y}(x)=\int_{-\infty}^{x}\dfrac{f(u,y)}{f_Y(y)}du,f_{X|Y}(x)=\dfrac{f(x,y)}{f_Y(y)}\)

X、Y独立:\(F(x,y)=F_X(x)F_Y(y),f(x,y)=f_X(x)f_Y(y)\),并且任意 \(U=g(X),V=f(Y)\),U,V相互独立

复合随机变量

一般方法

  • 一维:记 \(Y=g(X),D_y=\{x|g(x)\leqslant y\}=g^{-1}\{(-\infty,y]\}\),则有

\[ \begin{aligned} F_Y(y)&=p\{Y\leqslant y\}=P\{g(X)\leqslant y\}\\ &=P\{X\in D_y\}=\int_{D_y}f(x)dx\\ f_Y(y)&=F_Y(y)' \end{aligned} \]

  • 二维:记 \(Z=g(X,Y),D_z=\{(x,y)|g(x,y\leqslant z)\}\),则有

\[ \begin{aligned} F_Z(z)&=p\{Z\leqslant z\}=P\{g(X,Y)\leqslant z\}\\ &=P\{(X,Y)\in D_z\}=\iint\limits_{D_y}f(x,y)dxdy\\ f_Z(z)&=F_Z(z)' \end{aligned} \]

特殊方法

  • 一维概率密度,\(Y=g(X)\) 且g严格单调,有 \(f_Y(y)=f(g^{-1}(y))\cdot|(g^{-1}(y))'|\)

  • \(Z=X+Y\)

\[ \begin{aligned} F_Z(z)&=P\{Z\leqslant z\}=P\{X+Y\leqslant z\}\\ &=\iint\limits_{D_z}f(x,y)dxdy\\ &=\int_{-\infty}^{+\infty}[\int_{-\infty}^{z-x}f(x,y)dy]dx\\ &=\int_{-\infty}^{+\infty}[\int_{-\infty}^{z}f(x,t-x)dt]dx\\ &=\int_{-\infty}^{z}[\int_{-\infty}^{+\infty}f(x,t-x)dx]dt\\ f_Z(z)&=\int_{-\infty}^{+\infty}f(x,z-x)dx \end{aligned} \]

  • \(Z=\max\{X,Y\}\)

\[ \begin{aligned} F_{\max}(z)&=P\{Z\leqslant z\}=P\{\max\{X,Y\}\leqslant z\}\\ &=P\{X\leqslant z,Y\leqslant z\}=F(z,z)\\ &=\int_{-\infty}^z\int_{-\infty}^zf(x,y)dxdy\\ &=F_X(z)\cdot F_Y(z)(X与Y独立) \end{aligned} \]

  • \(Z=\min\{X,Y\}\)

法一:

$$ \[\begin{aligned} F_{\min}(z)&=P\{Z\leqslant z\}=P\{\min\{X,Y\}\leqslant z\}\\ &=P(\{X\leqslant z\}+\{Y\leqslant z\})\\ &=P\{X\leqslant z\}+P\{Y\leqslant z\}-P\{X\leqslant z,Y\leqslant z\}\\ &=F_X(z)+F_Y(z)-F(z,z) \end{aligned}\]

$$

法二:

$$ \[\begin{aligned} F_{\min}(z)&=P\{Z\leqslant z\}=P\{\min\{X,Y\}\leqslant z\}\\ &=1-P\{\min\{X,Y\}>z\}=1-P\{X>z,Y>z\}\\ &=1-\iint\limits_{x>z\atop y>z}f(x,y)dxdy\\ &=1-[1-F_X(z)]\cdot[1-F_Y(z)] (X,Y独立) \end{aligned}\]

$$

特殊分布

\(X_i\sim N(\mu_i,\sigma_i^2)\),且相互独立,则有 \(Z=\sum\limits_{i=1}^nk_iX_i+b\sim N(\sum\limits_{i=1}^nk_i\mu_i,\sum\limits_{i=1}^nk_i^2\sigma_i^2)\)

\(X\sim \Pi(\lambda_1),Y\sim\Pi(\lambda_2)\),且相互独立,则有 \(Z=X+Y\sim\Pi(\lambda_1+\lambda_2)\)

随机变量的数字特征

期望

基本定义

离散:\(E(X)=EX=\sum\limits_{k=1}^{+\infty}x_kp_k\)

连续:\(EX=\int_{-\infty}^{+\infty}xf(x)dx\)

二维:\(E(XY)=\sum\limits_i\sum\limits_jx_iy_jp_{ij}=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xyf(x,y)dxdy\)

性质

  • \(Y=g(X),则EY=\int_{-\infty}^{+\infty}g(X)f(x)dx\) *要求积分绝对收敛

  • \(C\) 为常数,则 \(E(C)=C\)

  • \(E(CX)=CE(X)\) \(E(X+Y)=EX+EY\)

  • 若X,Y独立,则 \(E(XY)=EX\cdot EY\)

方差

基本定义

\(DX=D(X)=E(X-EX)^2\)\(\sqrt{DX}\) 称标准差(均方差)

性质

  • \(DX=EX^2-(EX)^2\) 非常重要,经常使用!!!

  • \(C\) 为常数,\(D(C)=0\)

  • \(D(CX)=C^2DX\)

  • X,Y独立,则 \(D(aX+bY+c)=a^2DX+b^2DY\)

  • \(EX^2\) 存在,则 \(k=EX\) 时,有 \(\min\{E(X-k)^2\}=DX\)

其他特征

协方差

\(cov(X,Y)=E(X-EX)(Y-EY)\) ,可记为 \(\sigma_{XY}\)

  • 计算:\(cov(X,Y)=E(XY)-EXEY\)

  • 对称性:\(cov(X,Y)=cov(Y,X)\) ,且 \(cov(X,X)=DX\)

  • 线性:\(cov(aX,bY)=abcov(X,Y)\)

  • 求和:\(cov(\sum X_i,\sum Y_j)=\sum_i\sum_jcov(X_i,Y_j)\)

  • \(D(\sum X_i)=\sum D(X_i)+\sum\sum_{i\ne j}cov(X_i,Y_j)\)

相关系数

\(\rho(X,Y)=\dfrac{cov(X,Y)}{\sqrt{DXDY}}\), 记为 \(\rho_{XY}\)

  • 独立一定不相关,不相关不一定独立

  • 二维正态分布下,不相关=独立

*矩、矩母函数、协方差矩阵

\(EX^n=\int_{-\infty}^{+\infty}x^nf(x)dx\) 为X的n阶矩,\(E(X-EX)^n\) 称X的n阶中心矩

X的期望存在,则X的矩母函数定义为 \(M_X(s)=E(e^{sX})\) ,记为 \(M(s)\)

\(EX^n=\dfrac{d^nM(s)}{ds^n}|_{s=0}\)

正态分布 \(X\sim N(0,\sigma^2)\) ,则有

\(EX^k=\dfrac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{+\infty}x^ke^{-\tfrac{x^2}{2\sigma^2}}dx=\sqrt{\frac{2}{\pi}}\sigma^k2^{\frac{(k-1)}{2}}\Gamma(\frac{k+1}{2})=\sigma^k(k-1)(k-3)...1\)

对n维随机向量 \((X_1,X_2,...,X_n)\) ,若 \(C_{ij}=Cov(X_i,X_j)=E[(X_i-EX_i)(X_j-EX_j)]\) 存在,则矩阵 \(C=(C_{ij})_{n\times n}\) 称n维随机向量的协方差矩阵

\(X=(x_1,x_2,...,x_n)^T,U=(\mu_1,\mu_2,...,\mu_n)^T,C\) ,且n维随机变量 \((X_1,X_2,...,X_n)\) 概率密度满足 \(f(x_1,x_2,...,x_n)=\dfrac{1}{(2\pi)^{\tfrac{n}{2}}(\det C)^{\tfrac{1}{2}}}\exp[-\dfrac{1}{2}(X-U)^TC^{-1}(X-U)]\) ,则称n维正态随机变量

常见分布的数字特征

形式 分布律/概率密度 EX DX
两点分布 \(P(x=0)=1-p,P(x=1)=p\) p p(1-p)
二项分布 \(X\sim B(n,p)\) \(P(x=k)=C_n^kp^n(1-p)^{n-k}\) np np(1-p)
泊松分布 \(X\sim \Pi(\lambda)\) \(P\{X=k\}=e^{-\lambda}\frac{\lambda^k}{k!}\) \(\lambda\) \(\lambda\)
几何分布 \(X\sim GE(p)\) \(P\{x=k\}=(1-p)^{k-1}p\) \(\dfrac{1}{p}\) \(\dfrac{1-p}{p^2}\)
超几何分布 \(X\sim H(n,M,N)\) \(P\{X=k\}=\dfrac{C_M^kC_{N-M}^{n-k}}{C_N^n}\) \(\dfrac{nM}{N}\) \(\dfrac{nM}{N}(1-\dfrac{M}{N})\dfrac{N-n}{N-1}\)
均匀分布 \(X\sim U(a,b)\) \(f(x)=\dfrac{1}{b-a}\) \(\dfrac{a+b}{2}\) \(\dfrac{(b-a)^2}{12}\)
指数分布 \(f(x)=\lambda e^{-\lambda x},x\geqslant0\) \(\dfrac{1}{\lambda}\) \(\dfrac{1}{\lambda^2}\)
正态分布 \(X\sim N(\mu,\sigma^2)\) \(f(x)=\dfrac{1}{\sigma\sqrt{2\pi}}e^{-\tfrac{(x-\mu)^2}{2\sigma^2}}\) \(\mu\) \(\sigma^2\)
卡方分布 \(X\sim \chi(n)\) \(f(x)=\dfrac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\tfrac{n}{2}-1}e^{-\tfrac{x}{2}}\) n 2n
t分布 \(X\sim t(n)\) \(f(t)=\dfrac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\dfrac{t^2}{n})^{-\tfrac{n+1}{2}}\) 0 \(\dfrac{n}{n-2}\)

不等式与大数定律

概率不等式

柯西-许瓦茨不等式:\(EX^2EY^2\geqslant(EXY)^2\)

\((E|X+Y|^2)^{\frac{1}{2}}\leqslant(EX^2)^{\frac{1}{2}}+(EY^2)^{\frac{1}{2}}\)

琴生不等式:若 \(g(x)\) 是凸函数,则 \(Eg(X)\geqslant g(EX)\)

马尔可夫不等式:设随机变量X非负,则任意a>0,k>0,\(P(X>a)\leqslant\dfrac{EX^k}{a^k}\)

切比雪夫不等式:设随机变量均值 \(\mu\),方差 \(\sigma^2\),则任意a>0,\(P(|X-\mu|\geqslant k)\leqslant\dfrac{\sigma^2}{k^2}\)

弱大数定律:设 \(X_i\) 是独立同分布的随机变量列,期望方差存在,则对任意 \(\epsilon>0\)\(\lim\limits_{n\to\infty}P(|\overline{X_n}-\mu|\geqslant\epsilon)=0\)。其中,\(\overline{X_n}=\dfrac{1}{n}\sum\limits_{i=1}^{i=n}X_i\)

强大数定律:有限四阶矩存在,\(P(\lim\limits_{n\to\infty}\overline{X_n}=\mu)=1\)

*随机变量的极限

依概率收敛:\(P(|X_n-X|\geqslant\varepsilon)\to0\),记为 \(X_n\xrightarrow{P}X\)

以概率1收敛:\(P(\lim X_n=X)=1\) ,记为 \(X_n\xrightarrow{as}X\)

依分布收敛:\(\lim P(X_n\leqslant x)=F_X(x),\lim F_{X_{n}}(x)=F_X(x)\) ,记为 \(X_n\xrightarrow{d}X\)

中心极限定理

独立同分布随机变量序列 \(X_n\) ,期望方差存在,定义 \(S_n=\sum\limits_{i=1}^{i=n}X_i,\xi_n=\dfrac{S_n-n\mu}{\sqrt{n\sigma^2}}\),则 \(\xi_n\xrightarrow{d}N(0,1)\)

即对充分大的n,可用 \(S_n\sim N(n\mu,n\sigma^2)\) 逼近

统计总体与样本

样本矩与统计量

简单随机样本:样本之间相互独立,且与总体同分布

\(X_1,X_2,...X_n\) 为来自于总体X的一个样本

样本均值:\(\overline{X}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i\)

样本方差:\(S^2=\dfrac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline{X})^2\)

样本k阶矩(原点矩):\(A_k=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^k\)

样本k阶中心矩:\(B_k=\dfrac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^k\)

以上四个都是随机变量,若用观察值代替,则分别是对应随机变量的观察值

总体矩:\(\mu=EX,\mu_k=EX^k,\nu_k=EX^k\) ,且有 \(A_k\xrightarrow{P}\mu_k\)

常用统计量的分布

正态分布

总体 \(X\sim N(\mu,\sigma^2)\)

\(\overline{X}\sim N(\mu,\dfrac{\sigma^2}{n})\)

\(\dfrac{(n-1)}{\sigma^2}S^2\sim\chi^2(n-1)\) ,且样本均值与样本方差相互独立

\(\dfrac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\sim t(n-1)\)

卡方分布

\(X_1,X_2,...X_n\) 相互独立且都服从标准正态分布,则 \(Y=\chi^2=\sum\limits_{i=1}^nX_i^2\sim\chi^2(n)\)

概率密度为 \(f(y)=\dfrac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}y^{\tfrac{n}{2}-1}e^{-\tfrac{y}{2}},(y>0);EY=n,DY=2n\)

\(X_1\sim\chi^2(n_1),X_2\sim\chi^2(n_2)\)\(X_1\)\(X_2\) 相互独立,则 \(X_1+X_2\sim\chi^2(n_1+n_2)\)

t分布

\(X\sim N(0,1),Y\sim\chi^2(n)\) ,且X、Y相互独立,则 \(T=\dfrac{X}{\sqrt{\frac{Y}{n}}}\sim t(n)\) ,n为自由度

概率密度为 \(f(t)=\dfrac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\dfrac{t^2}{n})^{-\tfrac{n+1}{2}}\)

满足 \(F(t_{\alpha}(n))=\alpha\) 的点 \(t_{\alpha}(n)\) 称t分布的 \(\alpha\) 分位点,\(t_{1-\alpha}(n)=-t_{\alpha}(n)\)

当n很大时,t分布接近于标准正态分布

F分布

\(X\sim\chi^2(n_1),Y\sim\chi^2(n_2)\) 且相互独立,则 \(F=\dfrac{\frac{X}{n_1}}{\frac{Y}{n_2}}\sim F(n_1,n_2)\)

概率分布为 \(f(u)=\dfrac{\Gamma(\frac{n_1+n_2}{2})}{\Gamma(\frac{n_1}{2})\Gamma(\frac{n_2}{2})}(\frac{n_1}{n_2})(\frac{n_1}{n_2}u)^{\tfrac{n_1}{2}-1}(1+\frac{n_1}{n_2}u)^{-\tfrac{n_1+n_2}{2}},u>0\)

\(F_{1-\alpha}(n_1,n_2)=\dfrac{1}{F_\alpha(n_2,n_1)}\) (分位点,非概率)

经典统计推断

参数点估计

矩估计

用样本矩估计总体矩,即有

$$ =_{i=1}^nX_i=\

=_{i=1}n(X_i-)2=S^2 $$

方法:先求对应的矩,然后用样本均值等矩估计随机变量表示参数,最后把样本值代入即可得到估计值

极大似然法(MLE)

对于连续型总体,记 \(L(\theta)=L(x_1,x_2,...,x_n;\theta)=\prod\limits_{i=1}^nf(x_i;\theta)\) 为似然函数,选取使 \(L(\hat{\theta})=\max\limits_{\theta\in\Theta}L(\theta)\) 成立的 \(\hat{\theta}\)\(\theta\) 的极大似然估计

方法:求 \(\dfrac{d}{d\theta}L(\theta)=0\)\(\dfrac{d}{d\theta}\ln L(\theta)=0\)

常见分布的估计值

矩估计 极大似然估计
二项分布 \(\hat{p}=\dfrac{\bar{x_n}}{N}\) \(\hat{p}=\dfrac{\bar{x_n}}{N}\)
泊松分布 \(\hat{\lambda}=\bar{x_n}\) \(\hat{\lambda}=\bar{x_n}\)
均匀分布 \(\hat{b}=2\bar{x}_n\) \(\hat{b}=\max x_i\)
指数分布 \(\hat{\lambda}=\dfrac{1}{\bar{x_n}}\) \(\hat{\lambda}=\dfrac{1}{\bar{x_n}}\)
正态分布 \(\hat{\mu}=\bar{x_n}\) \(\hat{\sigma^2}=\dfrac{1}{n}\sum(x_i-\hat{\mu})^2\)

*除均匀分布外,表中估计值二者都一样

点估计的评价

无偏估计

\(\hat{\theta}(x_1,x_2,...,x_n)\) 是未知参数 \(\theta\) 的估计量,若 \(E(\hat{\theta})=\theta\) ,则称 \(\hat{\theta}\)\(\theta\) 的无偏估计

样本均值和样本方差是总体均值、方差的无偏估计。但方差的矩估计、MLE估计 \(\dfrac{1}{n}\sum(X_i-\overline{X_n})^2\) 不是无偏估计。均匀分布下MLE的估计不是无偏估计

最小方差无偏估计

\(\hat{\theta_1}\)\(\theta\) 的一个无偏估计,若对 \(\theta\) 的任一无偏估计 \(\hat{\theta_2}\)\(D(\hat{\theta_1})\leqslant D(\hat{\theta_2})\) 成立,则称 \(\hat{\theta_1}\)\(\theta\) 的最小方差无偏估计

正态总体下,\(\mu\) 的最小方差线性无偏估计为样本均值

均匀分布的MLE估计比矩估计更有效

一致估计

\(\hat{\theta}(X_1,X_2,...,X_n)\) 是未知参数 \(\theta\) 的估计量,若 \(\hat{\theta_n}\xrightarrow{P}\theta\) ,则称 \(\hat{\theta}\)\(\theta\) 的一致性估计(相合估计)

所有矩估计均为相合估计(事实上以概率1收敛,也称强相合估计),样本方差是相合估计

区间估计与置信区间

设总体分布有一未知参数 \(\theta\) ,且 \(x_1,x_2,..x_n\) 为来自总体的样本,若对给定的 \(\alpha(0<\alpha<1)\) ,统计量 \(\theta_1(x_1,...,x_n)\)\(\theta_2(x_1,...,x_n)\) 满足 \(P\{\theta_1\leqslant\theta\leqslant\theta_2\}=1-\alpha\) ,则称区间 \([\theta_1,\theta_2]\)\(\theta\) 置信度为 \(1-\alpha\) 的置信区间,\(\theta_1\)\(\theta_1\) 分别为置信上限和置信下限,\(1-\alpha\) 称置信度

方法:求参数的估计,找到服从的分布,根据置信度确定上下限,代入具体样本值进行计算。具体类型如下

正态总体均值和方差的区间估计

设总体 \(X\sim N(\mu,\sigma^2)\)\(x_1,x_2,...,x_n\) 为来自于总体的样本

方差DX已知,对EX进行区间估计:

统计量 \(\dfrac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)\) ,则置信区间为 \([\bar{x}-z_{1-\tfrac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}},\bar{x}+z_{1-\tfrac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}]\)

方差DX未知,对EX进行区间估计:

用样本方差代替总体方差,则有 \(\dfrac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}\sim t(n-1)\) ,置信区间为 \([\bar{x}-t_{1-\tfrac{\alpha}{2}}(n-1)\dfrac{s}{\sqrt{n}},\bar{x}+t_{1-\tfrac{\alpha}{2}}(n-1)\dfrac{s}{\sqrt{n}}]\)

方差DX的区间估计:

\(\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1)\) ,置信区间 \([\dfrac{(n-1)s^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)},\dfrac{(n-1)s^2}{\chi^2_{\frac{\alpha}{2}}(n-1)}]\)

假设检验

第一类错误:原假设正确,但抽样得到的结论否定原假设

第二类错误:原假设错误,抽样得到的结论不拒绝原假设

记第一类错误的概率为 \(\alpha\) (显著性水平),第二类错误的概率为 \(\beta\)

方差已知,正态总体均值的假设检验

\(H_0:\mu=\mu_0;\ H_1:\mu\ne\mu_0\) 检验用的统计量 \(U=\dfrac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)\) ,设检验水平 \(\alpha\) ,则有 \(P\{|\dfrac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}|>z_{1-\frac{\alpha}{2}}\}=\alpha\) ,因而拒绝域为 \(D=(-\infty,-z_{1-\tfrac{\alpha}{2}}]\cup[z_{1-\tfrac{\alpha}{2}},+\infty)\)

方差未知,均值检验

\(U=\dfrac{\bar{x}-\mu_0}{\frac{s}{\sqrt{n}}}\sim t(n-1)\)

方差的假设检验

\(W=\dfrac{(n-1)s^2}{\sigma_0^2}\sim\chi^2(n-1)\) ,拒绝域为 \(D=(0,\chi_{1-\tfrac{\alpha}{2}}^2(n-1)][\chi_{\tfrac{\alpha}{2}}^2(n-1),+\infty)\)

随机过程

基本概念

给定参数集 \(T\subset(-\infty,+\infty)\) ,如果对于每个 \(t\in T\) ,对应有随机变量 \(X(t)=X(e,t)\) ,则称随机变量族 \(\{X(t),t\in T\}\) 为随机过程

对于参数集中任意n个元素,过程的n个状态为 \(X(t_1)=X(e,t_1),X(t_2)=X(e,t_2)...\) ,这n个随机变量的联合分布函数 \(F(x_1,...,x_n;t_1,...,t_n)=P\{X(t_1)\leqslant x_1,...,X(t_n)\leqslant x_n\}\) 称随机过程 \(X(t)\) 的n维分布函数,\(n=1,2,3...\)

类似有n维概率密度

若对于任何正整数n,随机过程的任意n个状态都是相互独立的,称此过程为独立过程, \(F(x_1,x_2,...,x_n;t_1,t_2,...,t_n)=\prod\limits_{i=1}^nF(x_i;t_i),n=1,2,3,...\)

数字特征

均值(函数) \(\mu_x(t)=E[X(t)]\)

均方值(函数) \(\Psi_X^2(t)=E[X^2(t)]\)

均方差 \(\sigma_{X}^2(t)=D[X(t)]=E[X(t)-EX(t)]^2=E[X(t)-\mu_X(t)]^2=E[X^2(t)]-\mu_X^2(t)\)

(自)相关函数 \(R_X(t_1,t_2)=E[X(t_1)X(t_2)]\)

(自)协方差函数 \(C_X(t_1,t_2)=E\{[X(t_1)-EX(t_1)][X(t_2)-EX(t_2)]\}\)

其中,数字特征间的关系有:

\(\Psi_X^2(t)=R_X(t,t)\)

\(C_X(t_1,t_2)=R_X(t_1,t_2)-\mu_X(t_1)\mu_X(t_2)\)

\(\sigma_X^2(t)=\Psi_X^2(t)-\mu_X^2(t)\)

两个随机过程的互相关函数 \(R_{XY}(t_1,t_2)=E[X(t_1)Y(t_2)]\)

平稳过程

设随机过程 \(\{X(t),t\in T\}\) ,如果对任意 \(t_1,t_2,...,t_n\in T\) 和任意实数 \(\varepsilon\) ,有 \(t_1+\varepsilon,t_2+\varepsilon,...,t_n+\varepsilon\in T\)\(F(x_1,x_2,...,x_n;t_1,t_2,...,t_n)=F(x_1,x_2,...,x_n;t_1+\varepsilon,t_2+\varepsilon,...,t_n+\varepsilon)\) 对任意n维分布函数都成立,则称 \(X(t)\) 为严平稳过程

伯努利序列:独立重复进行某项试验,每次成功概率为p,失败为1-p,以 \(X_n\) 表示第n次试验成功的次数,则 \(\{X_n,\ n=1,2,3\}\) 是严平稳过程。(样本空间 \(S=\{0,1\}\)

平稳过程(广义平稳过程):

  1. \(E[X^2(t)]\) 存在且有限
  2. \(E[X(t)]=\mu_X\) 是常数
  3. 任意 \(t+\tau\in T,E[X(t)X(t+\tau)]=R_X(\tau)\) 仅依赖于 \(\tau\) ,而与t无关

正态过程:任意n,\((X(t_1),X(t_2),...,X(t_n))\) 均服从正态分布

存在二阶矩的严平稳过程必为广义平稳过程,正态平稳过程是严平稳过程

遍历过程

设随机过程 \(\{X(t),t\in T=(-\infty,+\infty)\}\)

时间均值: \(\overline{X(t)}=\lim\limits_{l\to+\infty}\dfrac{1}{2l}\int_{-l}^lX(e,t)dt\)

时间相关函数: \(\overline{X(t)X(t+\tau)}=\lim\limits_{l\to+\infty}\dfrac{1}{2l}\int_{-l}^lX(e,t)X(e,t+\tau)dt\)

\(P\{\overline{X(t)}=E[X(t)]=\mu_X\}=1\) ,则称过程 \(X(t)\) 的均值具有各态遍历性。若 \(P\{\overline{X(t)X(t+\tau)}=E[X(t)X(t+\tau)]=R_X(\tau)\}=1\) ,则称过程 \(X(t)\) 的自相关函数具有各态遍历性。均值和自相关函数都具有各态遍历性的平稳过程称遍历过程

设随机过程均方值存在且有限,则称二阶矩过程。设 \(\{X(t),t\in T\}\) 为二阶矩过程

  1. \(t_0\in T\) ,若 \(\lim\limits_{t\to t_0}E|X(t)-X(t_0)|^2=0\) ,则称 \(X(t)\)\(t_0\in T\) 处均方连续
  2. \(X(t)\) 在每一个 \(t_0\in T\) 处都均方连续,则称 \(\{X(t),t\in T\}\) 是均方连续的

\(\{X(t),t\in T=(-\infty,+\infty)\}\) 是一均方连续的平稳过程,则时间均值具有各态遍历性的条件是 \(\lim\limits_{t\to+\infty}\dfrac{1}{l}\int_0^{2l}(1-\dfrac{\tau}{2l})[R_X(\tau)-\mu_X^2]d\tau=0\)

马尔可夫链

设随机过程 \(\{X(t),t\in T\}\) 的状态空间S为有限集或可列集,若对任意正整数n,T内任意n+1个参数 \(t_1<t_2<...<t_n<t_{n+1}\) 和S内任意n+1个状态 \(j_1,j_2,...,j_n,j_{n+1}\) ,条件概率 \(P\{X(t_{n+1})=j_{n+1}|X(t_1)=j_1,X(t_2)=j_2,...,X(t_n)=j_n\}=P\{X(t_{n+1})=j_{n+1}|X(t_n)=j_n\}\) 恒成立,则称此过程为马尔可夫链,反映出的性质为无后效性。

状态空间符合要求的独立过程是马尔可夫链

\(P\{X(t_{m+1})=j|X(t_m)=i\}=p_{ij}(t_m)\)\(X(t)\) 在时刻 \(t_m\) 时由状态i一步转移到状态j的(一步)转移概率。n步为 \(P\{X(t_{m+n})=j|X(t_m)=i\}=p_{ij}^{(n)}(t_m)\)

齐次马尔可夫链

若一步转移概率不依赖于参数,即任意两个不相等的参数 \(t_m,t_k\) ,有 \(P\{X(t_{m+1})=j|X(t_m)=i\}=p_{ij}(t_m)=P\{X(t_{k+1})=j|X(t_k)=i\}\) ,称齐次马尔可夫链

对于参数离散的齐次马尔可夫链,由转移概率 \(p_{ij}\) 排序得转移概率矩阵(行和为1) \[ P=\begin{pmatrix} p_{00}&p_{01}&\cdots&p_{0j}&\cdots\\ p_{10}&p_{11}&\cdots&p_{1j}&\cdots\\ \vdots&\vdots&\ &\vdots\\ p_{i0}&p_{i1}&\cdots&p_{ij}&\cdots\\ \vdots&\vdots&\ &\vdots \end{pmatrix} \] 马尔可夫链的多步转移公式: \(P_{ij}^{(n+l)}(t_m)=\sum\limits_kp_{ik}^{(n)}(t_m)p_{kj}^{(l)}(t_{m+n})\)

齐次情况下, \(P^{(n)}=P^n\)

平稳分布

对齐次马尔科夫链,若存在概率分布 \(\pi=(\pi_0,\pi_1,...,\pi_j,...)\) 满足 \(\pi_j\geqslant0,\sum\limits_{j=0}^{+\infty}\pi_j=1\)\(\pi_j=\sum\limits_{i=0}^{+\infty}\pi_{ij}p_{ij},\ j=0,1,2,...\) 则称 \(\pi\) 为平稳分布, \(X(t)\) 是平稳齐次马尔可夫链


概统笔记
https://solor-wind.github.io/2024/01/14/概统笔记/
作者
gpf
发布于
2024年1月14日
许可协议