概率论

概率论基础

  • 概率P(x)P(x)
  • 分布函数Φ(x)=P(x<=x0)\Phi(x)=P(x<=x_0)

常见概率

正态分布

  • 概率密度方程:X N(μ,σ2)X~N(\mu,\sigma^2)f(X)=12πσ2exp(12σ2(xμ)2)f(X)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{1}{2\sigma^2}(x-\mu)^2)
  • 期望:E[X]=μE[X]=\mu
  • 方差:Var[X]=σ2Var[X]=\sigma^2

概率论概念

  • 条件概率:P(AB)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}
  • 条件概率的链式法则:P(a,b,c)=P(ab,c)P(b,c)=P(ab,c)P(bc)P(c)P(a,b,c)=P(a|b,c)P(b,c)=P(a|b,c)P(b|c)P(c)
  • 全概率公式:P(A)=iP(ABi)P(Bi)P(A)=\sum_{i} P(A|B_i)P(B_i)
  • 贝叶斯(Bayes)公式:P(BiA)=P(ABi)P(Bi)jP(ABj)P(Bj)P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j}P(A|B_j)P(B_j)}
    • 对于求解碰面问题的概率,可以通过画出x和y所有可能的区域,再求出碰面的范围,再计算面积得到。
      paste image
    • 如果使用积分,需要考虑两种情况,一个是x<=3,x可以等1个小时,另一个是x>3,x只能等4-x小时。计算稍微复杂一些。
  • 事件独立:P(AB)=P(A)P(B)P(AB)=P(A)P(B)事件A⊥B正交。
  • **条件独立:**A⊥B|Z,P(A,BZ)=P(AZ)P(BZ)P(A,B|Z)=P(A|Z)P(B|Z)
  • **期望:**1、离散型:E(x)=ixipiE(x)=\sum_{i}x_ip_i;2、连续型:E(x)=xf(x)E(x)=\int_\infty^{-\infty} xf(x)(概率加权的平均值)
    • 期望的性质:E(kX)=kE(X)E(kX)=kE(X)E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y),若X和Y相互独立E(XY)+E(X)E(Y)E(XY)+E(X)E(Y)
  • 方差:Var(X)=E[XE(X)]2=E(X2)E2(X)Var(X)=E{[X-E(X)]^2}=E(X^2)-E^2(X)
    • 方差的性质:Var(c)=0Var(c)=0Var(X+c)=Var(X)Var(X+c)=Var(X)Var(kX)=k2Var(X)Var(kX)=k^2Var(X),若X和Y相互独立Var(X+Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y)
  • 协方差:Cov(X,Y)=E(XY)E(X)E(Y)Cov(X,Y)=E(XY)-E(X)E(Y),当X和Y独立时,Cov(X,Y)=0Cov(X,Y)=0。协方差表示两个随机变量变化趋势的度量,大于零表示趋势相同,小于零趋势相反,等于零表示不相关。
    • 协方差的性质:若Var(X)=σ12Var(X)=\sigma_1^2Var(Y)=σ22Var(Y)=\sigma_2^2,则Cov(X,Y)<=σ1σ2|Cov(X,Y)| <=\sigma_1\sigma_2。当X和Y之间有线性关系时,等号成立。例如:X=aY+b。
  • 相关系数:ρXY=Cov(X,Y)Var(X)Var(Y)\rho_{XY}=\frac{Cov(X,Y)}{Var(X)Var(Y)}
    • 相关系数的性质:ρ<=1|\rho_|<=1
  • **协方差矩阵:**当有多个随机向量,每两个随机向量间都可以得到一个协方差,从而组成了协方差矩阵,协方差矩阵时对称阵。$$
    \begin{bmatrix}
    c_{11} & c_{12} & \cdots & c_{1n} \\
    c_{21} & c_{22} & \cdots & c_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    c_{n1} & c_{n2} & \cdots & c_{nn} \\
    \end{bmatrix}
## 矩 - k阶原点矩$E(X^k)$ - k阶中心距$E \{ [X-E(X)]^k \} $ - 通过矩的定义可以看出,期望是1阶原点矩,方差是2阶中心距。三阶的统计量偏度,四阶统计量是峰度。 - 偏的方向尾巴更长。 - 左偏(负偏)|右偏(正偏) ![paste image](http://p8cigu7up.bkt.clouddn.com/1526195691472ao96bwj9.png?imageslim) - 峰度度量的是峰的陡峭程度。通常定义四阶中心矩除以方差的平方减3。减3为了让正态分布的峰度为0,超值峰度为正,称为尖峰态,负为低峰态。它是反应陡峭程度,但需要跟其他结合分析。 - **契比雪夫不等式:**随机变量X的期望$\mu$和方差$\sigma^2$,对于任意正数$\epsilion$$P({|X-\mu|>=\epsilon})<=\frac{\sigma^2}{\epsilon^2}$ - **大数定理:**随机变量X1~Xn相互独立,并且具有相同的期望$\mu$和方差$\sigma^2$,$Y_n=\frac{1}{n}\sum_{i=1}^nX_i$,对于任意正整数$\epsilon$ $\lim_{n\to\infty}P({|Y_n-\mu|<\epsilon})=1$ - 大数定理为实际应用中频率来估计概率提供了理论依据。正态分布的参数估计,朴素贝叶斯做垃圾邮件分类,隐马尔科夫模型有监督参数学习等。 - **伯努利定理:**是大数定理最早的形式,表争了事件A发生的频率收敛于事件A发生的概率P。 ## 统计学 ### 统计量 - **样本:**$X_1,X_1,…X_n$ - **样本均值:**$\overline{X}=/frac{1}{n}/sum_{i=1}^n(X_i-\overline{X})^2$ - **样本方差:**$S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2$(n-1保证无偏) - **k阶样本原点矩:**$A_k=\frac{1}{n}\sum_{i=1}^nX_i^k$ - **k阶样本中心矩:**$M_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k$ ### 矩估计 - 有一些独立同分布的样本,待求均值$\mu$和方差$\sigma^2$,有原点矩表达式是这样的: - $\begin{cases}E(X)=\mu \\E(X^2)=Var(X)+[E(X)]^2=\sigma^2+\mu^2 \\ \end{cases}$ - 根据样本可以求得原点矩: - $$\begin{cases}A_1=\frac{1}{n} \sum_{i=1}^n X_i \\A_2=\frac{1}{n} \sum_{i=1}^n X_i^2 \\ \end{cases}
  • 这样就可以求出矩估计的均值μ^\widehat{\mu}和方差σ^2\widehat{\sigma}^2。求得最终的表达式为:
  • {μ^=Xσ^2=1ni=1n(XiX)2\begin{cases}\widehat{\mu}=\overline{X} \\\widehat{\sigma}^2=\frac{1}{n} \sum_{i=1}^n (X_i-\overline{X})^2 \\\end{cases}

极大似然估计

  • 给定数据X,参数的似然函数为P(Xθ)P(X|\theta),也就是观测到数据X的概率
  • 如果数据i.i.d,那么:L(X,θ)=iP(Xiθ)(i.i.d)L(X,\theta)= {\prod_{i}P(X_i|\theta)} (i.i.d)
  • 极大似然估计:θ^=argmaxθL(X,θ)\hat\theta = \arg\max_\theta L(X,\theta),带帽子的代表是估计的。
  • 对数似然:logL(X,θ)=ilogP(Xiθ)\log{L(X,\theta)}=\sum_i\log{P(X_i|\theta)}
  • 最大似然估计:θ^=argmaxθP(Xiθ)P(Xθ)=0\hat\theta=\arg\max_\theta P(X_i|\theta)\to \partial P(X|\theta)=0
    • 有偏估计
    • 无偏估计