概率论基础
- 概率P(x)
- 分布函数Φ(x)=P(x<=x0)
常见概率
正态分布
- 概率密度方程:X N(μ,σ2),f(X)=2πσ21exp(−2σ21(x−μ)2)
- 期望:E[X]=μ
- 方差:Var[X]=σ2
概率论概念
- 条件概率:P(A∣B)=P(B)P(AB)
- 条件概率的链式法则:P(a,b,c)=P(a∣b,c)P(b,c)=P(a∣b,c)P(b∣c)P(c)
- 全概率公式:P(A)=∑iP(A∣Bi)P(Bi)
- 贝叶斯(Bayes)公式:P(Bi∣A)=∑jP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
- 对于求解碰面问题的概率,可以通过画出x和y所有可能的区域,再求出碰面的范围,再计算面积得到。

- 如果使用积分,需要考虑两种情况,一个是x<=3,x可以等1个小时,另一个是x>3,x只能等4-x小时。计算稍微复杂一些。
- 事件独立:P(AB)=P(A)P(B)事件A⊥B正交。
- **条件独立:**A⊥B|Z,P(A,B∣Z)=P(A∣Z)P(B∣Z)
- **期望:**1、离散型:E(x)=∑ixipi;2、连续型:E(x)=∫∞−∞xf(x)(概率加权的平均值)
- 期望的性质:E(kX)=kE(X),E(X+Y)=E(X)+E(Y),若X和Y相互独立E(XY)+E(X)E(Y)
- 方差:Var(X)=E[X−E(X)]2=E(X2)−E2(X)
- 方差的性质:Var(c)=0,Var(X+c)=Var(X),Var(kX)=k2Var(X),若X和Y相互独立Var(X+Y)=Var(X)+Var(Y)
- 协方差:Cov(X,Y)=E(XY)−E(X)E(Y),当X和Y独立时,Cov(X,Y)=0。协方差表示两个随机变量变化趋势的度量,大于零表示趋势相同,小于零趋势相反,等于零表示不相关。
- 协方差的性质:若Var(X)=σ12;Var(Y)=σ22,则∣Cov(X,Y)∣<=σ1σ2。当X和Y之间有线性关系时,等号成立。例如:X=aY+b。
- 相关系数:ρXY=Var(X)Var(Y)Cov(X,Y)
- 相关系数的性质:∣ρ∣<=1
- **协方差矩阵:**当有多个随机向量,每两个随机向量间都可以得到一个协方差,从而组成了协方差矩阵,协方差矩阵时对称阵。$$
\begin{bmatrix}
c_{11} & c_{12} & \cdots & c_{1n} \\
c_{21} & c_{22} & \cdots & c_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
c_{n1} & c_{n2} & \cdots & c_{nn} \\
\end{bmatrix}
## 矩
- k阶原点矩$E(X^k)$
- k阶中心距$E \{ [X-E(X)]^k \} $
- 通过矩的定义可以看出,期望是1阶原点矩,方差是2阶中心距。三阶的统计量偏度,四阶统计量是峰度。
- 偏的方向尾巴更长。
- 左偏(负偏)|右偏(正偏)

- 峰度度量的是峰的陡峭程度。通常定义四阶中心矩除以方差的平方减3。减3为了让正态分布的峰度为0,超值峰度为正,称为尖峰态,负为低峰态。它是反应陡峭程度,但需要跟其他结合分析。
- **契比雪夫不等式:**随机变量X的期望$\mu$和方差$\sigma^2$,对于任意正数$\epsilion$$P({|X-\mu|>=\epsilon})<=\frac{\sigma^2}{\epsilon^2}$
- **大数定理:**随机变量X1~Xn相互独立,并且具有相同的期望$\mu$和方差$\sigma^2$,$Y_n=\frac{1}{n}\sum_{i=1}^nX_i$,对于任意正整数$\epsilon$
$\lim_{n\to\infty}P({|Y_n-\mu|<\epsilon})=1$
- 大数定理为实际应用中频率来估计概率提供了理论依据。正态分布的参数估计,朴素贝叶斯做垃圾邮件分类,隐马尔科夫模型有监督参数学习等。
- **伯努利定理:**是大数定理最早的形式,表争了事件A发生的频率收敛于事件A发生的概率P。
## 统计学
### 统计量
- **样本:**$X_1,X_1,…X_n$
- **样本均值:**$\overline{X}=/frac{1}{n}/sum_{i=1}^n(X_i-\overline{X})^2$
- **样本方差:**$S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2$(n-1保证无偏)
- **k阶样本原点矩:**$A_k=\frac{1}{n}\sum_{i=1}^nX_i^k$
- **k阶样本中心矩:**$M_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k$
### 矩估计
- 有一些独立同分布的样本,待求均值$\mu$和方差$\sigma^2$,有原点矩表达式是这样的:
- $\begin{cases}E(X)=\mu \\E(X^2)=Var(X)+[E(X)]^2=\sigma^2+\mu^2 \\ \end{cases}$
- 根据样本可以求得原点矩:
- $$\begin{cases}A_1=\frac{1}{n} \sum_{i=1}^n X_i \\A_2=\frac{1}{n} \sum_{i=1}^n X_i^2 \\ \end{cases}
- 这样就可以求出矩估计的均值μ和方差σ2。求得最终的表达式为:
- {μ=Xσ2=n1∑i=1n(Xi−X)2
极大似然估计
- 给定数据X,参数的似然函数为P(X∣θ),也就是观测到数据X的概率
- 如果数据i.i.d,那么:L(X,θ)=∏iP(Xi∣θ)(i.i.d)
- 极大似然估计:θ^=argmaxθL(X,θ),带帽子的代表是估计的。
- 对数似然:logL(X,θ)=∑ilogP(Xi∣θ)
- 最大似然估计:θ^=argmaxθP(Xi∣θ)→∂P(X∣θ)=0