Files
handsomezhuzhu.github.io/otherdocs/概统/12-最大似然估计.md
2026-01-03 16:26:46 +08:00

7.4 KiB
Raw Blame History

十二、最大似然估计

1. 基本概念

点估计与矩估计(补充)

点估计:设总体分布$F(x;\theta)$中$\theta$为待估参数,构造统计量$\hat{\theta}(X_1,\ldots,X_n)$,称为$\theta$的估计量;观测值$\hat{\theta}(x_1,\ldots,x_n)$称为$\theta$的估计值。

  • k阶原点矩$E(X^k)$样本k阶原点矩\frac{1}{n}\sum_{i=1}^n X_i^k
  • k阶中心矩$E[(X-EX)^k]$样本k阶中心矩\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^k

矩估计(方法):令“样本矩 = 总体矩”,解出参数。 例如:令$\frac{1}{n}\sum_{i=1}^n X_i = E(X)$,得到$\bar{X} = E(X)$,再解出$\theta = \hat{\theta}(X_1,\ldots,X_n)$。

常见分布的矩估计与最大似然估计(速记)

分布 矩估计 最大似然估计
0-1分布 b(1,p) \hat{p}=\bar{X} \hat{p}=\bar{X}
二项分布 $B(n,p)$n已知 \hat{p}=\frac{\bar{X}}{n} \hat{p}=\frac{\bar{X}}{n}
泊松分布 P(\lambda) \hat{\lambda}=\bar{X} \hat{\lambda}=\bar{X}
均匀分布 U(a,b) $\hat{a}=\bar{X}-\sqrt{\frac{3}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2}$\hat{b}=\bar{X}+\sqrt{\frac{3}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2} $\hat{a}=\min{X_1,\ldots,X_n}$\hat{b}=\max\{X_1,\ldots,X_n\}
指数分布 E(\lambda) \hat{\lambda}=\frac{1}{\bar{X}} \hat{\lambda}=\frac{1}{\bar{X}}

无偏性(补充)

无偏估计量:若$E(\hat{\theta})=\theta$,则称$\hat{\theta}$为$\theta$的无偏估计量。

常用结论(设总体$E(X)=\mu$$D(X)=\sigma^2$$X_1,\ldots,X_n$为样本):

  1. $E(X_i)=\mu$D(X_i)=\sigma^2
  2. $E(\bar{X})=\mu$D(\bar{X})=\frac{\sigma^2}{n}
  3. E(S^2)=\sigma^2

:若总体$X \sim N(\mu,\sigma^2)$,则$T=\bar{X}^2-\frac{S^2}{n}$为$\mu^2$的无偏估计量。

最大似然估计Maximum Likelihood Estimation, MLE:是一种常用的参数估计方法,基于已观测到的数据来估计统计模型中未知参数的值。其基本思想是寻找使观测数据出现概率最大的参数值。

似然函数设总体X的概率分布或密度函数为f(x;θ)其中θ是未知参数。给定样本观测值x₁,x₂,...,xₙ视为参数θ的函数

L(\theta) = L(\theta; x_1, x_2, ..., x_n) = \prod_{i=1}^{n} f(x_i; \theta)

这就是似然函数。

2. 最大似然估计的求解步骤

  1. 写出似然函数

    L(\theta) = \prod_{i=1}^{n} f(x_i; \theta)
  2. 取对数得到对数似然函数(便于计算):

    \ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i; \theta)
  3. 对参数θ求导并令导数等于零

    \frac{d\ln L(\theta)}{d\theta} = 0
  4. 解方程得到最大似然估计值 \hat{\theta}

注:有时还需验证二阶导数小于零以确认极大值。

3. 常见分布的最大似然估计

(1) 正态分布 N(\mu, \sigma^2)

样本:X_1, X_2, ..., X_n 独立同分布于 N(\mu, \sigma^2)

似然函数:

L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}

对数似然函数:

\ln L(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2

解得最大似然估计:

  • $\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$(样本均值)
  • $\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n} (X_i - \bar{X})^2$样本方差注意这里是除以n而非n-1

(2) 泊松分布 P(\lambda)

样本:X_1, X_2, ..., X_n 独立同分布于 P(\lambda)

似然函数:

L(\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!}

对数似然函数:

\ln L(\lambda) = \sum_{i=1}^{n} (x_i \ln\lambda - \lambda - \ln(x_i!))

解得最大似然估计:

\hat{\lambda} = \bar{X}

(3) 指数分布 Exp(\lambda)

样本:X_1, X_2, ..., X_n 独立同分布于 Exp(\lambda)

概率密度函数:$f(x;\lambda) = \lambda e^{-\lambda x}$x > 0

似然函数:

L(\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i}

对数似然函数:

\ln L(\lambda) = n\ln\lambda - \lambda \sum_{i=1}^{n} x_i

解得最大似然估计:

\hat{\lambda} = \frac{1}{\bar{X}}

(4) 伯努利分布 B(1,p)

样本:X_1, X_2, ..., X_n 独立同分布于 B(1,p)

似然函数:

L(p) = \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i}(1-p)^{n-\sum x_i}

对数似然函数:

\ln L(p) = \sum x_i \ln p + (n-\sum x_i)\ln(1-p)

解得最大似然估计:

\hat{p} = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{X}

4. 最大似然估计的性质

(1) 渐近性质(大样本性质)

  1. 一致性当样本容量n→∞时$\hat{\theta}_{MLE} \xrightarrow{P} \theta_0$(依概率收敛到真值)
  2. 渐近正态性\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N(0, I^{-1}(\theta_0))
  3. 渐近有效性在一定条件下达到Cramér-Rao下界

(2) 不变性

若$\hat{\theta}$是θ的最大似然估计则对于可逆函数g(θ)$g(\hat{\theta})$是g(θ)的最大似然估计。

(3) 充分性

在一定正则条件下,最大似然估计是充分统计量的函数。

5. 最大似然估计的优点

  1. 直观性强:原理易于理解和接受
  2. 广泛应用:适合各种分布族和复杂模型
  3. 大样本优良性:具有一致性和渐近正态性
  4. 不变性:参数变换下的良好性质
  5. 可扩展性强:容易推广到多参数情况

6. 最大似然估计的缺点

  1. 需要分布假设:必须明确给出总体分布形式
  2. 小样本偏差:小样本情况下可能存在偏倚
  3. 数值计算复杂:有时需要迭代算法才能求解
  4. 可能不存在:某些情况下最大值不存在
  5. 可能不唯一:极值点可能不止一个

7. 最大似然估计的应用场景

  1. 参数估计的一般方法
  2. 回归分析中参数估计
  3. 时间序列分析中参数估计
  4. 机器学习算法中参数优化(如逻辑回归)
  5. 生物统计和医学研究
  6. 经济和金融数据分析

8. 实际应用中的注意事项

  1. 检查正则条件确保能够应用MLE的标准理论结果
  2. 处理边界解问题:参数应在参数空间内部取值
  3. 考虑数值稳定性:避免计算过程中出现溢出等问题
  4. 评估估计精度:计算标准误差和置信区间
  5. 进行模型诊断:验证模型假设是否合理

9. 与其他估计方法的比较

与矩估计比较:

  • 矩估计:简单但效率较低,利用的是样本矩
  • 最大似然估计:较复杂但具有更好的大样本性质

与贝叶斯估计比较:

  • 频率学派观点:参数是固定的未知数
  • 贝叶斯学派观点:参数是随机变量,有先验分布

10. 计算示例

示例:正态分布参数的最大似然估计

设样本5, 7, 9, 3, 6

  1. 计算样本均值:\bar{X} = \frac{5+7+9+3+6}{5} = 6
  2. 计算样本方差:S^2 = \frac{(5-6)^2+(7-6)^2+(9-6)^2+(3-6)^2+(6-6)^2}{5} = \frac{1+1+9+9+0}{5} = 4

因此:$\hat{\mu} = 6$\hat{\sigma}^2 = 4

示例:伯努利分布参数的最大似然估计

设10次抛硬币试验中有7次正面1,1,0,1,1,1,0,1,1,1

\hat{p} = \frac{7}{10} = 0.7

总结

最大似然估计是一种强大而灵活的参数估计方法,在现代统计学和数据分析中应用极其广泛。掌握其原理和应用,对于深入理解统计推断方法具有重要意义。