Files
handsomezhuzhu.github.io/otherdocs/概统/12-最大似然估计.md
2026-01-03 16:26:46 +08:00

190 lines
7.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 十二、最大似然估计
## 1. 基本概念
### 点估计与矩估计(补充)
**点估计**:设总体分布$F(x;\theta)$中$\theta$为待估参数,构造统计量$\hat{\theta}(X_1,\ldots,X_n)$,称为$\theta$的估计量;观测值$\hat{\theta}(x_1,\ldots,x_n)$称为$\theta$的估计值。
**矩**
- k阶原点矩$E(X^k)$样本k阶原点矩$\frac{1}{n}\sum_{i=1}^n X_i^k$
- k阶中心矩$E[(X-EX)^k]$样本k阶中心矩$\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^k$
**矩估计(方法)**:令“样本矩 = 总体矩”,解出参数。
例如:令$\frac{1}{n}\sum_{i=1}^n X_i = E(X)$,得到$\bar{X} = E(X)$,再解出$\theta = \hat{\theta}(X_1,\ldots,X_n)$。
### 常见分布的矩估计与最大似然估计(速记)
| 分布 | 矩估计 | 最大似然估计 |
|---|---|---|
| 0-1分布 $b(1,p)$ | $\hat{p}=\bar{X}$ | $\hat{p}=\bar{X}$ |
| 二项分布 $B(n,p)$n已知 | $\hat{p}=\frac{\bar{X}}{n}$ | $\hat{p}=\frac{\bar{X}}{n}$ |
| 泊松分布 $P(\lambda)$ | $\hat{\lambda}=\bar{X}$ | $\hat{\lambda}=\bar{X}$ |
| 均匀分布 $U(a,b)$ | $\hat{a}=\bar{X}-\sqrt{\frac{3}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2}$$\hat{b}=\bar{X}+\sqrt{\frac{3}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2}$ | $\hat{a}=\min\{X_1,\ldots,X_n\}$$\hat{b}=\max\{X_1,\ldots,X_n\}$ |
| 指数分布 $E(\lambda)$ | $\hat{\lambda}=\frac{1}{\bar{X}}$ | $\hat{\lambda}=\frac{1}{\bar{X}}$ |
### 无偏性(补充)
**无偏估计量**:若$E(\hat{\theta})=\theta$,则称$\hat{\theta}$为$\theta$的无偏估计量。
**常用结论**(设总体$E(X)=\mu$$D(X)=\sigma^2$$X_1,\ldots,X_n$为样本):
1. $E(X_i)=\mu$$D(X_i)=\sigma^2$
2. $E(\bar{X})=\mu$$D(\bar{X})=\frac{\sigma^2}{n}$
3. $E(S^2)=\sigma^2$
**例**:若总体$X \sim N(\mu,\sigma^2)$,则$T=\bar{X}^2-\frac{S^2}{n}$为$\mu^2$的无偏估计量。
**最大似然估计Maximum Likelihood Estimation, MLE**:是一种常用的参数估计方法,基于已观测到的数据来估计统计模型中未知参数的值。其基本思想是寻找使观测数据出现概率最大的参数值。
**似然函数**设总体X的概率分布或密度函数为f(x;θ)其中θ是未知参数。给定样本观测值x₁,x₂,...,xₙ视为参数θ的函数
$$L(\theta) = L(\theta; x_1, x_2, ..., x_n) = \prod_{i=1}^{n} f(x_i; \theta)$$
这就是似然函数。
## 2. 最大似然估计的求解步骤
1. **写出似然函数**
$$L(\theta) = \prod_{i=1}^{n} f(x_i; \theta)$$
2. **取对数得到对数似然函数**(便于计算):
$$\ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i; \theta)$$
3. **对参数θ求导并令导数等于零**
$$\frac{d\ln L(\theta)}{d\theta} = 0$$
4. **解方程得到最大似然估计值** $\hat{\theta}$
注:有时还需验证二阶导数小于零以确认极大值。
## 3. 常见分布的最大似然估计
### (1) 正态分布 $N(\mu, \sigma^2)$
样本:$X_1, X_2, ..., X_n$ 独立同分布于 $N(\mu, \sigma^2)$
似然函数:
$$L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}$$
对数似然函数:
$$\ln L(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2$$
解得最大似然估计:
- $\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$(样本均值)
- $\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n} (X_i - \bar{X})^2$样本方差注意这里是除以n而非n-1
### (2) 泊松分布 $P(\lambda)$
样本:$X_1, X_2, ..., X_n$ 独立同分布于 $P(\lambda)$
似然函数:
$$L(\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!}$$
对数似然函数:
$$\ln L(\lambda) = \sum_{i=1}^{n} (x_i \ln\lambda - \lambda - \ln(x_i!))$$
解得最大似然估计:
$$\hat{\lambda} = \bar{X}$$
### (3) 指数分布 $Exp(\lambda)$
样本:$X_1, X_2, ..., X_n$ 独立同分布于 $Exp(\lambda)$
概率密度函数:$f(x;\lambda) = \lambda e^{-\lambda x}$x > 0
似然函数:
$$L(\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i}$$
对数似然函数:
$$\ln L(\lambda) = n\ln\lambda - \lambda \sum_{i=1}^{n} x_i$$
解得最大似然估计:
$$\hat{\lambda} = \frac{1}{\bar{X}}$$
### (4) 伯努利分布 $B(1,p)$
样本:$X_1, X_2, ..., X_n$ 独立同分布于 $B(1,p)$
似然函数:
$$L(p) = \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i}(1-p)^{n-\sum x_i}$$
对数似然函数:
$$\ln L(p) = \sum x_i \ln p + (n-\sum x_i)\ln(1-p)$$
解得最大似然估计:
$$\hat{p} = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{X}$$
## 4. 最大似然估计的性质
### (1) 渐近性质(大样本性质)
1. **一致性**当样本容量n→∞时$\hat{\theta}_{MLE} \xrightarrow{P} \theta_0$(依概率收敛到真值)
2. **渐近正态性**$\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N(0, I^{-1}(\theta_0))$
3. **渐近有效性**在一定条件下达到Cramér-Rao下界
### (2) 不变性
若$\hat{\theta}$是θ的最大似然估计则对于可逆函数g(θ)$g(\hat{\theta})$是g(θ)的最大似然估计。
### (3) 充分性
在一定正则条件下,最大似然估计是充分统计量的函数。
## 5. 最大似然估计的优点
1. **直观性强**:原理易于理解和接受
2. **广泛应用**:适合各种分布族和复杂模型
3. **大样本优良性**:具有一致性和渐近正态性
4. **不变性**:参数变换下的良好性质
5. **可扩展性强**:容易推广到多参数情况
## 6. 最大似然估计的缺点
1. **需要分布假设**:必须明确给出总体分布形式
2. **小样本偏差**:小样本情况下可能存在偏倚
3. **数值计算复杂**:有时需要迭代算法才能求解
4. **可能不存在**:某些情况下最大值不存在
5. **可能不唯一**:极值点可能不止一个
## 7. 最大似然估计的应用场景
1. **参数估计的一般方法**
2. **回归分析中参数估计**
3. **时间序列分析中参数估计**
4. **机器学习算法中参数优化**(如逻辑回归)
5. **生物统计和医学研究**
6. **经济和金融数据分析**
## 8. 实际应用中的注意事项
1. **检查正则条件**确保能够应用MLE的标准理论结果
2. **处理边界解问题**:参数应在参数空间内部取值
3. **考虑数值稳定性**:避免计算过程中出现溢出等问题
4. **评估估计精度**:计算标准误差和置信区间
5. **进行模型诊断**:验证模型假设是否合理
## 9. 与其他估计方法的比较
### 与矩估计比较:
- **矩估计**:简单但效率较低,利用的是样本矩
- **最大似然估计**:较复杂但具有更好的大样本性质
### 与贝叶斯估计比较:
- **频率学派观点**:参数是固定的未知数
- **贝叶斯学派观点**:参数是随机变量,有先验分布
## 10. 计算示例
### 示例:正态分布参数的最大似然估计
设样本5, 7, 9, 3, 6
1. 计算样本均值:$\bar{X} = \frac{5+7+9+3+6}{5} = 6$
2. 计算样本方差:$S^2 = \frac{(5-6)^2+(7-6)^2+(9-6)^2+(3-6)^2+(6-6)^2}{5} = \frac{1+1+9+9+0}{5} = 4$
因此:$\hat{\mu} = 6$$\hat{\sigma}^2 = 4$
### 示例:伯努利分布参数的最大似然估计
设10次抛硬币试验中有7次正面1,1,0,1,1,1,0,1,1,1
$\hat{p} = \frac{7}{10} = 0.7$
## 总结
最大似然估计是一种强大而灵活的参数估计方法,在现代统计学和数据分析中应用极其广泛。掌握其原理和应用,对于深入理解统计推断方法具有重要意义。