概统笔记

2026-04-19 06:42:54 +00:00 · 2026-01-03 16:26:46 +08:00
parent a01982ebf4
commit 068dd157e5
13 changed files with 3024 additions and 0 deletions
--- a/otherdocs/概统/12-最大似然估计.md
+++ b/otherdocs/概统/12-最大似然估计.md
@@ -0,0 +1,189 @@
+# 十二、最大似然估计
+
+## 1. 基本概念
+
+### 点估计与矩估计（补充）
+
+**点估计**：设总体分布$F(x;\theta)$中$\theta$为待估参数，构造统计量$\hat{\theta}(X_1,\ldots,X_n)$，称为$\theta$的估计量；观测值$\hat{\theta}(x_1,\ldots,x_n)$称为$\theta$的估计值。
+
+**矩**：
+- k阶原点矩：$E(X^k)$；样本k阶原点矩：$\frac{1}{n}\sum_{i=1}^n X_i^k$
+- k阶中心矩：$E[(X-EX)^k]$；样本k阶中心矩：$\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^k$
+
+**矩估计（方法）**：令“样本矩 = 总体矩”，解出参数。
+例如：令$\frac{1}{n}\sum_{i=1}^n X_i = E(X)$，得到$\bar{X} = E(X)$，再解出$\theta = \hat{\theta}(X_1,\ldots,X_n)$。
+
+### 常见分布的矩估计与最大似然估计（速记）
+
+| 分布 | 矩估计 | 最大似然估计 |
+|---|---|---|
+| 0-1分布 $b(1,p)$ | $\hat{p}=\bar{X}$ | $\hat{p}=\bar{X}$ |
+| 二项分布 $B(n,p)$（n已知） | $\hat{p}=\frac{\bar{X}}{n}$ | $\hat{p}=\frac{\bar{X}}{n}$ |
+| 泊松分布 $P(\lambda)$ | $\hat{\lambda}=\bar{X}$ | $\hat{\lambda}=\bar{X}$ |
+| 均匀分布 $U(a,b)$ | $\hat{a}=\bar{X}-\sqrt{\frac{3}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2}$，$\hat{b}=\bar{X}+\sqrt{\frac{3}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2}$ | $\hat{a}=\min\{X_1,\ldots,X_n\}$，$\hat{b}=\max\{X_1,\ldots,X_n\}$ |
+| 指数分布 $E(\lambda)$ | $\hat{\lambda}=\frac{1}{\bar{X}}$ | $\hat{\lambda}=\frac{1}{\bar{X}}$ |
+
+### 无偏性（补充）
+
+**无偏估计量**：若$E(\hat{\theta})=\theta$，则称$\hat{\theta}$为$\theta$的无偏估计量。
+
+**常用结论**（设总体$E(X)=\mu$，$D(X)=\sigma^2$，$X_1,\ldots,X_n$为样本）：
+1. $E(X_i)=\mu$，$D(X_i)=\sigma^2$
+2. $E(\bar{X})=\mu$，$D(\bar{X})=\frac{\sigma^2}{n}$
+3. $E(S^2)=\sigma^2$
+
+**例**：若总体$X \sim N(\mu,\sigma^2)$，则$T=\bar{X}^2-\frac{S^2}{n}$为$\mu^2$的无偏估计量。
+
+**最大似然估计（Maximum Likelihood Estimation, MLE）**：是一种常用的参数估计方法，基于已观测到的数据来估计统计模型中未知参数的值。其基本思想是寻找使观测数据出现概率最大的参数值。
+
+**似然函数**：设总体X的概率分布（或密度函数）为f(x;θ)，其中θ是未知参数。给定样本观测值x₁,x₂,...,xₙ，视为参数θ的函数：
+$$L(\theta) = L(\theta; x_1, x_2, ..., x_n) = \prod_{i=1}^{n} f(x_i; \theta)$$
+
+这就是似然函数。
+
+## 2. 最大似然估计的求解步骤
+
+1. **写出似然函数**：
+   $$L(\theta) = \prod_{i=1}^{n} f(x_i; \theta)$$
+
+2. **取对数得到对数似然函数**（便于计算）：
+   $$\ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i; \theta)$$
+
+3. **对参数θ求导并令导数等于零**：
+   $$\frac{d\ln L(\theta)}{d\theta} = 0$$
+
+4. **解方程得到最大似然估计值** $\hat{\theta}$
+
+注：有时还需验证二阶导数小于零以确认极大值。
+
+## 3. 常见分布的最大似然估计
+
+### (1) 正态分布 $N(\mu, \sigma^2)$
+
+样本：$X_1, X_2, ..., X_n$ 独立同分布于 $N(\mu, \sigma^2)$
+
+似然函数：
+$$L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}$$
+
+对数似然函数：
+$$\ln L(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2$$
+
+解得最大似然估计：
+- $\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$（样本均值）
+- $\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n} (X_i - \bar{X})^2$（样本方差，注意这里是除以n而非n-1）
+
+### (2) 泊松分布 $P(\lambda)$
+
+样本：$X_1, X_2, ..., X_n$ 独立同分布于 $P(\lambda)$
+
+似然函数：
+$$L(\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!}$$
+
+对数似然函数：
+$$\ln L(\lambda) = \sum_{i=1}^{n} (x_i \ln\lambda - \lambda - \ln(x_i!))$$
+
+解得最大似然估计：
+$$\hat{\lambda} = \bar{X}$$
+
+### (3) 指数分布 $Exp(\lambda)$
+
+样本：$X_1, X_2, ..., X_n$ 独立同分布于 $Exp(\lambda)$
+
+概率密度函数：$f(x;\lambda) = \lambda e^{-\lambda x}$，x > 0
+
+似然函数：
+$$L(\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i}$$
+
+对数似然函数：
+$$\ln L(\lambda) = n\ln\lambda - \lambda \sum_{i=1}^{n} x_i$$
+
+解得最大似然估计：
+$$\hat{\lambda} = \frac{1}{\bar{X}}$$
+
+### (4) 伯努利分布 $B(1,p)$
+
+样本：$X_1, X_2, ..., X_n$ 独立同分布于 $B(1,p)$
+
+似然函数：
+$$L(p) = \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i}(1-p)^{n-\sum x_i}$$
+
+对数似然函数：
+$$\ln L(p) = \sum x_i \ln p + (n-\sum x_i)\ln(1-p)$$
+
+解得最大似然估计：
+$$\hat{p} = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{X}$$
+
+## 4. 最大似然估计的性质
+
+### (1) 渐近性质（大样本性质）
+1. **一致性**：当样本容量n→∞时，$\hat{\theta}_{MLE} \xrightarrow{P} \theta_0$（依概率收敛到真值）
+2. **渐近正态性**：$\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N(0, I^{-1}(\theta_0))$
+3. **渐近有效性**：在一定条件下达到Cramér-Rao下界
+
+### (2) 不变性
+若$\hat{\theta}$是θ的最大似然估计，则对于可逆函数g(θ)，$g(\hat{\theta})$是g(θ)的最大似然估计。
+
+### (3) 充分性
+在一定正则条件下，最大似然估计是充分统计量的函数。
+
+## 5. 最大似然估计的优点
+
+1. **直观性强**：原理易于理解和接受
+2. **广泛应用**：适合各种分布族和复杂模型
+3. **大样本优良性**：具有一致性和渐近正态性
+4. **不变性**：参数变换下的良好性质
+5. **可扩展性强**：容易推广到多参数情况
+
+## 6. 最大似然估计的缺点
+
+1. **需要分布假设**：必须明确给出总体分布形式
+2. **小样本偏差**：小样本情况下可能存在偏倚
+3. **数值计算复杂**：有时需要迭代算法才能求解
+4. **可能不存在**：某些情况下最大值不存在
+5. **可能不唯一**：极值点可能不止一个
+
+## 7. 最大似然估计的应用场景
+
+1. **参数估计的一般方法**
+2. **回归分析中参数估计**
+3. **时间序列分析中参数估计**
+4. **机器学习算法中参数优化**（如逻辑回归）
+5. **生物统计和医学研究**
+6. **经济和金融数据分析**
+
+## 8. 实际应用中的注意事项
+
+1. **检查正则条件**：确保能够应用MLE的标准理论结果
+2. **处理边界解问题**：参数应在参数空间内部取值
+3. **考虑数值稳定性**：避免计算过程中出现溢出等问题
+4. **评估估计精度**：计算标准误差和置信区间
+5. **进行模型诊断**：验证模型假设是否合理
+
+## 9. 与其他估计方法的比较
+
+### 与矩估计比较：
+- **矩估计**：简单但效率较低，利用的是样本矩
+- **最大似然估计**：较复杂但具有更好的大样本性质
+
+### 与贝叶斯估计比较：
+- **频率学派观点**：参数是固定的未知数
+- **贝叶斯学派观点**：参数是随机变量，有先验分布
+
+## 10. 计算示例
+
+### 示例：正态分布参数的最大似然估计
+设样本：5, 7, 9, 3, 6
+
+1. 计算样本均值：$\bar{X} = \frac{5+7+9+3+6}{5} = 6$
+2. 计算样本方差：$S^2 = \frac{(5-6)^2+(7-6)^2+(9-6)^2+(3-6)^2+(6-6)^2}{5} = \frac{1+1+9+9+0}{5} = 4$
+
+因此：$\hat{\mu} = 6$，$\hat{\sigma}^2 = 4$
+
+### 示例：伯努利分布参数的最大似然估计
+设10次抛硬币试验中有7次正面：1,1,0,1,1,1,0,1,1,1
+
+$\hat{p} = \frac{7}{10} = 0.7$
+
+## 总结
+
+最大似然估计是一种强大而灵活的参数估计方法，在现代统计学和数据分析中应用极其广泛。掌握其原理和应用，对于深入理解统计推断方法具有重要意义。