49 KiB
title, date, descriptionHTML, tags, sidebar, readingTime, hidden, recommend
| title | date | descriptionHTML | tags | sidebar | readingTime | hidden | recommend | ||
|---|---|---|---|---|---|---|---|---|---|
| 概率论与数理统计笔记 | 2026-01-03 12:00:00 | <span style="color:var(--description-font-color);">概率论与数理统计学习笔记,涵盖基本概念、随机变量、数字特征、大数定律、数理统计基础等内容。</span> |
|
true | true | false | true |
概率论与数理统计笔记
一、概率论基本概念
1. 基本概念
| 术语 | 定义 |
|---|---|
| 随机现象 | 不能预先确定结果的事件,即随机试验 |
| 基本事件 | 随机试验中的每个单一结果 |
| 随机事件 | 在随机试验中可能出现的各种结果,由若干基本事件组成 |
| 样本空间 | 随机试验中所有基本事件的集合,记为S,其中的元素称为样本点 |
| 概率 | 随机事件发生可能性的数字表征,介于0-1之间 |
重要关系:样本空间的子集是随机事件
2. 概率的三个基本性质
- 非负性:对任意事件A,
P(A) \geq 0 - 规范性:$P(S) = 1$,样本空间S的概率是1
- 可列可加性:设$A_1, A_2, ...$是两两互不相容事件,则
P(A_1 \cup A_2 \cup ...) = P(A_1) + P(A_2) + ...
3. 古典概型
条件:有限性,等可能性
排列数:A_n^r = \frac{n!}{(n-r)!}
组合数:C_n^r = \frac{n!}{(n-r)!r!}
多组组合模式:n个不同物体分成k堆,有 \frac{n!}{r_1!r_2!...r_k!} 种分法
概率的统计定义:事件发生的频率在试验次数足够大时趋近的值
4. 条件概率
定义:A,B是随机试验中两个事件,$P(B) > 0$,称
P(A|B) = \frac{P(AB)}{P(B)}
为事件B发生条件下A发生的概率
乘法定理:P(AB) = P(A|B) \cdot P(B) = P(B|A) \cdot P(A)
推论:若A,B独立,则 $P(A|B) = P(A)$,P(AB) = P(A)P(B)
5. 全概率公式
设试验E的样本空间为S,A为E的事件,$B_1, B_2, ..., B_n$为S的一个划分,$P(B_i) > 0$,$i = 1,2,...,n$,则
P(A) = \sum_{i=1}^{n} P(A|B_i)P(B_i) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... + P(A|B_n)P(B_n)
理解:将复杂事件A分解为多个互不相容的简单事件求和
6. 贝叶斯公式
设试验E的样本空间为S,A为E的事件,$B_1, B_2, ..., B_n$为S的一个划分,$P(A) > 0$,$P(B_i) > 0$,$i = 1,2,...,n$,则
P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n} P(A|B_j)P(B_j)}
理解:
- $P(B_i)$:先验概率(原因发生的概率)
- $P(B_i|A)$:后验概率(观测到结果后,原因的概率)
- 贝叶斯公式用于"由果溯因"
7. 典型例题
例:有两箱同种类的零件,第一箱装50只,其中10只一等品。第二箱装30只,其中18只一等品。今从两箱中任挑出一箱,然后从该箱中取零件两次,每次任取一只,作不放回抽样。求: (1) 第一次取到的零件是一等品的概率 (2) 第一次取到的零件是一等品的条件下,第二次取到的也是一等品的概率
解:记$A_i$="在第i次中取到一等品",$B_i$="挑到第i箱",i=1,2
(1) 由全概率公式:
P(A_1) = P(A_1|B_1) \cdot P(B_1) + P(A_1|B_2) \cdot P(B_2) = \frac{10}{50} \times \frac{1}{2} + \frac{18}{30} \times \frac{1}{2} = 0.4
(2) P(A_1A_2) = P(A_1A_2|B_1) \cdot P(B_1) + P(A_1A_2|B_2) \cdot P(B_2)
= \frac{1}{2} \times \frac{10}{50} \times \frac{9}{49} + \frac{1}{2} \times \frac{18}{30} \times \frac{17}{29} = 0.19423
P(A_2|A_1) = \frac{P(A_1A_2)}{P(A_1)} = \frac{0.19423}{0.4} = 0.4856
二、随机变量及其分布
1. 分布函数
定义:设X是一个随机变量,对任意实数x,称 F(x) = P(X \leq x) 为X的分布函数,记为 X \sim F(x)
分布函数的三条基本性质:
- 单调非减性:对任意的$x_1 < x_2$,有
F(x_1) \leq F(x_2) - 有界性:对任意的x,有$0 \leq F(x) \leq 1$,且
F(-\infty) = \lim_{x \to -\infty} F(x) = 0F(+\infty) = \lim_{x \to +\infty} F(x) = 1
- 右连续性:对任意的$x_0$,有
\lim_{x \to x_0^+} F(x) = F(x_0)
重要:具有上述三条性质的函数F(x)一定是某个随机变量的分布函数
关于F(x)的常识结论:设F(x), G(x)为分布函数,a,b为实数,则
aF(x) + bG(x)为分布函数\Leftrightarrow a+b=1, a \ge 0, b \ge 0F(ax+b)为分布函数 $\Leftrightarrow a>0$,b为任意常数F(x)G(x)必为分布函数
2. 离散型随机变量的分布律
设离散型随机变量X所有可能取值为$x_k$($k = 1,2,...$),X取各个可能值的概率为
P\{X = x_k\} = p_k, \quad k = 1,2,...
分布律满足的条件:
- 非负性:
p_k \geq 0 - 正则性:
\sum_{k=1}^{\infty} p_k = 1
3. 连续型随机变量的概率密度
如果对于随机变量X的分布函数$F(x)$,存在非负可积函数$f(x)$,使对于任意实数x有
F(x) = \int_{-\infty}^{x} f(t)dt
则称$f(x)$为X的概率密度函数
概率密度的性质:
f(x) \geq 0\int_{-\infty}^{+\infty} f(x)dx = 1- 对于任意实数$x_1, x_2$($x_1 \leq x_2$),
P\{x_1 < X \leq x_2\} = F(x_2) - F(x_1) = \int_{x_1}^{x_2} f(x)dx - 若$f(x)$在点x处连续,则有
F'(x) = f(x)
小常识:
- 不改变$f(x)$在有限点的值,不影响分布
- $f(x)$不必连续,只需可积
- 连续型X的分布函数$F(x)$是连续函数,且对任意$a$有
P\{X=a\}=0 - 若$f(x)$在点x处连续,则
F'(x)=f(x)
区间范围小结:若X可能取值范围为$a \le X \le b$,则
- 当$x<a$时,
F(x)=0 - 当$x\ge b$时,
F(x)=1
4. 随机变量函数的分布
定理:设随机变量X具有概率密度$f_X(x)$,$-\infty < x < +\infty$,又设函数g(x)处处可导且恒有$g'(x) > 0$(或$g'(x) < 0$),则$Y = g(X)$是连续型随机变量,其概率密度为
f_Y(y) = \begin{cases} f_X[h(y)]|h'(y)|, & \alpha < y < \beta \\ 0, & \text{其他} \end{cases}
其中$\alpha = \min{g(-\infty), g(+\infty)}$,$\beta = \max{g(-\infty), g(+\infty)}$,$h(y)$是$g(x)$的反函数
5. 典型例题
例:设随机变量X的概率密度为$f(x) = \begin{cases} e^{-x}, & x > 0 \ 0, & \text{其他} \end{cases}$,求$Y = X^2$的概率密度
解:当$y \leq 0$时,f_Y(y) = 0
当$y > 0$时,F_Y(y) = P\{Y \leq y\} = P\{X^2 \leq y\} = P\{0 < X \leq \sqrt{y}\} = \int_0^{\sqrt{y}} e^{-x}dx
f_Y(y) = F'_Y(y) = e^{-\sqrt{y}} \cdot \frac{1}{2\sqrt{y}}
所以 f_Y(y) = \begin{cases} \frac{1}{2\sqrt{y}}e^{-\sqrt{y}}, & y > 0 \\ 0, & y \leq 0 \end{cases}
三、离散型随机变量分布
1. 0-1分布(伯努利分布)b(1, p)
定义:随机变量X只取0和1两个值
分布律:
P(X=k) = p^k(1-p)^{1-k}, \quad k=0,1
| X | 0 | 1 |
|---|---|---|
| P | 1-p | p |
期望与方差:
E(X) = pD(X) = p(1-p)
适用场景:单次试验的成功/失败
2. 二项分布 B(n, p)
定义:n次独立重复试验中,事件A发生的次数X
概率公式:
P(X=k) = C_n^k p^k (1-p)^{n-k}, \quad k=0,1,2,...,n
期望与方差:
E(X) = npD(X) = np(1-p)
正态近似(德莫弗-拉普拉斯):当n充分大时,
X \sim B(n,p) \approx N(np, np(1-p))
适用场景关键词:
- "n次独立试验"
- "成功/失败"、"合格/不合格"、"命中/未命中"
- "每次成功概率为p"
- "求恰好k次成功的概率"
例题特征:
某射击运动员命中率为0.8,独立射击10次,求恰好命中8次的概率。 → X ~ B(10, 0.8)
3. 泊松分布 P(λ) 或 π(λ)
定义:单位时间/空间内随机事件发生的次数
概率公式:
P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k=0,1,2,...
期望与方差:
E(X) = \lambdaD(X) = \lambda
特点:期望=方差=λ
适用场景关键词:
- "单位时间内"、"每天"、"每小时"
- "平均发生λ次"
- "稀有事件"(n大p小,np适中)
- 电话呼叫次数、到达人数、故障次数、放射性衰变
泊松定理(二项分布的近似):
当 n \geq 20, p \leq 0.05 时,B(n,p) \approx P(np)
例题特征:
某服务台平均每小时接到5个电话,求1小时内接到3个电话的概率。 → X ~ P(5)
4. 几何分布 G(p)
定义:独立重复试验中,首次成功时的试验次数X
概率公式:
P(X=k) = (1-p)^{k-1}p, \quad k=1,2,3,...
期望与方差:
E(X) = \frac{1}{p}D(X) = \frac{1-p}{p^2}
无记忆性:P(X > m+n | X > m) = P(X > n)
适用场景关键词:
- "首次成功"、"第一次出现"
- "直到...为止"
- "需要多少次才能成功"
例题特征:
抛硬币直到第一次出现正面,求所需次数的期望。 → X ~ G(0.5), E(X) = 2
5. 超几何分布 H(n, M, N)
定义:N件产品中有M件次品,从中不放回抽取n件,次品数X
概率公式:
P(X=k) = \frac{C_M^k C_{N-M}^{n-k}}{C_N^n}
期望与方差:
E(X) = \frac{nM}{N}D(X) = \frac{nM(N-M)(N-n)}{N^2(N-1)}
适用场景关键词:
- "不放回抽样"
- "N件中有M件..."
- 抽奖问题、质检问题(小批量)
与二项分布的区别:
- 超几何:不放回抽样
- 二项分布:放回抽样(或总体很大时的不放回)
例题特征:
10件产品中有3件次品,不放回抽取4件,求恰好有2件次品的概率。 → X ~ H(4, 3, 10)
6. 负二项分布(帕斯卡分布)NB(r, p)
定义:独立重复试验中,第r次成功时的试验次数X
概率公式:
P(X=k) = C_{k-1}^{r-1} p^r (1-p)^{k-r}, \quad k=r,r+1,...
期望与方差:
E(X) = \frac{r}{p}D(X) = \frac{r(1-p)}{p^2}
适用场景关键词:
- "第r次成功"
- 几何分布是r=1的特例
四、连续型随机变量分布
1. 均匀分布 U(a, b)
概率密度函数:
f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & 其他 \end{cases}
分布函数:
F(x) = \begin{cases} 0, & x < a \\ \frac{x-a}{b-a}, & a \leq x \leq b \\ 1, & x > b \end{cases}
期望与方差:
E(X) = \frac{a+b}{2}D(X) = \frac{(b-a)^2}{12}
适用场景关键词:
- "等可能"、"随机取一点"
- "在[a,b]上均匀分布"
- 舍入误差、随机数生成
例题特征:
公交车每10分钟一班,乘客随机到达,求等待时间不超过3分钟的概率。 → X ~ U(0, 10), P(X ≤ 3) = 0.3
2. 指数分布 Exp(λ)
概率密度函数:
f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & x < 0 \end{cases}
分布函数:
F(x) = \begin{cases} 1 - e^{-\lambda x}, & x \geq 0 \\ 0, & x < 0 \end{cases}
期望与方差:
E(X) = \frac{1}{\lambda}D(X) = \frac{1}{\lambda^2}
无记忆性:P(X > s+t | X > s) = P(X > t)
重要结论:$P(X > a) = e^{-\lambda a}$($a>0$)
适用场景关键词:
- "寿命"、"等待时间"、"服务时间"
- "无记忆性"
- 电子元件寿命、顾客到达间隔、放射性衰变间隔
- 与泊松过程相关(泊松过程的时间间隔服从指数分布)
重要关系:若单位时间内事件发生次数 ~ P(λ),则相邻事件的时间间隔 ~ Exp(λ)
例题特征:
某元件寿命服从参数λ=0.01的指数分布,求使用超过100小时的概率。 → P(X > 100) = e^(-0.01×100) = e^(-1)
3. 正态分布 N(μ, σ²)
概率密度函数:
f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < +\infty
期望与方差:
E(X) = \muD(X) = \sigma^2
标准化:若 $X \sim N(\mu, \sigma^2)$,则 Z = \frac{X-\mu}{\sigma} \sim N(0,1)
标准正态分布:Z \sim N(0,1)
- 密度函数:
\varphi(x) = \frac{1}{\sqrt{2\pi}}e^{-x^2/2} - 分布函数:
\Phi(x) = P(Z \le x)
区间概率:若 $X \sim N(\mu, \sigma^2)$,则
P(a < X \le b) = \Phi\left(\frac{b-\mu}{\sigma}\right) - \Phi\left(\frac{a-\mu}{\sigma}\right)
标准正态性质:
\Phi(-x) = 1 - \Phi(x)\Phi(0) = \frac{1}{2}- $P(|Z| \le a) = 2\Phi(a) - 1$($a>0$)
密度识别:若 $f(x) = A e^{ax^2+bx+c}$,$a<0$,$-\infty < x < +\infty$,则X为正态分布
重要性质:
- 对称性:
\Phi(-x) = 1 - \Phi(x) P(|X-\mu| < \sigma) \approx 68.27\%P(|X-\mu| < 2\sigma) \approx 95.45\%P(|X-\mu| < 3\sigma) \approx 99.73\%(3σ原则)
适用场景关键词:
- 测量误差、身高体重、考试成绩
- "正态分布"、"高斯分布"
- 大量独立随机因素叠加的结果
例题特征:
X ~ N(100, 16),求P(92 < X < 108)。 → 标准化:P(-2 < Z < 2) = 2Φ(2) - 1
4. 伽马分布 Γ(α, λ)
概率密度函数:
f(x) = \begin{cases} \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}, & x > 0 \\ 0, & x \leq 0 \end{cases}
期望与方差:
E(X) = \frac{\alpha}{\lambda}D(X) = \frac{\alpha}{\lambda^2}
特殊情况:
- α=1 时为指数分布 Exp(λ)
- α=n/2, λ=1/2 时为 χ²(n) 分布
五、多维随机变量及其分布
1. 二维分布函数
定义:F(x,y) = P\{X \leq x, Y \leq y\}
四条基本性质:
-
单调不减性:F(x,y)是变量x和y的不减函数
- 对于任意固定的y,当$x_2 > x_1$时,
F(x_2,y) \geq F(x_1,y) - 对于任意固定的x,当$y_2 > y_1$时,
F(x,y_2) \geq F(x,y_1)
- 对于任意固定的y,当$x_2 > x_1$时,
-
有界性:$0 \leq F(x,y) \leq 1$,且
F(-\infty, y) = F(x, -\infty) = 0- $F(-\infty, -\infty) = 0$,
F(+\infty, +\infty) = 1
-
右连续性:$F(x+0, y) = F(x, y)$,
F(x, y+0) = F(x, y) -
非负性:对于任意$(x_1, y_1), (x_2, y_2)$,
x_1 < x_2, $y_1 < y_2$,有F(x_2, y_2) - F(x_2, y_1) + F(x_1, y_1) - F(x_1, y_2) \geq 0
2. 联合分布
离散型:联合分布律
p_{ij} = P\{X = x_i, Y = y_j\}, \quad i,j = 1,2,...
性质:
- 非负性:
p_{ij} \geq 0 - 规范性:
\sum_{i=1}^{\infty}\sum_{j=1}^{\infty} p_{ij} = 1
连续型:联合概率密度
$f(x,y)$,(x,y) \in \mathbb{R}^2
性质:
- 非负性:
f(x,y) \geq 0 - 规范性:
\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} f(x,y)dxdy = F(\infty, \infty) = 1 - 若$f(x,y)$在点$(x,y)$连续,则有
\frac{\partial^2 F(x,y)}{\partial x \partial y} = f(x,y)
区域概率:点$(X,Y)$落在平面区域$G$内的概率
P\{(X,Y) \in G\} = \iint_G f(x,y)dxdy
3. 边缘分布
边缘分布函数:
F_X(x) = F(x, \infty)F_Y(y) = F(\infty, y)
离散型边缘分布律
p_{i\cdot} = \sum_{j=1}^{\infty} p_{ij} = P\{X = x_i\}, \quad i = 1,2,...
p_{\cdot j} = \sum_{i=1}^{\infty} p_{ij} = P\{Y = y_j\}, \quad j = 1,2,...
连续型边缘概率密度
f_X(x) = \int_{-\infty}^{\infty} f(x,y)dy
f_Y(y) = \int_{-\infty}^{\infty} f(x,y)dx
3.1 二维均匀分布
定义:若$(X,Y)$在区域$D$上均匀分布,则
f(x,y) = \begin{cases} \frac{1}{S_D}, & (x,y) \in D \\ 0, & \text{其他} \end{cases}
其中$S_D$为区域D的面积。
结论1:$P{(X,Y) \in G} = \frac{S_G}{S_D}$(面积之比)
结论2:若$D={(x,y)\mid a \le x \le b, c \le y \le d}$,则 $X \sim U(a,b)$,$Y \sim U(c,d)$,且X与Y相互独立。
结论3:X、Y的边缘分布不一定是均匀分布。
4. 条件分布与条件密度
离散型
在$Y = y_j$条件下X的条件分布律:
P\{X = x_i | Y = y_j\} = \frac{P\{X = x_i, Y = y_j\}}{P\{Y = y_j\}} = \frac{p_{ij}}{p_{\cdot j}}
在$X = x_i$条件下Y的条件分布律:
P\{Y = y_j | X = x_i\} = \frac{P\{X = x_i, Y = y_j\}}{P\{X = x_i\}} = \frac{p_{ij}}{p_{i\cdot}}
连续型
在$Y = y$条件下X的条件概率密度:
f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}
在$Y = y$条件下X的条件分布函数:
F_{X|Y}(x|y) = P\{X \leq x | Y = y\} = \int_{-\infty}^{x} \frac{f(x,y)}{f_Y(y)}dx
5. 相互独立的随机变量
定义:设$F(x,y)$及$F_X(x), F_Y(y)$分别是二维随机变量$(X,Y)$的分布函数及边缘分布函数,若对于所有$x,y$有
P\{X \leq x, Y \leq y\} = P\{X \leq x\}P\{Y \leq y\}
即
F(x,y) = F_X(x)F_Y(y)
则称随机变量X和Y是相互独立的。
独立性判定:
- 连续型:X和Y相互独立
\Leftrightarrowf(x,y) = f_X(x)f_Y(y)在平面上几乎处处成立 - 离散型:X和Y相互独立
\Leftrightarrow对于所有可能取值$(x_i, y_j)$有P\{X = x_i, Y = y_j\} = P\{X = x_i\}P\{Y = y_j\}
6. 二维正态分布(重点性质)
设$(X,Y) \sim N(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2;\rho)$,则
- $X \sim N(\mu_1,\sigma_1^2)$,
Y \sim N(\mu_2,\sigma_2^2) - $X$与$Y$相互独立
\Leftrightarrow \rho=0 - 任意非零线性组合$aX+bY$仍服从正态分布
7. 两个随机变量函数的分布
(1) Z = X + Y 的分布(卷积公式)
设$(X,Y)$是二维连续型随机变量,具有概率密度$f(x,y)$,则$Z = X + Y$的概率密度为
f_{X+Y}(z) = \int_{-\infty}^{+\infty} f(z-y, y)dy = \int_{-\infty}^{+\infty} f(x, z-x)dx
若X和Y相互独立,边缘概率密度为$f_X(x), f_Y(y)$,则有卷积公式:
f_{X+Y}(z) = f_X * f_Y = \int_{-\infty}^{+\infty} f_X(z-y)f_Y(y)dy = \int_{-\infty}^{+\infty} f_X(x)f_Y(z-x)dx
(2) Z = Y/X 的分布、Z = XY 的分布
设$(X,Y)$是二维连续型随机变量,概率密度为f(x,y)
f_{Y/X}(z) = \int_{-\infty}^{\infty} |x|f(x, xz)dx
f_{XY}(z) = \int_{-\infty}^{\infty} \frac{1}{|x|}f(x, \frac{z}{x})dx
若X和Y相互独立,边缘概率密度为$f_X(x), f_Y(y)$,则有:
f_{Y/X}(z) = \int_{-\infty}^{\infty} |x|f_X(x)f_Y(xz)dx
f_{XY}(z) = \int_{-\infty}^{\infty} \frac{1}{|x|}f_X(x)f_Y\left(\frac{z}{x}\right)dx
(3) M = max{X,Y} 及 N = min{X,Y} 的分布
设X,Y是两个相互独立的随机变量,分布函数分别为F_X(x), F_Y(y)
最大值的分布:
F_{\max}(z) = P\{M \leq z\} = P\{X \leq z, Y \leq z\} = F_X(z)F_Y(z)
最小值的分布:
F_{\min}(z) = P\{N \leq z\} = 1 - P\{N > z\} = 1 - P\{X > z, Y > z\}
= 1 - [1-F_X(z)][1-F_Y(z)]
推广:若$X_1, X_2, ..., X_n$独立同分布,分布函数为$F(x)$,则
F_{\max}(z) = [F(z)]^nF_{\min}(z) = 1 - [1-F(z)]^n
8. 多维随机变量典型例题
例:设随机变量(X,Y)的概率密度为
f(x,y) = \begin{cases} \frac{1}{2}(x+y)e^{-(x+y)}, & x > 0, y > 0 \\ 0, & \text{其他} \end{cases}
(1) 问:X和Y是否相互独立?(2) 求Z = X + Y的概率密度。
解:
(1) (X,Y)关于X的边缘概率密度为
f_X(x) = \int_{-\infty}^{+\infty} f(x,y)dy = \begin{cases} \int_0^{+\infty} \frac{1}{2}(x+y)e^{-(x+y)}dy, & x > 0 \\ 0, & x \leq 0 \end{cases} = \begin{cases} \frac{1}{2}(x+1)e^{-x}, & x > 0 \\ 0, & x \leq 0 \end{cases}
同理,f_Y(y) = \begin{cases} \frac{1}{2}(y+1)e^{-y}, & y > 0 \\ 0, & y \leq 0 \end{cases}
而 f_X(x) \cdot f_Y(y) = \begin{cases} \frac{1}{4}(x+1)(y+1)e^{-(x+y)}, & x > 0, y > 0 \\ 0, & \text{其他} \end{cases}
显然 $f_X(x) \cdot f_Y(y) \neq f(x,y)$,故X和Y不独立。
(2) Z = X + Y的概率密度为
f_Z(z) = \int_{-\infty}^{+\infty} f(x, z-x)dx
只有当$x > 0$且$z - x > 0$,即$0 < x < z$时,被积函数不为零。
当$z \leq 0$时,f_Z(z) = 0
当$z > 0$时,
f_Z(z) = \int_0^z \frac{1}{2}(x + z - x) \cdot e^{-(x+z-x)}dx = \int_0^z \frac{1}{2}ze^{-z}dx = \frac{1}{2}z^2e^{-z}
所以 f_Z(z) = \begin{cases} \frac{1}{2}z^2e^{-z}, & z > 0 \\ 0, & z \leq 0 \end{cases}
六、随机变量的数字特征
1. 数学期望
定义:
离散型:设$P{X = x_k} = p_k$,若$\sum_{k=1}^{\infty} x_k p_k$绝对收敛,则
E(X) = \sum_{k=1}^{\infty} x_k p_k
连续型:若$\int_{-\infty}^{\infty} xf(x)dx$绝对收敛,则
E(X) = \int_{-\infty}^{\infty} xf(x)dx
随机变量函数的期望:
设$Y = g(X)$,g是连续函数
- 离散型:
E(Y) = E[g(X)] = \sum_{k=1}^{\infty} g(x_k)p_k - 连续型:
E(Y) = E[g(X)] = \int_{-\infty}^{\infty} g(x)f(x)dx
数学期望性质:
- 设C是常数,则
E(C) = C - 设X是随机变量,C是常数,则
E(X + C) = E(X) + C - 设X是随机变量,C是常数,则
E(CX) = CE(X) - 设X,Y是两个随机变量,则$E(X \pm Y) = E(X) \pm E(Y)$(可推广到任意有限个)
- 设X,Y是相互独立的随机变量,则$E(XY) = E(X)E(Y)$(可推广到任意有限个)
2. 方差与标准差
定义:D(X) = E\{[X - E(X)]^2\}
计算公式:D(X) = E(X^2) - [E(X)]^2
标准差:\sigma(X) = \sqrt{D(X)}
方差的计算:
离散型:D(X) = \sum_{k=1}^{\infty} [x_k - E(X)]^2 p_k
连续型:D(X) = \int_{-\infty}^{\infty} [x - E(X)]^2 f(x)dx
方差性质:
- 设C是常数,则
D(C) = 0 - 设X是随机变量,C是常数,则$D(CX) = C^2D(X)$,
D(X + C) = D(X) - 设X,Y是两个随机变量,则
D(X \pm Y) = D(X) + D(Y) \pm 2Cov(X,Y)特别地,若X,Y相互独立,则D(X \pm Y) = D(X) + D(Y) - $D(X) = 0$的充要条件是X以概率1取常数$E(X)$,即
P\{X = E(X)\} = 1
3. 协方差
定义:Cov(X,Y) = E\{[X - E(X)][Y - E(Y)]\}
计算公式:Cov(X,Y) = E(XY) - E(X)E(Y)
性质:
- $Cov(X,Y) = Cov(Y,X)$(对称性)
- $Cov(X,C) = 0$(C为常数)
Cov(X,X) = D(X)- $Cov(aX, bY) = ab \cdot Cov(X,Y)$,a,b是常数
- $Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)$(双线性)
- 若X,Y相互独立,则
Cov(X,Y)=0
与方差的关系:
D(X + Y) = D(X) + D(Y) + 2Cov(X,Y)
4. 相关系数
定义:
\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
性质:
|\rho_{XY}| \leq 1- $|\rho_{XY}| = 1$的充要条件是,存在常数a,b使$P{Y = a + bX} = 1$(线性关系)
- 若X,Y相互独立,则$\rho_{XY} = 0$(不相关)
- 不相关 ≠ 独立:$\rho_{XY} = 0$只说明X,Y没有线性关系,可能有非线性关系
不相关的等价条件(以下四条等价):
\rho_{XY} = 0Cov(X,Y) = 0E(XY) = E(X)E(Y)D(X + Y) = D(X) + D(Y)
5. 矩
定义:设X和Y是随机变量
| 矩的类型 | 定义 | 说明 |
|---|---|---|
| k阶原点矩 | $E(X^k)$,k = 1,2,... |
一阶原点矩就是期望E(X) |
| k阶中心矩 | $E{[X - E(X)]^k}$,k = 2,3,... |
二阶中心矩就是方差D(X) |
| k+l阶混合矩 | $E(X^k Y^l)$,k,l = 1,2,... |
|
| k+l阶混合中心矩 | E\{[X-E(X)]^k[Y-E(Y)]^l\} |
二阶混合中心矩就是协方差Cov(X,Y) |
6. 切比雪夫不等式
设$E(X)=\mu$,$D(X)=\sigma^2$存在,则对任意$\varepsilon>0$,
P\{|X-\mu| \ge \varepsilon\} \le \frac{\sigma^2}{\varepsilon^2}
等价地,
P\{|X-\mu| < \varepsilon\} \ge 1 - \frac{\sigma^2}{\varepsilon^2}
7. 数字特征典型例题
例:设随机变量$X \sim N(\mu, \sigma^2)$,$Y \sim N(\mu, \sigma^2)$,且设X,Y相互独立,求$Z_1 = \alpha X + \beta Y$和$Z_2 = \alpha X - \beta Y$的相关系数(其中$\alpha, \beta$是不为零的常数)。
解:由于$X, Y \sim N(\mu, \sigma^2)$,可得
E(X) = E(Y) = \mu, \quad D(X) = D(Y) = \sigma^2
$Z_1$和$Z_2$的相关系数:
\rho_{Z_1Z_2} = \frac{E(Z_1Z_2) - E(Z_1) \cdot E(Z_2)}{\sqrt{D(Z_1)} \cdot \sqrt{D(Z_2)}}
由E(Z_1) = E(\alpha X + \beta Y) = \alpha E(X) + \beta E(Y) = (\alpha + \beta)\mu
E(Z_2) = E(\alpha X - \beta Y) = \alpha E(X) - \beta E(Y) = (\alpha - \beta)\mu
又E(Z_1Z_2) = E[(\alpha X + \beta Y)(\alpha X - \beta Y)] = E(\alpha^2 X^2 - \beta^2 Y^2) = \alpha^2 E(X^2) - \beta^2 E(Y^2)
= (\alpha^2 - \beta^2)(\sigma^2 + \mu^2)
D(Z_1) = D(\alpha X + \beta Y) = \alpha^2 D(X) + \beta^2 D(Y) = (\alpha^2 + \beta^2)\sigma^2
D(Z_2) = D(\alpha X - \beta Y) = \alpha^2 D(X) + \beta^2 D(Y) = (\alpha^2 + \beta^2)\sigma^2
于是
\rho_{Z_1Z_2} = \frac{(\alpha^2 - \beta^2)(\sigma^2 + \mu^2) - (\alpha + \beta)\mu(\alpha - \beta)\mu}{\sqrt{(\alpha^2 + \beta^2)\sigma^2} \cdot \sqrt{(\alpha^2 + \beta^2)\sigma^2}} = \frac{(\alpha^2 - \beta^2)\sigma^2}{(\alpha^2 + \beta^2)\sigma^2} = \frac{\alpha^2 - \beta^2}{\alpha^2 + \beta^2}
七、抽样分布
设 X_1, X_2, ..., X_n 是来自总体的简单随机样本
样本均值:\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i
样本方差:S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2
样本标准差:S = \sqrt{S^2}
常用结论(设总体$E(X)=\mu$,$D(X)=\sigma^2$):
- $E(X_i) = \mu$,
D(X_i) = \sigma^2 - $E(\bar{X}) = \mu$,
D(\bar{X}) = \frac{\sigma^2}{n} - $E\left(\sum_{i=1}^{n}X_i\right) = n\mu$,
D\left(\sum_{i=1}^{n}X_i\right) = n\sigma^2 E(S^2) = \sigma^2
0. 中心极限定理
设$X_1, X_2, ..., X_n$独立同分布,且$E(X_i)=\mu$,$D(X_i)=\sigma^2$,则当n充分大时,
\sum_{i=1}^{n}X_i \approx N(n\mu, n\sigma^2), \quad \bar{X} \approx N\left(\mu, \frac{\sigma^2}{n}\right)
二项分布特例:若$X \sim B(n,p)$且n充分大,则X \approx N(np, np(1-p))
1. χ²分布 (卡方分布)
定义:设 X_1, X_2, ..., X_n 独立同分布于 N(0,1),则
\chi^2 = \sum_{i=1}^{n}X_i^2 \sim \chi^2(n)
期望与方差:
E(\chi^2) = nD(\chi^2) = 2n
可加性:$\chi_1^2(n_1) + \chi_2^2(n_2) \sim \chi^2(n_1+n_2)$(独立时)
重要定理:设总体 X \sim N(\mu, \sigma^2)
\frac{(n-1)S^2}{\sigma^2} = \frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{\sigma^2} \sim \chi^2(n-1)
2. t分布(学生t分布)
定义:设 $X \sim N(0,1)$,$Y \sim \chi^2(n)$,X与Y独立,则
t = \frac{X}{\sqrt{Y/n}} \sim t(n)
性质:
- 关于0对称
- n→∞ 时趋近于 N(0,1)
- 比正态分布"矮胖"(尾部更厚)
重要定理:设总体 X \sim N(\mu, \sigma^2)
\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)
应用:总体方差未知时,对均值的推断
3. F分布
定义:设 $X \sim \chi^2(n_1)$,$Y \sim \chi^2(n_2)$,X与Y独立,则
F = \frac{X/n_1}{Y/n_2} \sim F(n_1, n_2)
性质:
\frac{1}{F(n_1,n_2)} \sim F(n_2, n_1)F_{1-\alpha}(n_1, n_2) = \frac{1}{F_\alpha(n_2, n_1)}
重要定理:设两个正态总体 $X \sim N(\mu_1, \sigma_1^2)$,Y \sim N(\mu_2, \sigma_2^2)
\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1)
应用:两总体方差比的推断
4. 正态总体的抽样分布总结
设 $X \sim N(\mu, \sigma^2)$,X_1, ..., X_n 为样本
| 条件 | 统计量 | 分布 |
|---|---|---|
| σ²已知 | \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} |
N(0,1) |
| σ²未知 | \frac{\bar{X}-\mu}{S/\sqrt{n}} |
t(n-1) |
| μ已知 | \frac{\sum(X_i-\mu)^2}{\sigma^2} |
χ²(n) |
| μ未知 | \frac{(n-1)S^2}{\sigma^2} |
χ²(n-1) |
5. 重点:单正态抽样分布(整体背熟)
设 X_1, X_2, \ldots, X_n 来自正态总体 $X \sim N(\mu, \sigma^2)$,则
\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\bar{X}与S^2相互独立\frac{(n-1)S^2}{\sigma^2} = \frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{\sigma^2} \sim \chi^2(n-1)\frac{\sum_{i=1}^{n}(X_i-\mu)^2}{\sigma^2} \sim \chi^2(n)\frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1)
八、题型判断指南:如何选择分布
第一步:判断离散还是连续
| 类型 | 特征 | 常见分布 |
|---|---|---|
| 离散型 | 取值可列举(0,1,2,...) | 二项、泊松、几何、超几何 |
| 连续型 | 取值为区间 | 均匀、指数、正态 |
第二步:根据关键词选择分布
离散型分布选择
问题类型判断流程:
1. 是否涉及"不放回抽样"且总体较小?
→ 是:超几何分布
2. 是否是"n次独立试验,成功k次"?
→ 是:二项分布 B(n,p)
3. 是否是"单位时间/空间内发生次数"或"稀有事件"?
→ 是:泊松分布 P(λ)
4. 是否是"首次成功所需次数"?
→ 是:几何分布 G(p)
5. 是否是"第r次成功所需次数"?
→ 是:负二项分布 NB(r,p)
连续型分布选择
问题类型判断流程:
1. 是否"等可能"在某区间取值?
→ 是:均匀分布 U(a,b)
2. 是否涉及"寿命"、"等待时间"、"无记忆性"?
→ 是:指数分布 Exp(λ)
3. 是否涉及测量误差、大量因素叠加?
→ 是:正态分布 N(μ,σ²)
常见题型与对应分布
| 题型 | 分布 | 示例 |
|---|---|---|
| 投掷硬币/骰子n次 | 二项分布 | 掷10次骰子,6点出现3次 |
| 射击命中次数 | 二项分布 | 射击10次,命中8次 |
| 产品抽检(放回/大批量) | 二项分布 | 100件抽10件,次品数 |
| 产品抽检(不放回/小批量) | 超几何分布 | 10件抽4件,次品数 |
| 电话/顾客到达 | 泊松分布 | 每小时平均5个电话 |
| 事故/故障次数 | 泊松分布 | 每天平均2起事故 |
| 直到首次成功 | 几何分布 | 首次抽到红球 |
| 随机选点/等车 | 均匀分布 | 公交车每10分钟一班 |
| 元件寿命 | 指数分布 | 灯泡寿命 |
| 服务时间 | 指数分布 | 银行服务时间 |
| 身高体重成绩 | 正态分布 | 学生成绩分布 |
| 测量误差 | 正态分布 | 仪器测量误差 |
九、假设检验
1. 基本概念
原假设 $H_0$:需要检验的假设(通常是"无差异"、"等于")
备择假设 $H_1$:与原假设对立的假设
两类错误:
| 错误类型 | 定义 | 概率 |
|---|---|---|
| 第一类错误(弃真) | H₀为真却拒绝H₀ | α(显著性水平) |
| 第二类错误(取伪) | H₀为假却接受H₀ | β |
显著性水平 α:犯第一类错误的概率上限,常取 0.05 或 0.01
检验的基本思想:小概率事件原理——小概率事件在一次试验中几乎不会发生
显著性检验:给定样本量n,控制第一类错误的概率不大于α(称为显著性水平)。
2. 假设检验的步骤(五步法)
Step 1: 建立假设
根据问题建立 H₀ 和 H₁
Step 2: 选择检验统计量
根据问题类型和已知条件选择
Step 3: 确定拒绝域
根据 α 和 H₁ 的形式确定临界值
Step 4: 计算统计量的值
用样本数据计算检验统计量
Step 5: 做出判断
统计量落入拒绝域 → 拒绝 H₀
统计量不在拒绝域 → 不拒绝 H₀
3. 单个正态总体的检验
(1) 均值μ的检验(σ²已知)—— Z检验
假设形式:
- 双侧:
H_0: \mu = \mu_0vsH_1: \mu \neq \mu_0 - 左侧:
H_0: \mu \geq \mu_0vsH_1: \mu < \mu_0 - 右侧:
H_0: \mu \leq \mu_0vsH_1: \mu > \mu_0
检验统计量:
Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \sim N(0,1)
拒绝域:
| 备择假设 | 拒绝域 |
|---|---|
\mu \neq \mu_0 |
\|Z\| > z_{\alpha/2} |
\mu < \mu_0 |
Z < -z_\alpha |
\mu > \mu_0 |
Z > z_\alpha |
(2) 均值μ的检验(σ²未知)—— t检验
检验统计量:
t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t(n-1)
拒绝域:
| 备择假设 | 拒绝域 |
|---|---|
\mu \neq \mu_0 |
\|t\| > t_{\alpha/2}(n-1) |
\mu < \mu_0 |
t < -t_\alpha(n-1) |
\mu > \mu_0 |
t > t_\alpha(n-1) |
均值检验分类速记(总体$X \sim N(\mu,\sigma^2)$):
- 双侧:$H_0:\mu=\mu_0$,拒绝域 $|U|>u_{\alpha/2}$($\sigma^2$已知),或 $|T|>t_{\alpha/2}(n-1)$($\sigma^2$未知)
- 右侧:$H_0:\mu\le\mu_0$,拒绝域
U>u_{\alpha}或T>t_{\alpha}(n-1) - 左侧:$H_0:\mu\ge\mu_0$,拒绝域
U<-u_{\alpha}或T<-t_{\alpha}(n-1)
(3) 方差σ²的检验(μ未知)—— χ²检验
假设:H_0: \sigma^2 = \sigma_0^2 vs H_1: \sigma^2 \neq \sigma_0^2
检验统计量:
\chi^2 = \frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2(n-1)
拒绝域:
| 备择假设 | 拒绝域 |
|---|---|
\sigma^2 \neq \sigma_0^2 |
\chi^2 < \chi^2_{1-\alpha/2}(n-1) 或 \chi^2 > \chi^2_{\alpha/2}(n-1) |
\sigma^2 < \sigma_0^2 |
\chi^2 < \chi^2_{1-\alpha}(n-1) |
\sigma^2 > \sigma_0^2 |
\chi^2 > \chi^2_\alpha(n-1) |
(4) 方差σ²的检验(μ已知/未知)—— χ²检验汇总
假设:
- $H_0:\sigma^2=\sigma_0^2$,
H_1:\sigma^2\neq\sigma_0^2 - $H_0:\sigma^2\le\sigma_0^2$,
H_1:\sigma^2>\sigma_0^2 - $H_0:\sigma^2\ge\sigma_0^2$,
H_1:\sigma^2<\sigma_0^2
检验统计量:
- μ已知:
\chi^2=\frac{\sum_{i=1}^{n}(X_i-\mu)^2}{\sigma_0^2} \sim \chi^2(n) - μ未知:
\chi^2=\frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2(n-1)
拒绝域:
- 双侧:
\chi^2>\chi^2_{\alpha/2}(\nu)或\chi^2<\chi^2_{1-\alpha/2}(\nu) - 右侧:
\chi^2>\chi^2_{\alpha}(\nu) - 左侧:
\chi^2<\chi^2_{1-\alpha}(\nu)其中$\nu=n$(μ已知)或$\nu=n-1$(μ未知)。
4. 两个正态总体的检验
(1) 均值差的检验(σ₁², σ₂²已知)—— Z检验
检验统计量:
Z = \frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0,1)
(2) 均值差的检验(σ₁² = σ₂² = σ²未知)—— t检验
检验统计量:
t = \frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)_0}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1+n_2-2)
其中 $S_w^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}$(合并方差)
(3) 方差比的检验 —— F检验
假设:H_0: \sigma_1^2 = \sigma_2^2 vs H_1: \sigma_1^2 \neq \sigma_2^2
检验统计量:
F = \frac{S_1^2}{S_2^2} \sim F(n_1-1, n_2-1)
拒绝域(双侧):
F < F_{1-\alpha/2}(n_1-1, n_2-1) \quad 或 \quad F > F_{\alpha/2}(n_1-1, n_2-1)
5. 检验方法选择指南
检验方法选择流程图:
检验什么?
│
├─ 均值μ
│ ├─ σ²已知 → Z检验
│ └─ σ²未知 → t检验
│
├─ 方差σ²
│ └─ μ未知 → χ²检验
│
└─ 两总体比较
├─ 比较μ₁和μ₂
│ ├─ σ₁², σ₂²已知 → Z检验
│ └─ σ₁² = σ₂²未知 → t检验
│
└─ 比较σ₁²和σ₂² → F检验
6. 检验中的常见错误与注意事项
-
假设的写法:
- H₀ 通常包含等号
- 题目问"是否显著大于"→ 右侧检验,H₁: μ > μ₀
-
单侧 vs 双侧:
- "是否等于"、"有无差异" → 双侧
- "是否大于"、"是否提高" → 右侧
- "是否小于"、"是否降低" → 左侧
-
结论的表述:
- 拒绝H₀:有充分理由认为...
- 不拒绝H₀:没有充分理由认为...(不是"接受H₀")
-
α的选择:
- 没有特别说明通常取 α = 0.05
- 若弃真错误后果严重,取较小的α(如0.01)
十、公式速查表
离散型分布速查表
| 分布 | 记号 | P(X=k) | E(X) | D(X) |
|---|---|---|---|---|
| 0-1分布 | b(1,p) | p^k(1-p)^{1-k} |
p | p(1-p) |
| 二项分布 | B(n,p) | C_n^k p^k(1-p)^{n-k} |
np | np(1-p) |
| 泊松分布 | P(λ) | \frac{\lambda^k e^{-\lambda}}{k!} |
λ | λ |
| 几何分布 | G(p) | (1-p)^{k-1}p |
\frac{1}{p} |
\frac{1-p}{p^2} |
| 超几何分布 | H(n,M,N) | \frac{C_M^k C_{N-M}^{n-k}}{C_N^n} |
\frac{nM}{N} |
复杂 |
连续型分布速查表
| 分布 | 记号 | f(x) | E(X) | D(X) |
|---|---|---|---|---|
| 均匀分布 | U(a,b) | \frac{1}{b-a} |
\frac{a+b}{2} |
\frac{(b-a)^2}{12} |
| 指数分布 | Exp(λ) | \lambda e^{-\lambda x} |
\frac{1}{\lambda} |
\frac{1}{\lambda^2} |
| 正态分布 | N(μ,σ²) | \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} |
μ | σ² |
抽样分布速查表
| 分布 | 定义 | E | D |
|---|---|---|---|
| χ²(n) | \sum_{i=1}^n Z_i^2 |
n | 2n |
| t(n) | \frac{Z}{\sqrt{\chi^2(n)/n}} |
0 (n>1) | \frac{n}{n-2} (n>2) |
| F(m,n) | \frac{\chi^2(m)/m}{\chi^2(n)/n} |
\frac{n}{n-2} (n>2) |
复杂 |
检验统计量速查表
| 检验内容 | 条件 | 统计量 | 分布 |
|---|---|---|---|
| 均值μ | σ²已知 | Z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} |
N(0,1) |
| 均值μ | σ²未知 | t=\frac{\bar{X}-\mu_0}{S/\sqrt{n}} |
t(n-1) |
| 方差σ² | μ未知 | \chi^2=\frac{(n-1)S^2}{\sigma_0^2} |
χ²(n-1) |
| 两均值差 | σ₁²=σ₂²未知 | t=\frac{\bar{X}-\bar{Y}}{S_w\sqrt{1/n_1+1/n_2}} |
t(n₁+n₂-2) |
| 两方差比 | - | F=\frac{S_1^2}{S_2^2} |
F(n₁-1,n₂-1) |
置信区间速查表
| 参数 | 条件 | 置信区间 |
|---|---|---|
| 均值μ | σ²已知 | \bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} |
| 均值μ | σ²未知 | \bar{X} \pm t_{\alpha/2}(n-1) \cdot \frac{S}{\sqrt{n}} |
| 方差σ² | μ未知 | \left(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right) |
| 两均值差 | σ₁²,σ₂²已知 | \bar{X} - \bar{Y} \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} |
| 两均值差 | σ₁²=σ₂²未知 | \bar{X} - \bar{Y} \pm t_{\alpha/2}(n_1+n_2-2) \cdot S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} |
| 方差比 | - | \left(\frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{\alpha/2}(n_1-1,n_2-1)}, \frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{1-\alpha/2}(n_1-1,n_2-1)}\right) |
| 比例p | 大样本 | \hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} |
常用分位点表
标准正态分布分位点 z_\alpha
| α | 0.10 | 0.05 | 0.025 | 0.01 | 0.005 |
|---|---|---|---|---|---|
z_\alpha |
1.282 | 1.645 | 1.960 | 2.326 | 2.576 |
t分布分位点 $t_\alpha(n)$(部分)
| n | t₀.₀₅ | t₀.₀₂₅ | t₀.₀₁ |
|---|---|---|---|
| 5 | 2.015 | 2.571 | 3.365 |
| 10 | 1.812 | 2.228 | 2.764 |
| 20 | 1.725 | 2.086 | 2.528 |
| 30 | 1.697 | 2.042 | 2.457 |
| ∞ | 1.645 | 1.960 | 2.326 |
复习建议
- 熟记各分布的期望和方差公式
- 掌握题型关键词,快速判断使用哪个分布
- 检验部分重点掌握五步法和统计量选择
- 多做练习,熟悉计算流程
十一、置信区间
1. 基本概念
置信区间:是在给定置信水平下,包含未知总体参数的一个区间估计。
置信水平(置信度):是我们对所构造的置信区间包含总体参数真值的可信程度,常用1-α表示,如95%或99%。
置信上限与置信下限:置信区间的两个端点,分别称为置信下限和置信上限。
2. 构造置信区间的基本原理
置信区间的基本思想来源于统计量的抽样分布。对于参数θ的估计,我们找到一个包含θ的随机区间$[\hat{\theta}_L, \hat{\theta}_U]$,使得:
P(\hat{\theta}_L \leq \theta \leq \hat{\theta}_U) = 1-\alpha
其中1-α为置信水平,α为显著性水平。
3. 单个正态总体参数的置信区间
(1) 总体均值μ的置信区间(方差σ²已知)
使用标准正态分布:
\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}
其中:
- $\bar{X}$:样本均值
- $z_{\alpha/2}$:标准正态分布的上α/2分位点
- σ:总体标准差
- n:样本容量
(2) 总体均值μ的置信区间(方差σ²未知)
使用t分布:
\bar{X} \pm t_{\alpha/2}(n-1) \cdot \frac{S}{\sqrt{n}}
其中:
- $t_{\alpha/2}(n-1)$:自由度为n-1的t分布上α/2分位点
- S:样本标准差
(3) 总体方差σ²的置信区间
使用χ²分布:
μ未知:
\left(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right)
μ已知:
\left(\frac{\sum_{i=1}^{n}(X_i-\mu)^2}{\chi^2_{\alpha/2}(n)}, \frac{\sum_{i=1}^{n}(X_i-\mu)^2}{\chi^2_{1-\alpha/2}(n)}\right)
其中:
- $\chi^2_{\alpha/2}(n-1)$和$\chi^2_{1-\alpha/2}(n-1)$分别是自由度为n-1的χ²分布上α/2和1-α/2分位点
4. 两个正态总体参数的置信区间
(1) 两个总体均值差μ₁-μ₂的置信区间(方差已知)
\bar{X} - \bar{Y} \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}
(2) 两个总体均值差μ₁-μ₂的置信区间(方差未知但相等)
\bar{X} - \bar{Y} \pm t_{\alpha/2}(n_1+n_2-2) \cdot S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}
其中合并标准差 S_w = \sqrt{\frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}}
(3) 两个总体方差比σ₁²/σ₂²的置信区间
使用F分布:
\left(\frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{\alpha/2}(n_1-1,n_2-1)}, \frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{1-\alpha/2}(n_1-1,n_2-1)}\right)
5. 总体比例p的置信区间(大样本)
对于大样本,可用正态近似:
\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
其中$\hat{p} = \frac{x}{n}$是样本比例。
6. 常用置信水平与分位点对应关系
标准正态分布分位点 z_{\alpha/2}
| 置信水平1-α | α | α/2 | z_{\alpha/2} |
|---|---|---|---|
| 90% | 0.10 | 0.05 | 1.645 |
| 95% | 0.05 | 0.025 | 1.960 |
| 99% | 0.01 | 0.005 | 2.576 |
上分位点记号
- 若$U \sim N(0,1)$,则
P\{U > u_\alpha\}=\alpha - 若$T \sim t(n)$,则
P\{T > t_\alpha(n)\}=\alpha
t分布分位点示例 t_{\alpha/2}(n-1)
| 自由度 | t₀.₀₂₅ | t₀.₀₀₅ |
|---|---|---|
| 5 | 2.571 | 4.032 |
| 10 | 2.228 | 3.169 |
| 20 | 2.086 | 2.845 |
| 30 | 2.042 | 2.750 |
| ∞ | 1.960 | 2.576 |
7. 置信区间的解释
需要注意置信区间的正确解释:
- 置信水平1-α是指构造置信区间的可靠程度
- 不是对参数θ落在具体区间$[a,b]$内的概率
- 对于已经得到的具体区间$[a,b]$,参数要么在这个区间内,要么不在
8. 影响置信区间宽度的因素
- 置信水平1-α:置信水平越高,区间越宽
- 样本容量n:样本越大,区间越窄
- 总体变异程度σ:变异越大,区间越宽
- 数据精度:测量误差会影响区间宽度
9. 置信区间与假设检验的关系
置信区间和假设检验是统计推断的两种基本方法,它们之间存在密切联系:
- 在显著性水平α下,检验假设H₀: θ=θ₀的接受域就是θ₀的1-α置信区间
- 如果假设检验拒绝原假设,则在相应的置信区间中不包含该假设值
十二、最大似然估计
1. 基本概念
点估计与矩估计(补充)
点估计:设总体分布$F(x;\theta)$中$\theta$为待估参数,构造统计量$\hat{\theta}(X_1,\ldots,X_n)$,称为$\theta$的估计量;观测值$\hat{\theta}(x_1,\ldots,x_n)$称为$\theta$的估计值。
矩:
- k阶原点矩:$E(X^k)$;样本k阶原点矩:
\frac{1}{n}\sum_{i=1}^n X_i^k - k阶中心矩:$E[(X-EX)^k]$;样本k阶中心矩:
\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^k
矩估计(方法):令“样本矩 = 总体矩”,解出参数。 例如:令$\frac{1}{n}\sum_{i=1}^n X_i = E(X)$,得到$\bar{X} = E(X)$,再解出$\theta = \hat{\theta}(X_1,\ldots,X_n)$。
常见分布的矩估计与最大似然估计(速记)
| 分布 | 矩估计 | 最大似然估计 |
|---|---|---|
0-1分布 b(1,p) |
\hat{p}=\bar{X} |
\hat{p}=\bar{X} |
| 二项分布 $B(n,p)$(n已知) | \hat{p}=\frac{\bar{X}}{n} |
\hat{p}=\frac{\bar{X}}{n} |
泊松分布 P(\lambda) |
\hat{\lambda}=\bar{X} |
\hat{\lambda}=\bar{X} |
均匀分布 U(a,b) |
$\hat{a}=\bar{X}-\sqrt{\frac{3}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2}$,\hat{b}=\bar{X}+\sqrt{\frac{3}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2} |
$\hat{a}=\min{X_1,\ldots,X_n}$,\hat{b}=\max\{X_1,\ldots,X_n\} |
指数分布 E(\lambda) |
\hat{\lambda}=\frac{1}{\bar{X}} |
\hat{\lambda}=\frac{1}{\bar{X}} |
无偏性(补充)
无偏估计量:若$E(\hat{\theta})=\theta$,则称$\hat{\theta}$为$\theta$的无偏估计量。
常用结论(设总体$E(X)=\mu$,$D(X)=\sigma^2$,$X_1,\ldots,X_n$为样本):
- $E(X_i)=\mu$,
D(X_i)=\sigma^2 - $E(\bar{X})=\mu$,
D(\bar{X})=\frac{\sigma^2}{n} E(S^2)=\sigma^2
例:若总体$X \sim N(\mu,\sigma^2)$,则$T=\bar{X}^2-\frac{S^2}{n}$为$\mu^2$的无偏估计量。
最大似然估计(Maximum Likelihood Estimation, MLE):是一种常用的参数估计方法,基于已观测到的数据来估计统计模型中未知参数的值。其基本思想是寻找使观测数据出现概率最大的参数值。
似然函数:设总体X的概率分布(或密度函数)为f(x;θ),其中θ是未知参数。给定样本观测值x₁,x₂,...,xₙ,视为参数θ的函数:
L(\theta) = L(\theta; x_1, x_2, ..., x_n) = \prod_{i=1}^{n} f(x_i; \theta)
这就是似然函数。
2. 最大似然估计的求解步骤
-
写出似然函数:
L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) -
取对数得到对数似然函数(便于计算):
\ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i; \theta) -
对参数θ求导并令导数等于零:
\frac{d\ln L(\theta)}{d\theta} = 0 -
解方程得到最大似然估计值
\hat{\theta}
注:有时还需验证二阶导数小于零以确认极大值。
3. 常见分布的最大似然估计
(1) 正态分布 N(\mu, \sigma^2)
样本:X_1, X_2, ..., X_n 独立同分布于 N(\mu, \sigma^2)
似然函数:
L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}
对数似然函数:
\ln L(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2
解得最大似然估计:
- $\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$(样本均值)
- $\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n} (X_i - \bar{X})^2$(样本方差,注意这里是除以n而非n-1)
(2) 泊松分布 P(\lambda)
样本:X_1, X_2, ..., X_n 独立同分布于 P(\lambda)
似然函数:
L(\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!}
对数似然函数:
\ln L(\lambda) = \sum_{i=1}^{n} (x_i \ln\lambda - \lambda - \ln(x_i!))
解得最大似然估计:
\hat{\lambda} = \bar{X}
(3) 指数分布 Exp(\lambda)
样本:X_1, X_2, ..., X_n 独立同分布于 Exp(\lambda)
概率密度函数:$f(x;\lambda) = \lambda e^{-\lambda x}$,x > 0
似然函数:
L(\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i}
对数似然函数:
\ln L(\lambda) = n\ln\lambda - \lambda \sum_{i=1}^{n} x_i
解得最大似然估计:
\hat{\lambda} = \frac{1}{\bar{X}}
(4) 伯努利分布 B(1,p)
样本:X_1, X_2, ..., X_n 独立同分布于 B(1,p)
似然函数:
L(p) = \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i}(1-p)^{n-\sum x_i}
对数似然函数:
\ln L(p) = \sum x_i \ln p + (n-\sum x_i)\ln(1-p)
解得最大似然估计:
\hat{p} = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{X}
4. 最大似然估计的性质
(1) 渐近性质(大样本性质)
- 一致性:当样本容量n→∞时,$\hat{\theta}_{MLE} \xrightarrow{P} \theta_0$(依概率收敛到真值)
- 渐近正态性:
\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N(0, I^{-1}(\theta_0)) - 渐近有效性:在一定条件下达到Cramér-Rao下界
(2) 不变性
若$\hat{\theta}$是θ的最大似然估计,则对于可逆函数g(θ),$g(\hat{\theta})$是g(θ)的最大似然估计。
(3) 充分性
在一定正则条件下,最大似然估计是充分统计量的函数。
5. 最大似然估计的优点
- 直观性强:原理易于理解和接受
- 广泛应用:适合各种分布族 and 复杂模型
- 大样本优良性:具有一致性和渐近正态性
- 不变性:参数变换下的良好性质
- 可扩展性强:容易推广到多参数情况
6. 最大似然估计的缺点
- 需要分布假设:必须明确给出总体分布形式
- 小样本偏差:小样本情况下可能存在偏倚
- 数值计算复杂:有时需要迭代算法才能求解
- 可能不存在:某些情况下最大值不存在
- 可能不唯一:极值点可能不止一个
7. 最大似然估计的应用场景
- 参数估计的一般方法
- 回归分析中参数估计
- 时间序列分析中参数估计
- 机器学习算法中参数优化(如逻辑回归)
- 生物统计和医学研究
- 经济和金融数据分析
8. 实际应用中的注意事项
- 检查正则条件:确保能够应用MLE的标准理论结果
- 处理边界解问题:参数应在参数空间内部取值
- 考虑数值稳定性:避免计算过程中出现溢出等问题
- 评估估计精度:计算标准误差和置信区间
- 进行模型诊断:验证模型假设是否合理
9. 与其他估计方法的比较
与矩估计比较:
- 矩估计:简单但效率较低,利用的是样本矩
- 最大似然估计:较复杂但具有更好的大样本性质
与贝叶斯估计比较:
- 频率学派观点:参数是固定的未知数
- 贝叶斯学派观点:参数是随机变量,有先验分布
10. 计算示例
示例:正态分布参数的最大似然估计
设样本:5, 7, 9, 3, 6
- 计算样本均值:
\bar{X} = \frac{5+7+9+3+6}{5} = 6 - 计算样本方差:
S^2 = \frac{(5-6)^2+(7-6)^2+(9-6)^2+(3-6)^2+(6-6)^2}{5} = \frac{1+1+9+9+0}{5} = 4
因此:$\hat{\mu} = 6$,\hat{\sigma}^2 = 4
示例:伯努利分布参数的最大似然估计
设10次抛硬币试验中有7次正面:1,1,0,1,1,1,0,1,1,1
\hat{p} = \frac{7}{10} = 0.7
总结
最大似然估计是一种强大而灵活的参数估计方法,在现代统计学和数据分析中应用极其广泛。掌握其原理和应用,对于深入理解统计推断方法具有重要意义。