Để tính giá trị ngoại lệ của mẫu số liệu, ta thực hiện các bước sau:
1. Tìm trung bình cộng (mean) của mẫu số liệu:
- Tổng tất cả các giá trị trong mẫu số liệu.
- Chia tổng này cho số lượng giá trị trong mẫu số liệu.
2. Tính phương sai (variance) của mẫu số liệu:
- Tính hiệu giữa mỗi giá trị và trung bình cộng.
-平方每个差值。
- 求所有平方差值的平均值。
3. 计算标准差(standard deviation):
- 取方差的平方根。
4. 确定异常值的阈值:
- 异常值通常定义为距离平均值超过一定倍数标准差的值。常见的阈值是平均值加减3倍标准差。
- 计算下限和上限:\[ 下限 = 平均值 - 3 \times 标准差 \]
- \[ 上限 = 平均值 + 3 \times 标准差 \]
5. 识别异常值:
- 找出所有小于下限或大于上限的值,这些值即为异常值。
示例步骤:
假设我们有一个样本数据集:\[ 10, 12, 14, 15, 16, 18, 20, 22, 24, 100 \]
1. 计算平均值:
\[
平均值 = \frac{10 + 12 + 14 + 15 + 16 + 18 + 20 + 22 + 24 + 100}{10} = \frac{241}{10} = 24.1
\]
2. 计算方差:
- 首先计算每个值与平均值的差:
\[
10 - 24.1 = -14.1, \quad 12 - 24.1 = -12.1, \quad 14 - 24.1 = -10.1, \quad 15 - 24.1 = -9.1, \quad 16 - 24.1 = -8.1,
\]
\[
18 - 24.1 = -6.1, \quad 20 - 24.1 = -4.1, \quad 22 - 24.1 = -2.1, \quad 24 - 24.1 = -0.1, \quad 100 - 24.1 = 75.9
\]
- 然后平方这些差值:
\[
(-14.1)^2 = 198.81, \quad (-12.1)^2 = 146.41, \quad (-10.1)^2 = 102.01, \quad (-9.1)^2 = 82.81, \quad (-8.1)^2 = 65.61,
\]
\[
(-6.1)^2 = 37.21, \quad (-4.1)^2 = 16.81, \quad (-2.1)^2 = 4.41, \quad (-0.1)^2 = 0.01, \quad 75.9^2 = 5760.81
\]
- 求这些平方差值的平均值:
\[
方差 = \frac{198.81 + 146.41 + 102.01 + 82.81 + 65.61 + 37.21 + 16.81 + 4.41 + 0.01 + 5760.81}{10} = \frac{6415.9}{10} = 641.59
\]
3. 计算标准差:
\[
标准差 = \sqrt{641.59} \approx 25.33
\]
4. 确定异常值的阈值:
\[
下限 = 24.1 - 3 \times 25.33 \approx 24.1 - 75.99 = -51.89
\]
\[
上限 = 24.1 + 3 \times 25.33 \approx 24.1 + 75.99 = 100.09
\]
5. 识别异常值:
- 在这个例子中,只有值100超过了上限100.09,因此100是一个异常值。
通过以上步骤,我们可以识别出样本数据中的异常值。