正态分布为什么常见?
正态分布为什么常见?真正原因是中心极限定理(central limit theorem)。
"多个独立统计量的和的平均值,符合正态分布。"
根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。
举例来说,人的身高既有先天因素(基因),也有后天因素(营养)。每一种因素对身高的影响都是一个统计量,不管这些统计量本身是什么分布,它们和的平均值符合正态分布。(注意:男性身高和女性身高都是正态分布,但男女混合人群的身高不是正态分布。)
许多事物都受到多种因素的影响,这导致了正态分布的常见。
但是很多真实世界的分布是不对称的。比如,财富的分布就是不对称的,富人的有钱程度(可能比平均值高出上万倍),远远超出穷人的贫穷程度(平均值的十分之一就是赤贫了),即财富分布曲线有右侧的长尾。相比来说,身高的差异就小得多,最高和最矮的人与平均身高的差距,都在30%多。这是为什么呢,财富明明也受到多种因素的影响,怎么就不是正态分布呢?
原来,正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。
统计学家发现,如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布(log normal distribution),即x的对数值log(x)满足正态分布。