📝5分钟搞懂概率与统计的关系
00 分钟
2022-3-11
2023-9-12
type
status
date
slug
summary
tags
category
icon
password

01

概率与统计的关系

讲到数据分析和数据科学的理论基础,概率和统计是绕不开的内容。当我最早学习概率与统计的时候,我隐隐感觉两者很相似但又不完全相同,这篇文章通过一个例子帮助大家加深对概率和统计关系的理解。
想象一下有两个场景。
场景一
假设我们有一枚重量不均匀的硬币,抛这枚硬币有2/3的概率会是正面,1/3的概率是反面。问我们连续抛三次这枚硬币全部是正面的概率是多少?
场景二
假设我们有一枚硬币,我们连续抛了三次都是反面,问这枚硬币是均匀的吗(得到正面和反面的概率均为50%)?
我们来看一下这两个场景的区别,场景一是我们已经知道了抛这枚硬币后得到正面和反面的概率(分布),来预测抛三次这枚硬币出现某种情况的概率,这种情况对应的就是概率的应用。场景二是我们已知抛三次硬币后的结果,现在我们要来推断硬币是否是均匀的,这对应统计的应用。用一张图来表述这两个场景如下:
notion image

02

浅谈统计

概率对应的情况是非常理想的,现实生活中我们几乎无法事先知道我们关心的随机事件的概率分布。通常我们只有关于某个随机事件的一些观察结果(如抛硬币的结果),统计帮助我们根据这些观察到的样本数据来推断总体的情况进而决策。在数据科学领域中,基于假设检验理论的A/B Testing就是统计学应用的典型例子。
统计既然是一种基于样本的推断,就一定存在不确定性或者说误差。我们永远无法说通过样本数据推断的结论是100%正确的,因为在现实中我们无法得到总体的数据,我们只能得到总体中部分样本的数据,而样本与总体总会存在差异。因此在实际应用中,我们会设置一个可以接受的推断结论错误的概率,如5%或1%等。更多细节的内容我会在后续介绍假设检验的文章中讲解。
通过上文的介绍,相信大家已经了解了统计的巨大作用(帮助我们根据有限的观察数据做出判断和决策),但统计是一把双刃剑,很多时候会有很强的误导性(故意的或无意的)。作为一个数据分析师,一定要加深对统计的核心思想和理论的理解,这样才能安全、高效地使用统计帮助我们帮助业务进行决策。

评论