为什么正态分布在AI中如此重要?

2019-07-19 22:39 来源:未知

  普通概率分布有什么特别之处?为什么这么多数据科学和机器学习文章围绕正态概率分布?

  机器学习的世界围绕概率分布,概率分布的核心集中在正态分布上。本文说明了正态分布是什么以及为什么它被广泛使用,特别是对于数据科学家和机器学习专家。

  最后,需要注意的一点是,简单的预测模型通常是最常用的模型,因为它们可以被解释并且被充分理解。现在补充一点; 正态分布很简单,因此它的简单性使它非常受欢迎。

  如果我们想要准确地预测变量,那么我们需要执行的第一项任务就是了解目标变量的基本行为。

  我们首先需要做的是确定目标变量的可能结果,以及潜在结果是离散的(不同的值)还是连续的(无限值)。为简单起见,如果我们估计骰子的行为,那么第一步是知道它可以取1到6的任何值(离散)。

  然后,下一步是开始为事件(值)分配概率。因此,如果不能发生值,则为其分配概率为0%。

  现在我们可以做的是将值分组到类别/桶中。对于每个存储桶,我们可以开始记录变量具有存储桶值的次数。例如,我们可以掷骰子10000次,因为骰子可以有6个可能的值,我们可以创建6个桶。并开始记录每个值的出现次数。

  我们可以绘制图表,它将形成一条曲线。该曲线称为概率分布曲线,目标变量获得值的可能性是变量的概率分布。

  一旦我们理解了值的分布情况,我们就可以开始估计事件的概率,即使是通过使用公式(称为概率分布函数)。因此,我们可以更好地了解其行为。概率分布取决于样本的时刻,例如平均值,标准偏差,偏度和kertosis。

  如果绘制概率分布并形成钟形曲线并且样本的均值,模式和中值相等,则变量具有正态分布。

  此外,我们周围有大量的变量是正常的,ax%置信度; x 100。

  分布的这种特性使统计人员非常简单,因此任何具有正态分布的变量都可以以更高的精度进行预测。

  现在,需要注意的是,一旦你发现大多数变量在自然界中的概率分布,那么它们都大致遵循正态分布。

  这个想法围绕着这样的定理:当你在大量随机变量上重复实验很多次时,它们的分布总和将非常接近正态性。

  由于人的身高是一个随机变量,并且基于其他随机变量,例如一个人消耗的营养量,他们所处的环境,他们的遗传等等,这些变量的分布总和最终是非常接近正常。

  我们从上面的部分可以理解,正态分布是许多随机分布的总和。如果我们绘制正态分布密度函数,它的曲线具有以下特征:

  如果使用其计算的概率密度函数绘制概率分布曲线,则给定范围的曲线下面积给出目标变量在该范围内的概率。

  该概率分布曲线基于概率分布函数,该概率分布函数本身是根据诸如平均值或变量的标准偏差的多个参数计算的。

  我们可以使用这个概率分布函数来找出随机变量取一个范围内的值的相对概率。作为一个例子,我们可以记录股票的每日回报,将它们分组到适当的桶中,然后找到股票在未来获得20-40%收益的概率。

  现在更令人着迷的是,一旦你添加了大量具有不同分布的随机变量,你的新变量将最终具有正态分布。这基本上称为中心极限定理。

  表现出正态分布的变量总是表现出正态分布。作为一个例子,如果A和B是两个具有正态分布的变量,那么:

  结果,由于众所周知的概率分布函数,预测变量并在一定范围内找到它的概率非常简单。

  一旦我们收集变量的样本,我们就可以通过使用上面的公式线性转换样本来计算Z得分:

  注意,建议了解何时使用每个电源变压器。对Box-Cox和Yeo Johnson等电力变压器及其用例的解释超出了本文的范围。

  由于正态分布简单且易于理解,因此它也在预测项目中过度使用。假设正常有其自身的缺陷。作为一个例子,我们不能假设股票价格遵循正态分布,因为价格不能为负。因此,股票价格可能跟随正态分布的对数,以确保它永远不会低于零。

  变量可以遵循Poisson,Student-t或Binomial分布作为实例,并错误地假设变量遵循正态分布可能导致不准确的结果。

  本文阐述了正态分布是什么以及为什么它如此重要,特别是对于数据科学家和机器学习专家。

  需要学习AI或者Python请加微信号:Aspencore6,将会定期邀请入群。

TAG标签: 正态曲线
版权声明:转载须经版权人书面授权并注明来源