数据科学的概率

概率和统计数据形成数据科学的核心。概率使我们能够量化鉴于手头数据的结果如何。在处理分类问题时,最需要使用概率。机器学习算法输出每个类别的实例的概率。概率对此有很多。并且知道这些基础知识充分了解算法后面的工作。这就是本文的意义。

在本教程结束时,您将知道以下内容:

  • 什么是概率空间?
  • 独立和依赖事件
  • 边缘,关节和条件概率
  • 相关性与协方差
  • 不同类型的概率分布

了解概率空间

概率空间是一组来自实验的所有可能结果。要了解这一点,我们将首先需要看看实验是什么。随机实验是一种事件,其中无法确定某种特定结果。相反,可以有概率分配给每个可能的结果。例如,考虑滚动具有6个面的模具的情况。这是随机事件,因为任何数字到达的概率是相等的,完全随机的。因此,用于滚动模具的示例空间将是S = {1,2,3,4,5,6}。这种情况下的一组事件将是滚动骰子时可以提出的所有数字。这里,投掷骰子事件的子集可以是{1},{3,2}等。

为了衡量任何事件的可能性,我们必须考虑与它相关的可能结果的总数。在这种情况下,在模具卷上看到1的可能性是⅙。事件的概率将始终在0到1之间。这里,一个重要的规则是,如果事件不相交,则所有事件的概率的总和必须等于1。事件发生的可能性越高,其概率越高。在二进制分类中,我们通常需要0.5作为阈值。所以,如果实例的概率是>0.5,它被分配给A类。如果它的概率是<0.5,它被分配给B类。

独立和依赖事件

考虑2个事件,A和B.当事件A的发生概率时不依赖于事件B的发生,然后A和B是独立事件。例如,如果你有2个公平的硬币,那么两者都将在硬币上获得头部的概率为0.5。因此,事件是独立的。

现在考虑一个包含5个球 - 2黑色和3个红色的盒子。首先绘制黑球的可能性将是2/5。现在从剩下的4个球中再次绘制黑球的可能性将是1/4。在这种情况下,这两个事件依赖于第二次绘制黑球的概率取决于第一次转到的球被绘制。

边缘,关节和条件概率

边际概率: 事实是不管其他随机变量的结果如何,例如那种事件的概率,例如, p(a)或p(b)。在模具情况下,它将是1发生的概率,或者2发生。然后,它们可以被描绘为P(1),P(2)等。

联合概率: 是两种不同事件的概率,同时发生,即两个(或更多)同时事件,例如, p(a和b)或p(a,b)。计算联合概率的公式仅仅是p(a)* p(b)。因此,在我们的模具示例中,如果我们想计算获得两个角色的概率,那将是p(6,6)的联合概率,其将等于⅙* = 0.02777。

条件概率: 鉴于另一个事件的发生或换句话说,当次要事件B为真时发生事件A的事件A的概率是概率。例如p(给定B)或p(a | b)。这是计算为p(a和b)/ p(a)的计算。

相关性与协方差

相关性和协方差往往彼此混淆。它们是相似的,但讲述了数据的不同特征。相关性和协方差两个术语来测量两个变量之间的关系和依赖。 

协方差 定义方差的方向或2个变量之间的关系。如果协方差为0,则意味着变量与彼此没有方差。这意味着它们与数据无关并提供有关数据的完全不同的信息。如果是阳性的,则意味着随着另一个变量增加(直接比例),如果它是否定的,则随着另一个变量的变量减少(成反比)。

相关性另一方面,还定义了2个变量之间的关系的幅度。相关性只不过是协方差除以变量的标准偏差。因此,相关的值位于-1和1. -1之间是完全的逆比例,1是完全的直接比例。而这样的变量赢了’t将多个信息添加到数据中。

不同类型的概率分布

假设您从衡量城市中人民高度的人口中绘制一个随机样本。在测量高度时,您可以创建高度值的分布。说,很多人位于130-150厘米的范围内,位于160-180厘米的高档范围内,较少的低档范围为100-130厘米。因此,您最有可能随意挑选一个人的高度约为130-150厘米,平均谎言。

在X轴上的高度绘制直方图时,可以绘制曲线以近似直方图分布。曲线更高的点表示更多的数据点,因此更多的概率。当我们需要计算从样本绘制某些值的概率时,这在非常方便。 

因此,变量的概率分布告诉我们该变量的所有子集的概率分布。一旦我们知道变量的分布,它就可以大大帮助我们建模机器学习模型。让我们来看看一些常见的概率分布。

均匀分布

在每个事件具有相同的发生概率的变量中,它形成均匀的分布。例如,在模具示例中,每个数字发生的概率是⅙。因此,如果变量是离散的,则概率将是1 / n,其中n是可能结果的总数。

伯努利分销

该分布用于离散变量。它有一个参数P.如果事件的概率是p,则另一个事件的概率将是1-p。例如,如果违约贷款的人的概率为0.2,他的可能性不会违约贷款将是1-0.2 = 0.8。

正常分布

假设您从衡量城市中人民高度的人口中绘制一个随机样本。在测量高度时,您可以创建高度值的分布。说,很多人位于130-150厘米的范围内,位于160-180厘米的高档范围内,较少的低档范围为100-130厘米。因此,您最有可能随意挑选一个人的高度约为130-150厘米,平均谎言。

在X轴上的高度绘制直方图时,可以绘制曲线以近似直方图分布。这就是我们所谓的正态分布。曲线更高的点表示更多的数据点,因此更多的概率。当我们需要计算从样本绘制某些值的概率时,这在非常方便。  

在你走之前

我们涵盖了本教程中的大部分概率基础。涉及到应用数据科学时,这些概念的知识有助于越来越多的洞察力。反过来帮助我们做出更好的模型并预测更好的结果。


副主编

克扬 是一个有目光的创意数据科学家,有关细节。日常学习者和博主,他非常渴望分享知识并支持数据科学界。与他联系 linkedin 联系和唐’忘了看看他的 中等的 blogs.

数据科学|机器学习|科技博客– upGrad

关于Chayan Kathuria.

克扬 是一个有目光的创意数据科学家,有关细节。日常学习者和博主,他非常渴望分享知识并支持数据科学界。与他联系 linkedin 联系和唐'忘了看看他的 中等的 blogs. 数据科学|机器学习| Tech Blogger - 升级

查看所有帖子由Chayan Kathuria→