三阶中心矩 机器学习需要哪些数学基础?

[更新]
·
·
分类:行业
1707 阅读

三阶中心矩

机器学习需要哪些数学基础?

机器学习需要哪些数学基础?

对于搞机器学习的同学来说,高等数学、线性代数和概率论与数理统计是最重要的三门的数学基础了。下面我来分别说明这三方面在机器学习中的作用
一. 高等数学高等数学里面的微积分、牛顿迭代、拉格朗日乘数法、泰勒展开等等知识点在机器学习中都有应用到。例如在逻辑回归模型求梯度时候需要求偏导、优化目标使用的牛顿迭代方法、带约束优化问题的SVM需要用到拉格朗日乘数法等等,还有其它高等数学的知识点在机器学习中或多或少都有体现。
二. 线性代数推荐系统使用的SVD分解、张量分解、非负矩阵分解NMF,PCA主成分分析中求特征值、矩阵运算。下面我贴一下之前我用矩阵求导解最小二乘问题的公式推导过程,可以体会一下线性代数的重要程度。
最小二乘的解,可以通过梯度下降迭代或牛顿迭代方法求解,但也可以基于矩阵求导来计算,它的计算方式更加简洁高效,不需要大量迭代,只需解一个正规方程组。
总之,线性代数对于机器学习来说比高数还重要。
三. 概率论与数理统计概率论与数理统计那就更重要了,比如朴素贝叶斯分类和概率图模型用到的贝叶斯公式,高斯过程、最大熵模型,采样方法,NLP领域的大部分算法都与概率论相关,像基于LDA的主题模型、基于CRF的序列标注模型、分词系统等等。
所以要搞机器学习,高等数学、线性代数和概率论与数理统计都是必不可少的数学基础。

偏度系数正负怎么看?

偏度系数
偏度系数是描述分布偏离对称性程度的一个特征数。当分布左右对称时,偏度系数为0。当偏度系数大于0时,即重尾在右侧时,该分布为右偏。当偏度系数小于0时,即重尾在左侧时,该分布左偏。
使用不同的计量单位时,偏度系数的计算公式是不同的。
中文名
偏度系数
外文名
Skewness
类别
名词
类型
系数
特点
标准差
定义
设随机变量的三阶矩存在,则称三阶中心矩
除以标准差的三次方
为的偏度系数。偏度系数用以描述正态分布的分布形状特征。
使用标准差为单位计量的偏度系数
该偏度系数记为
,被定义为
其中,
是众数,
是标准偏差。
是无量纲的量,取值通常在-3~ 3之间,其绝对值越大,表明偏斜程度越大。当分布呈右偏态时,
,故也称正偏态;当分布为左偏态时,
,故也称负偏态。但除非是分组频数分布数据,否则式中的众数
有很大的随机性。
使用三阶中心矩计量的偏度系数
该偏度系数是用三阶中心矩除以标准差的三次方来度量偏斜程度,记为
,被定义为
其中
是随机变量的三阶中心矩。
偏度系数
可以适用任何数据。

的计算方法不同,因此根据同一资料计算的结果也不相同。
测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,g1lt0,表示负偏,即均值在峰值的左边;g1gt0,表示正偏,即均值在峰值的右边;g10