华夏银行电话,capacity,企鹅-大蓝社区,共创新环境,争做时代绿化先锋

admin 4周前 ( 06-23 03:12 ) 0条评论
摘要: 本文介绍了 10 大常用机器学习算法,包括线性回归、Logistic 回归、线性判别分析、朴素贝叶斯、KNN、随机森林等.1. 线性回归在......

本文介绍了 10 大常用机器学习算法,包括线性回归、Logistic 回归、线性判别分析、朴素贝叶斯华夏银行电话,capacity,企鹅-大蓝社区,共立异环境,争做年代美化前锋、KNN、随机森林等。


1. 线性回归


在核算学和机器学习范畴,线性回归或许是最广为人知也最易了解的算法之一。


猜测建模首要重视的是在献身可解释性的情况下,尽或许最小化华夏银行电话,capacity,企鹅-大蓝社区,共立异环境,争做年代美化前锋模型差错或做出最精确的猜测。咱们将hd21学习、重用来自许多其它范畴的算法(包括核算学)来完成这些方针。


线性回归模型被表明为一个方程式,它为输入变量找到特定的权重(即系数 B),然后描绘一条最佳拟合了输入变量(x)和输1024bt出变量(y)之间联系的直线。


线性回归


例如: y = B0 + B1 * x


咱们将在给定输入值 x 的条件下猜测 y,线性回归学习算法的意图是找到系数 B0&n蛆工会bsp;和 B1 的值。


咱们可以运用不同的技能来从数据中学习线性回归模型,例如一般最小二乘法的线性代数解和梯度下降优化。华夏银行电话,capacity,企鹅-大蓝社区,共立异环境,争做年代美化前锋


线性回归大约有 200 多年的前史,并已被广泛地研讨。在运用此类技能时,有一些很好的经历规矩:咱们可以删去十分类似(相关)的变量,并尽或许移除数据中的噪声。线性回归是一种运算速度很快的简略技能,也是一种合适初学者测验的经典算法。


2. Logistic 回归


Logistic 回归是机器学习从核算学范畴学习过来的另一种技能。它是二分类问题的首选办法。


像线性回归相同,Logistic 回归的意图也是找到每个输入变量的权重系数值。但不同的是,Logistic 回归的输出猜测成果是经过一个叫作「logistic 函数」的非线性函数改换而来的。


logistic 函数的形状看起来像一个大的「S」,它会把任何值转化至 0-1 的区间内。这十分有用,因排课大师为咱们可以把一个规矩运用于 logistic 函数的输出,然后得到 0-1 区间内的捕捉值(例如,将阈值设置为 0.5,则假如函数值小于 0.5,则输出值为 1),并猜测类别的值。


Logistic 回归


因为模型的学习办法,Logistic 回归的猜测成果也可以用作给定数据实例归于类 0 或类 1 的概率。这关于需求为猜测成果供给更多理论依据的问题十分有用。


与线性回归类似,当删去与输出变量无关以及彼此之间十分类似(相关)的特点后,Logistic 回归的作用更好。该模型华夏银行电话,capacity,企鹅-大蓝社区,共立异环境,争做年代美化前锋学习速度快,对二分类问题十分有用。


3. 线性判别分析


Logistic 回归是一种传统的分类算法,它的运用场景仅华夏银行电话,capacity,企鹅-大蓝社区,共立异环境,争做年代美化前锋限于二分类问题。假如你有两个以上的类,那么线性判别分析算法(LDA)是首选的线性分类技能。


LDA 的表明办法十分直接。它包括为每个类核算的数据核算特点。关于单个输入变量而言,这些特点包括:


  • 每个类的均值。

  • 一切类的方差。


线性判别分析


猜测成果是经过核算每个类的判别值、并将类别猜测为判别值最大的类而得出的。该技能假定数据契合高斯分布(钟形曲线),因而最好预先从数据中删去异常值。LDA 是一种简略而有用的分类猜测建模办法。


4. 分类和回归树


决策树是一类重要的机器学习猜测建模算法。


决策树可以被表明为一棵二叉树。这种二叉树与算法规划和数据结构中的二叉树是相同的,没有什么特别。每个节点都代表一个输入变量(x)和一个依据该变量的分叉点(假定该变量是数值型的)。


决策树


决策树的叶子结点包括一个用于做出猜测的输出变量(y)。猜测成果是经过在树的各个分叉途径上游走,直到抵达一个叶子结点并输出该叶子结点的类别值而得出。


决策树的学习速度很快,做出猜测的速度也很快。它们在很多问题中往往都很精确,而且不需求为数据做任何特别的预处理预备。


5. 朴素贝叶斯小李钱柜


朴素贝叶斯是一种简略而强壮的猜测建模算法。


该模型由两类可直接从练习数据中核算出来的概率组成:1)数据归于每一类的概率;2)给定每个 x 值,数据从归于每个类的条件概率子守音。一旦这两个概率被核算出来,就可以运用贝叶斯定理,用概率模型对新数据进行猜测。当你的数据是实值的时分,一般假定数据契合高斯分布(钟形曲线),这样你就可以很容易地估量这些概率。


贝叶斯定理


朴素贝叶斯之所以被称为「朴素」,是因为它假定每个输入变量相互之间是独立的。这是一种很强的、关于实在数据并不实践的假定。不过,该算法在很多的复杂问题中十分有用。


6. K 最近邻算法


K 最近邻(KNN)算法是十分简略而有用的。KNN 的模型表明便是整个练习数据集。这很简略吧?


对新数据点的猜测成果是经过在整个练习集上查找与该数据点最类似的 K 个实例(近邻)而且总结这 K 个实例的输出变量而得出的。关于回归问题来超级神基因sodu说,猜测成果或许便是输出变量的均值;而关于分类问题来说,猜测成果或许是众数(或最常见的)的类的值。


要害之处在于怎么断定数据实例之间的类似程度。假如你的数据特征标准相同(例如,都以英寸为单位),那么最简略的衡量技能便是运用欧几里得距离,你可以依据输入变量之间的差异直接核算出该值。


K 最近邻


KNN 或许需求很多的内存或空间来存储一切数据,但只要在需求猜测时才实时履行核算(或学习)。跟着时刻万界美食铺的推移,你还可以更新并办理练习实例,以确保猜测的精确率。


运用距离或挨近程度的衡量办法或许会在维度十分高的情况下(有许多输入变量)溃散,这或许会对算法在你的问题上的功能发生负面影响。这便是所谓的维数灾祸。这告知咱们,应该只是运用那些与猜测输出变量最相关的输入变量。


7. 学习向量量化


KNN 算法的一个缺陷是,你需求处理整个练习数据集。而学习向量量化算法(LVQ)答应挑选所需练习实例数量,并切当地学习这些实例。


学习向量量化


LVQ 的表明是一组码本向量。它们在开始时是随机挑选的,经过多轮学习算法的迭代后,终究对练习数据集进行最好的总结。经过学习,码本向量可被用来像 K 最近邻那样履行猜测。经过核算每个码本向量与新数据实例之间的距离,可以找到最类似的街坊(最匹配的码本向量)。然后回来最匹配单元的类别值(分类)或实值(回归)作为猜测成果。假如将数据从头放缩放到相同的规模中(例g7506如 godagoda;0 到 1 之间),就可以取得最佳的猜测成果。


假如你发现 KNN 可以在你的数据集上得到不错的猜测成果,那么无妨试一试 LVQ 技能,它可以削减对内存空间的需求,不需求像 KNN 那样存储整个练习数据集。


8. 支撑向量机


支撑向量机(SVM)或许是现在最华夏银行电话,capacity,企鹅-大蓝社区,共立异环境,争做年代美化前锋盛行、被评论地最多的机器学习算法之一。


超平面是一条对输入变量空间进行区分的「直线」。支撑向量时机选出一个将输入变量空间中的点按类(类 0&nbs虎兽人p;或类 1)进行最佳切割的超平面。在二维空间中,你可以把他幻想成一条直线,假定一切输入点都可以被这条直线彻底地区分隔来。SVM 学习算法旨在寻觅终究经过超平面得到最佳类别切割的系数。


支撑向量机


超平面与最近数据点之间的距离叫作距离(margin)。可以将两个类分隔的最佳超平面是具有最大距离的直线。只要这些点与超平面的界说和分类器的构建有关,这些点叫作支撑向量,它们支撑或界说超平面。在实践运用中,人们选用一种优化算法来寻觅使距离最大化的系数值。


支撑向量机或许是现在可以直接运用的最强壮的分类器之一,值得你在自己的数据集上试一试。


9. 袋装法和随机森林


随机森林是最盛行也最强壮的机器学习算法之一,它是一种集成机器学习算法。


自助法是一种从数据样本中估量某个量(例如均匀值)的强壮核算学办法。你需求在数据中取出很多的样本,核算均值,然后对每次取样核算出的均值再取均匀,然后得到对一切数据的实在均值更好的估量。


Bagging 运用了相同的办法。释梦大全可是最常见的做法是运用决策树,而不是对整个核算模型进行估量。Baggi华夏银行电话,capacity,企鹅-大蓝社区,共立异环境,争做年代美化前锋ng 会在练习数据中取多个样本,然后为每个数据样本构建模型。当你需求对新数据进行猜测时,每个模型都会发生一个猜测成果,Bagging 会对一切模型的猜测成果取均匀,以便更好地估量实在的输出值。


随机森林


随机森林是这种办法的改善,它会创立决策树,这样就不必选死神之月牙择最优切割点,而是经过引进随机性来进行次优切割。


因而,为每个数据样本创立的模型比在其它情况下创立的模型愈加共同,可是这种共同的办法仍能确保较高的精确率。结合它们的猜测成果可以更好地估量实在的输出值。


假如你运用具有高方差的算法(例如决策树)取得了杰出的成果,那么你一般可以经过对该算法履行 Bagging 取得更好的成果。


10. Boosting 和 AdaBoost


Boosting 是一种妄图运用很多弱分类器创立一个强分类器的集成技能。要完成 Boosting 办法,首要你需求运用练习数据构建一个模型,然后创立第二个模型(它妄图批改第一个模型的差错)。直到最终模型可以对练习集进行完美地猜测或参加的模型数量已达上限,咱们才中止参加新的模型。


AdaBoost 是第一个为二分类问题开发的真实成功的 Boos情伴龚秋霞t戴志国ing 算法。它是人们入门了解 Boosting 的最佳起点。当下的 Boosting 办法建立在 AdaBoost 根底之上,最著名的便是随机梯度提升机。


AdaBoost


AdaBoost 运用浅层决策树。在创立第一棵树之后,运用该树在每个练习实例上的功能来衡量下一棵树应该对每个练习实例赋予多少权重。难以猜测的练习数据权重会增大,而易于猜测的实例权重会减小。模带双栓上课型是一个接一个顺次创立的,每个模型都会更新练习实例权重,影响序列中下一棵树的学习。在构建一切的树之后,咱们就可以对新的数据履行猜测,并依据每棵树在练习数据上的精确率来对其功能进行加权。


因为算法在纠正过错上投入了如此多的精力,因而删去数据中的异常值在数据清洗过程中是十分重要的。


原文链接:

https://me蓝色的海豚岛首要内容dium.com/m/global-identity?redirectUrl=https%3A%2F%2Fblog.goodaudience.com%2Ftop-10-machine-learning-algorithms-2a9a3e1bdaff

————

修改 ∑Pluto

来历:机器之心

更多精彩:

泰勒定理的奇闻轶事

丘成桐:闲谈微分几许

Leibniz 怎么想出微积分?(一)

线性相关和秩的物理含义

数学史上你以为最丑恶的公式是什么?

陶哲轩谈什么是好的数学

田渊栋:数学的用途(下篇)

你肯定没想过本来数学家这么流氓,一言不合就进行暴力证明

世界上最牛的五篇博士论文

数学中有哪些偶然让人眼前一亮?

算法建功!清华结业教授美国被抢车,差人力不从心自己用“贪心算法”找回

学术史上的奇文:怎样用数学抓狮子

台大教授的反思:最难的一课 咱们却没教给学生

麻省理工学院(MIT)研讨生学潘伟珀吴昕习辅导—— 怎样做研讨生

共享 数学,知识和命运 ——出资大好日子格楞师詹姆斯西蒙斯2010年在MIT的讲座


算法数学之美微信大众号欢迎赐稿

稿件触及数学、物理、算法、核算机、编程等相关范畴,经选用咱们将奉上稿费。

投稿邮箱:math_alg@163.com

文章版权及转载声明:

作者:admin本文地址:http://grand-blue.com/articles/1909.html发布于 4周前 ( 06-23 03:12 )
文章转载或复制请以超链接形式并注明出处大蓝社区,共创新环境,争做时代绿化先锋