自动挡档位,影音-1188金宝搏 ios下载_金博宝注册送|官网下载

作者 | 机器之心 

来历| https:堆雪人图片//欧美av女优www.jiqizhixin.com/articles/a-tour-of-the-top-10-algorithms-for-machine-learning-newbies

在机器学习中,有一种叫做「没有免费的午饭」的定理。简而言之,它新式中二病指出没有任何一种算法对一切问题都有用,在监督学习(即猜测建模)中特别如此。

例如,你不能说神经网络总是比决策树好,反之亦然。有许多要素在起作用,例如数据集的巨细和结构。

因而,你应该针对具体问题测验多种不同算法,并留出一个数据「测验集」来评价功能、选出优胜者。

当然,你自动挡档位,影音-1188金宝搏 ios下载_金博宝注册送|官网下载测验的算法有必要合适你的问题,也便是挑选正确的机器学习使命。打个比方,假如你需求清扫房子,你或许会用吸尘器、扫帚或拖把,可是你不会拿出铲子开端挖土。

大准则

不过也有一个遍及准则,即一切监花火鬼夜督机器学习算法猜测建模的根底。

机器学王覃渝习算法被描绘为学习一个方针函数 f,该seulmin函数将输入变量 X 最好地映射到输出变量 Y:Y = f(X)

这是一个遍及的学习使命,咱们可以依据输入变量 X 的新样本对 Y 进行猜测。咱们不知道函数 f 的姿态或办法。假如我易小颜sandy们知道的话,咱们将会直接运用它,不需求用机器学习算法从数据中学习。

最常见的机器学习算法是学习映射 Y = f(X) 来猜测新 X 的 Y。这叫做猜测建模或猜测剖析,咱们的方针是尽或许作出最精确的猜测。

关于想了解机器学习根底自动挡档位,影音-1188金宝搏 ios下载_金博宝注册送|官网下载常识的新手,本文将概述数据科学家运用的 top 10 机器学习算法。


1. 线性回归

线性回归或许是核算学和机器学习中最闻名和最易了解的算法之一。

猜测建模首要重视最小化模型差错或许尽或许作出最精确的猜测,以可解释性为价值。咱们将借用、重用包含核算学在内的许多不同范畴的算法,并将其用于这些意图。侃

线性回归的表明是一个方程,它经过找到输入变量的特定权重(称为系数 B),来描绘一条最合适表明输入变量 x 与输出变量 y 联系的直线。


线性回归

例如:y = B0 + B1 * x

咱们将依据输入 x 猜测 y,线性回归学习算法的方针是找到系数 B0 和 B1 的值。

可以运用不同的技能从数据中学习线性回归模型,例如用于一般最小二乘法和梯度下降优化的线性代数解。

线性回归现已存在了 200 多年,并得到了广泛研讨。运用这种技能的一些经历是尽或许去除十分类似(相关)的变量,并去除噪音。这是一种快速、简略的技能,可以首要测验一下。


2. Logistic 回归

Logistic 回归是机器学习从核算学中学习的另一种技能。它是处理二分类问题的首选办法。

Logistic 回归与线性回归类似,方针都是找到每个输入变量的权重,即系数值。与线性回归不同的是,Logistic 回归对输出的猜测运用被称为 logistic 函数的非线性函数进行改换。

logistic 函数看起来像一个大的 S,而且可以将任何值转换到 0 到 1 的区间内。这十分有用,由于咱们可以规则 logistic 函数的输出值是 0 和 1(例如,输入小于 0.5 则输出为 1)并猜测类别值。


Logistic 回归

由于模型的学习办法,Logistic 回归的猜测也可以作为给定数据实例(归于类别 0 或 1)的概率。这关于需求为猜测供给更多依据的问题很有用。

像线性回归相同,Logistic 回归在删去与输出变量无关的特点以及十分类似(相关)的特点时作用更好。它是一个快速的学习模型,而且关于二分类问题十分有用。


3. 线性判别剖析(LDA)

Logistic 回归是一种分类算法,传统上,它仅限于只要两类的分类问题。假如你有两个以上的类别,那么线性判别剖析世越号是首选的线性分类技能。

LDA 的表明十分简略直接。它由数据的核算特点构成,对每个类别进行核算。单个输入变量的 LDA 包含:


线性判别剖析

进行猜测的办法是核算每个类别的判别值并对具有最大值的类别进行猜测。该技能假定数据呈高斯分布(钟形曲线),因而最好预先从数据中删去异常值。这是处理分类猜测建模问题的一种简略而强壮的办法。


4. 分类与回归树

决策树是猜测建模机器学习的一种重要算法。

决策树模型的表明是一个二叉树。这是算法和数据结构中的二叉树,没什么特别的。每个节点代表一个独自的输入变量 x 和该变量上的一个切割点(假定变量是数字)。


决策树

决策树的叶节点包含一个用于猜测的输出变量 y。经过遍历该树的切割点,直到抵达一个叶节点并输出该节点的类别值就可以作崔社军出猜测。

决策树学习速度和猜测速度都很快。它们还可以处理许多问题,而且不需求对数据做特别预备。


5. 朴素贝叶斯

朴素贝叶斯是一个简略可是很强壮的猜测建模算法。

该模型由两种概率组成,这两种概率都可以直接从练习数据中核算出来:1)每个类别的概率;2)给定每个 x 的值,每个类别的条件概率。一旦核算出来,概率模型可用于运用贝叶斯定理对新数据进行猜测。当你的数据是实值时,一般假定一个高斯分布(钟形曲线),这样你可以简略的估量这些概率。


贝叶斯定理

朴素贝叶斯之所以是朴素的,是由于它假定每个输入变量是独立的。这是一个强壮的假定,实在的数据并非如此,可是,该技能在许多复杂问题上十分有用。


6. K 近邻算法

KNN 算法十分简略且有用。KNN 的模型表明是整个练习数据集。是不是很简略?

KNN 算法在整个练习会集查找 K 个最类似实例(近邻)并汇总这 K 个实例的输出变量,以猜测新数据点。关于回归问题,这或许是均匀输出变量,关于分类问题,这或许是众数(或最常见的)类别值。

窍门在于怎么确认数据实例间的北海开展的路子走对了类似性。假如特点的衡量单位相同(例如都是用英寸表明),那么最简略的技能是运用欧几里得距离,你可以依据每个输入变量之间的差值直接核算出来其数值。


 K 近邻算法

KNN 需求许多内存或空间来存储一切数据,可是只要在需求猜测时才履行核算(或学习)。你还可以随时更新和办理练习实例,以坚持猜测的精确性。

距离或紧密性的概念或许在十分高的维度(许多输入变量)中会分裂,这对算法在你的问题上的功能发生负面影响。这被称为维数灾祸。因而你最好只运用那些与猜测输出变量最相关的输入变量。


7. 自动挡档位,影音-1188金宝搏 ios下载_金博宝注册送|官网下载学习向量量化

K 近邻算法的一个缺陷是你需求遍历整个练习数据集。学习向量量化算法(简称 LVQ)是一种人工神经网络算法,它答应你挑选练习实例的数量,并精确地学习这些实例应该是什么样的。


学习向量量化

LVQ 的表明是码本向量的调集。这些是在开端时随机挑选的,并逐步调整以在学习算法的屡次迭代中最好地总结练习数据集。在学习之后,码本向量可用于猜测(类似 K 近邻算法)。最类似的近邻(最佳匹配的码本向量)经过核算每个码本向量和新数据实例之间的距离找到。然后回来最佳匹万鹏配单元的类别值或(回归中的实践值)作为猜测。假如你从头调整数据,使其具有相同的规模(比方 0 到 1 之间),就可以取得最佳成果。

假如你发现 KNN 在你的数据集上到达很好的成果,请测验用 LVQ 削减存储整个练习数据集的内存要求。


8. 支撑向量机(SVM)

支撑向量机或许是最受欢迎和最广泛评论的机器学习算法之一。

超平面是切割输入变量空间的一条线。在 SVM 中,挑选一条可以最好地依据输入变量类别(类别 0 或类别 1)对输入变量空间进行切割的超平面。在二维中,你可以将其视为一条线,咱们假定一切的输入点都可以被这条线彻底的分隔。SVM 学习算法找到了可以让超平面临类别进行最佳切割的系数。


支撑自动挡档位,影音-1188金宝搏 ios下载_金博宝注册送|官网下载向量机

超平面和最近的数据点之间的距离被称为距离。分隔两个类别的最好的或最理想的超平面具有最大距离。只要这些点与界说超平面和构建分类器有关。这些点被称为支撑向量,它们支撑或界说了超平面。实践上,优化算法用于寻觅最大化距离的系数的值。

SVM 或许是最强壮的当即可用的分类器之一,值得一试。


9. Bagging 和随机森林

随机森林是最盛行和最强壮的机器学习算法之一。它是 Bootstrap Aggregation(又称 bagging)集成机器学习算法的一种。

bootstrap 是从数据样本中预算数量的一种强壮的核算办法。例如均匀数。你从数据中抽取许多样本,核算均匀值,然后均匀一切的均匀值以便更好的估量实在的均匀值。

bagging 运用相同的办法,可是它估量整个核算吉利天宝模型,最常见的是决策树。在练习数据中抽取多个样本,然后对每个数据样本建模。当你需求对新数据进行猜测时,每个模型都进行猜测,并将一切的猜测值均匀以便更好的估量实在的输出值。


随机森林

随机森林是对这种办法的一种调整,在随机森林的办法中决策树被创立以便于经过引进随机性来进行次优切割,而不是挑选最佳切割点。

因而,针对每个数据样本创立的模型将会与其他办法得到的有所不同,不过尽管办法共同且不同,它们仍然是精确的。结合它们的猜测可以更好的估量实在的输出值。

假如你用方差较高的算法(如决策树)得到了很好的成果,那么一般可以经过 bagging 该算法来取得更好的成果。


10. Boosting 和 AdaBoost

Boosting 是一种会考成果查询自动挡档位,影音-1188金宝搏 ios下载_金博宝注册送|官网下载集成技能,它企图集成一些弱分类器来创立一个强分类器。这经过从练习数据中构建一个模型,然后创立第二个模爱你是最好的韶光型来测验纠正第一个模型的过错来完结。一向增加模型直到可以完美猜测练习集,或增加的模型数量现已到达最大数量。

AdaBoost 是第一个为二分类开发的真实成功的 boosting 算法。这是了解 boosting 的最佳起点。现代 boosting 办法树立在 AdaBoost 之上,最明显的是随机自动挡档位,影音-1188金宝搏 ios下载_金博宝注册送|官网下载梯度提高。


AdaBoost

AdaBoost 与短决策树一同运用。在第一个决策树创立之后,使用每铁窗泪个练习实例上树的功能来衡量下一个决策树应该对每个练习实例支付多少注意力。难以猜测的练习数据被分自动挡档位,影音-1188金宝搏 ios下载_金博宝注册送|官网下载配更多权重,而简单猜测的数据分配的权重较少。顺次创立模型,每个模型在训李嘉臣微博练实例上更新权重,影响序列中下一个决策树的学习。在一切决策树树立之后,对新数据进行猜测,而且经过每个决策树在练习数据上的精确度评价其功能。

由于在纠正算法过错上投入了太多注意力,所以具有已删去异常值的洁净数据十分重要。

总结

初学者在面临各种机器学习算法时常常问:「我应该用哪个算法?」这个问题的答案取决于许多要素,包含:(1保利集团)数据的巨细、质量和特性;(2)可用的核算时刻;(3)使命的紧迫性;(4)你想用这些数据做什么。

即使是经历丰富的数据科学家在测验不同的算法之前,也无法分污污污辨哪种算法会体现最好。尽管还有许多其他的机器学习算法,但本篇文章中评论的是最受欢迎的算法。假如你是机器学习的新手,这将是一个很好的学习起点。


原文链接:https://towardsdatascience.com/a-tour-of-the-top-10-algorithms-for-machine-learning-newbies-dde4edffae11

转载原创文章请注明,转载自1188金宝搏 ios下载_金博宝注册送|官网下载,原文地址:http://www.tjhairunze.com/articles/535.html

上一篇:孔孝真,寸-1188金宝搏 ios下载_金博宝注册送|官网下载

下一篇:烂苹果乐园,饿了么-1188金宝搏 ios下载_金博宝注册送|官网下载