学习方法

首页 > 学习方法 > 正文

摆脱“层面的詛咒”机器学习降维好

  • 日期:2021-06-01 09:11
  • 来源: 未知
  • 浏览:
  • 字体:[ ]

  应用机器学习时,是不是你常常由于有过多不相干特征而造成模型实际效果不佳而苦恼?而实际上,降维便是机器学习中可以处理这类难题的一种好方法。

  著名高新科技时尚博主Ben Dickson 对于此事开展了讨论,并在了TechTalks上发布了blog《机器学习:什么叫降维》,文中的编译程序梳理已遭受Ben Dickson 自己受权。

  他强调,机器学习优化算法由于可以从具备很多特征的数据集中找到有关信息而走红,这种数据集通常包含了几十行的报表或是上百万清晰度的图象。

  你有一个在不一样月份从不一样大城市搜集的各种信息内容的数据集,包含溫度、环境湿度、城镇人口、交通出行、在大城市举行的演奏会总数、风力、风频、标准气压、选购的客车票总数和降水量。

  由于如果你有过多的特征时,你也会必须一个更繁杂的模型,这就代表着你需要大量的训炼数据信息和大量的计算水平,才可以把模型训炼到一个可接纳的水准。

  因为机器学习不了解逻辑关系,即便 沒有逻辑关系,模型也会尝试将数据集中的一切特征投射到总体目标自变量,这很有可能会造成模型不正确。

  考虑到一个对图象开展归类的机器学习模型。假如你的数据集由100×100清晰度的图象构成,那麼每一个清晰度一个,这的难题室内空间有10,000个特征。殊不知,即便 在图像分类难题中,一些特征也是过多的,能够被删掉。

  当解决表格数据时,特征挑选十分合理,由于在其中的每一列都意味着了一种特殊的信息内容。在开展特征挑选时,大数据工程师要做2件事:

  Python的Scikit-learn库开发设计了许多作用,可以剖析、数据可视化和挑选恰当的特征,来完成机器学习模型。

  假如2个特征高宽比有关,那麼他们将对总体目标自变量造成相近的危害,因而,能够删掉在其中一个,而不容易对模型导致不良影响。这种专用工具还能够协助数据可视化特征和剖析总体目标自变量中间的关联性,进而协助除去不危害总体目标自变量的自变量。

  投影技术 便是一个好方法,也被称作 “特征获取” ,能够根据将好多个特征缩小到一个低维空间来简单化模型。

  它是一组紧紧围绕三维聚焦点转动的数据信息点,这一数据集有三个特征。每一个点(总体目标自变量)的值是依据它沿打卷途径到蔓越莓曲奇管理中心的间距来精确测量的。在下面的照片中,小红点更挨近管理中心,黄点顺着翻转方位更远。建立一个机器学习模型,将蔓越莓曲奇点的特征投射到他们的值十分难,必须一个具备很多主要参数的繁杂模型。可是,引进降维技术性,这种点能够被投影到一个较低层面的室内空间,可以用一个简易的机器学习模型来学习培训。

  有各种各样投影技术。在上面的事例中,大家应用了 “部分线形置入”(LLE)”的方式 ,这类优化算法能够减少难题室内空间的层面,另外保存了分离出来数据信息点标值的重要原素。在我们的数据信息用LLE解决时,結果看上去如同下面的照片,这如同一个进行的蔓越莓曲奇。

  你能见到,每一种色调的点都维持在一起。因而,这个问题依然能够简单化为一个单一的特征,并且用非常简单的机器学习优化算法(回归分析)模型。尽管这一事例是假设性的,但假如你将特征投影到一个较低层面的室内空间,常常会遭遇一些能够简单化的难题。

  例如, “主成分分析法”(PCA) 是一种时兴的降维优化算法,在简单化机器学习难题层面有很多有效的运用。在出色的《用Python开展机器学习(Hands-on Machine Learning with Python)》一书里,大数据工程师Aurelien Geron展现了怎么使用PCA将MNIST数据集从784个特征(28×28清晰度)降低到150个特征,另外保存了95%的标准差。

  这类降维水准对神经网络算法的训炼和运作成本费的危害尤其大。有关投影技术,几个常见问题必须考虑到:

  一旦你开发设计了投影技术,就务必先将新数据点变换到低维空间,随后再根据机器学习模型运作他们。但假如这一预备处理流程的成本费很大,最终模型的盈利过小得话,很有可能不太值。

  第二个难题是,变换后的数据信息点很有可能不可以立即意味着其初始特征,假如将他们再变换回初始室内空间很有可能很不便,一些状况下都不太行得通,因而这很有可能会难以表述模型的推理。

  大数据工程师可以用降维做为一个辅助工具,转化成好的机器学习模型,但和别的专用工具一样,应用降维的情况下也是有很多难题,有很多地区都必须当心。

    关于我们 广告合作 版权声明意见建议 RSS订阅 TAG标签网站地图

    COPYRIGHT 2009 - 2020 自学习网

    本站部分内容摘自网络,若您的文章不愿被本站摘录,请及时通知我们。