在过去的几年里,我按照自己的工作经验、与其他数据科学家的对话以及我在网上阅读的内容,整理了我觉得最重要的机器学习算法。
去年,我想通过提供更多类型的模型以及每位类别中的更多模型来扩充今年的文章。通过这个,我希望提供一个工具和技术的储存库,您可以将其添加为书签,便于您可以解决各类数据科学问题!
话虽这么,让我们深入研究六种最重要的机器学习算法:
解释算法
机器学习中最大的问题之一是了解各类模型怎么得出最终预测。我们经常晓得“是哪些”,但很难解释“为什么”。
解释性算法帮助我们辨识对我们感兴趣的结果有有意义影响的变量。这种算法使我们才能理解模型中变量之间的关系,而不仅仅是使用模型来预测结果。
您可以使用多种算法更好地理解给定模型的自变量和因变量之间的关系。
算法:
模式挖掘算法
模式挖掘算法是一种数据挖掘技术,用于辨识数据集中的模式和关系。这种算法可用于多种目的,比如辨识零售环境中的顾客选购模式、了解网站/应用程序的常见用户行为序列快手热门算法,或在科学研究中找寻不同变量之间的关系。
模式挖掘算法一般通过剖析小型数据集并找寻重复模式或变量之间的关联来工作。一旦确定了这种模式,就可以使用它们来预测未来趋势或结果,或则了解数据中的潜在关系。
集成学习
集成算法是一种机器学习技术,它结合了多个模型的预测快手热门算法,便于作出比任何单个模型都更确切的预测。集成算法优于传统机器学习算法的缘由有以下几个:
算法
降维
降维算法是一种无监督学习任务,用于将数据分组为“集群”。与目标变量已知的监督学习相反,降维中没有目标变量。
这些技术对于发觉数据的自然模式和趋势很有用,而且常常在探求性数据剖析阶段使用,以进一步了解数据。据悉,降维可用于按照各类变量将数据集界定为不同的部份。这方面的一个常见应用是对顾客或用户进行细分。
算法
时间序列算法
时间序列算法是用于剖析时间相关数据的技术。这种算法考虑了一系列数据点之间的时间依赖性,这在尝试预测未来值时尤为重要。
时间序列算法用于各类业务应用程序,比如预测产品需求、预测销售或剖析顾客随时间变化的行为。它们还可用于测量数据中的异常或趋势变化。
算法
相像度算法
相像度算法用于评判成对的记录、节点、数据点或文本之间的相像度。这种算法可以基于两个数据点之间的距离(比如欧氏距离)或基于文本的相像性(比如Levenshtein算法)。
这种算法具有广泛的应用,但在推荐方面非常有用。它们可用于辨识相像的项目或向用户推荐相关内容。
算法