Python语言下的机器学习库

发布时间： 2017-06-28 09:37:07

Python是最好的编程语言之一，在科学计算中用途广泛。当然，它也有些缺点，其中一个是工具和库过于分散。如果你是拥有unix思维的人，你会觉得每个工具只做一件事并且把它做好是非常方便的。但是你也需要知道不同库和工具的优缺点，这样在构建系统时才能做出合理的决策。工具本身不能改善系统或产品，但是使用正确的工具，我们可以工作得更高效，生产率更高。因此了解正确的工具，对你的工作领域是非常重要的。这篇文章的目的就是列举并描述Python可用的最有用的机器学习工具和库。这个列表中，我们不要求这些库是用Python写的，只要有Python接口就够了。

Scikit-Learn

Scikit Learn是在CB Insights选用的机器学习工具。可以用它进行分类、特征选择、特征提取和聚集。小编最爱的一点是它拥有易用的一致性API，并提供了很多开箱可用的求值、诊断和交叉验证方法。锦上添花的是它底层使用Scipy数据结构，与Python中其余使用Scipy、Numpy、Pandas和Matplotlib进行科学计算的部分适应地很好。因此，如果你想可视化分类器的性能，比如，使用精确率与反馈率图表或接收者操作特征曲线，Matplotlib可以帮助进行快速可视化。考虑到花在清理和构造数据的时间，使用这个库会非常方便，因为它可以紧密集成到其他科学计算包上。另外，它还包含有限的自然语言处理特征提取能力以及词袋、tfidf算法、预处理。此外，如果你想快速对小数据集进行不同基准测试的话，它自带的数据集模块提供了常见和有用的数据集。你还可以根据这些数据集创建自己的小数据集，这样在将模型应用到真实世界中之前，你可以按照自己的目的来检验模型是否符合期望。对参数最优化和参数调整，它也提供了网格搜索和随机搜索。

Statsmodels

Statsmodels是另一个聚焦在统计模型上的强大的库，主要用于预测性和探索性分析。如果你想拟合线性模型、进行统计分析或者预测性建模，那么Statsmodels非常适合。它提供的统计测试相当全面，覆盖了大部分情况的验证任务。如果你是R或者S的用户，它也提供了某些统计模型的R语法。它的模型同时也接受Numpy数组和Pandas数据帧，让中间数据结构成为过去!

PyMC

PyMC是做贝叶斯曲线的工具。它包含贝叶斯模型、统计分布和模型收敛的诊断工具，也包含一些层次模型。如果想进行贝叶斯分析，你应该看看。

Shogun

Shogun是个聚焦在支持向量机上的机器学习工具箱，用C++编写。它正处于积极开发和维护中，提供了Python接口，也是文档化最好的接口。但是，相对于Scikit-learn，我们发现它的API比较难用。而且，也没提供很多开箱可用的诊断和求值算法。但是，速度是个很大的优势。

Gensim

Gensim被定义为“人们的主题建模工具(topic modeling for humans)”。它的主页上描述，其焦点是狄利克雷划分及变体。不同于其他包，它支持自然语言处理，能将NLP和其他机器学习算法更容易组合在一起。如果你的领域在NLP，并想进行聚集和基本的分类，你可以看看。目前，它们引入了Google的基于递归神经网络的文本表示法word2vec。这个库只使用Python编写。

Orange

Orange是这篇文章列举的所有库中唯一带有图形用户界面的。对分类、聚集和特征选择方法而言，它是相当全面的，还有些交叉验证的方法。在某些方面比Scikit-learn还要好，但与其他科学计算系统的适配上比不上Scikit-learn。但是，包含GUI是个很重要的优势。你可以可视化交叉验证的结果、模型和特征选择方法，某些功能需要安装Graphviz。对大多数算法，Orange都有自己的数据结构，所以你需要将数据包装成Orange兼容的数据结构，这使得其学习曲线更陡。

PyMVPA

PyMVPA是另一个统计学习库，API上与Scikit-learn很像。包含交叉验证和诊断工具，但是没有Scikit-learn全面。

如果我们遗漏了你最爱的Python机器学习包，欢迎你访问腾科官网（http://www.togogo.net）分享给我们知道。我们很乐意将其添加到文章中。

网络技术

系统运维

数据库

云计算

安全

大数据

人工智能

项目管理

软件开发

其他

优选课程

高校合作

企业定制

考试中心

学习资源

关于我们

业界新闻

Python语言下的机器学习库

相关课程推荐

关于我们

联系我们

最新文章

客服热线

全国校区

友情链接

关注我们