常用数据挖掘工具有哪些
2020-07-28 · 百度认证:美林数据技术股份有限公司
前段时间国际权威市场分析机构IDC发布了《中国人工智能软件及应用(2019下半年)跟踪》报告。在报告中,美林数据以11%的市场份额位居中国机器学习开发平台市场榜眼,持续领跑机器学习平台市场。在此之前,2019年IDC发布的《IDC MarketScape™:中国机器学习开发平台市场评估》中,美林数据就和BAT、微软、AWS等知名一线厂商共同跻身领导者象限,成为中国机器学习开发平台市场中的领导企业之一。
以上都是对美林数据Tempo人工智能平台(简称:TempoAI)在机器学习开发平台领域领先地位的认可,更说明美林数据在坚持自主创新、深耕行业应用道路上的持续努力,得到了业界的广泛认可,并取得了优异成绩。
Tempo人工智能平台(TempoAI)为企业的各层级角色提供了自助式、一体化、智能化的分析模型构建能力。满足用户数据分析过程中从数据接入、数据处理、分析建模、模型评估、部署应用到管理监控等全流程的功能诉求;以图形化、拖拽式的建模体验,让用户无需编写代码,即可实现对数据的全方位深度分析和模型构建。实现数据的关联分析、未来趋势预测等多种分析,帮助用户发现数据中隐藏的关系及规律,精准预测“未来将发生什么”。
产品特点:
1 极简的建模过程
TempoAI通过为用户提供一个机器学习算法平台,支持用户在平台中构建复杂的分析流程,满足用户从大量数据(包括中文文本)中挖掘隐含的、先前未知的、对决策者有潜在价值的关系、模式和趋势的业务诉求,从而帮助用户实现科学决策,促进业务升级。整个分析流程设计基于拖拽式节点操作、连线式流程串接、指导式参数配置,用户可以通过简单拖拽、配置的方式快速完成挖掘分析流程构建。平台内置数据处理、数据融合、特征工程、扩展编程等功能,让用户能够灵活运用多种处理手段对数据进行预处理,提升建模数据质量,同时丰富的算法库为用户建模提供了更多选择,自动学习功能通过自动推荐最优的算法和参数配置,结合“循环行”功能实现批量建模,帮助用户高效建模,快速挖掘数据隐藏价值。
2 丰富的分析算法
TempoAI集成了大量的机器学习算法,支持聚类、分类、回归、关联规则、时间序列、综合评价、协同过滤、统计分析等多种类型算法,满足绝大多数的业务分析场景;支持分布式算法,可对海量数据进行快速挖掘分析;同时内置了美林公司独创算法,如视觉聚类、L1/2稀疏迭代回归/分类、稀疏时间序列、信息抽取等;支持自然语言处理算法,实现对海量文本数据的处理与分析;支持深度学习算法及框架,为用户分析高维海量数据提供更加强大的算法引擎;支持多种集成学习算法,帮助用户提升算法模型的准确度和泛化能力。
3 智能化的算法选择
TempoAI内置自动择参、自动分类、自动回归、自动聚类、自动时间序列等多种自动学习功能,帮助用户自动选择最优算法和参数,一方面降低了用户对算法和参数选择的经验成本,另一方面极大的节省用户的建模时间成本。
4 全面的分析洞察
为了帮助用户更好、更全面的观察分析流程各个环节的执行情况, TempoAI提供了全面的洞察功能,通过丰富详实的洞察内容,帮助用户全方位观察建模过程任意流程节点的执行结果,为用户开展建模流程的改进优化提供依据,从而快速得到最优模型,发现数据中隐含的业务价值。
5 企业级的成果管理与应用能力
挖掘分析成果,不仅仅止步于模型展示,TempoAI全面支撑成果管理与应用,用户在完成挖掘流程发布后,可基于成果构建服务或调度任务等应用,在成果管理进行统一分类及管理,可根据业务需求选择应用模式:调度任务、异步服务、同步服务、流服务及本地化服务包,满足工程化的不同诉求。提供统一的成果分类统计、在线数量变化趋势、日活跃数量变化趋势、调用热度、失败率排名等成果统计功能,同时提供所有服务的统一监测信息,包括服务的调用情况及运行情况。帮助用户高效便捷的管理成果、利用成果及监测成果。
6 完善的断点缓存机制
TempoAI提供节点的断点缓存机制,包括开启缓存、关闭缓存、清除缓存、从缓存处执行、执行到当前节点、从下一个节点开始执行等功能,为用户在设计端调试建模流程提供了高效便捷的手段,显著提升用户的建模效率。
7 灵活的流程版本及模型版本管理机制
为了方便用户更好的对多次训练产生的挖掘流程和模型进行管理,平台提供了流程版本及模型版本管理功能,支持用户对流程的版本及模型的版本进行记录和回溯,满足用户对流程及模型的管理诉求,提升用户建模体验。
8 跨平台模型迁移及融合能力
TempoAI平台支持PMML文件的导入和导出功能,可以实现跨平台模型之间的迁移和融合,利于用户进行历史模型的迁移,实现用户在不同平台的模型成果快速共享,提升成果的复用性。
9 丰富的行业应用案例
TempoAI支持应用模板功能,针对不同行业的痛点内置了丰富的分析案例,“案例库”一方面为用户学习平台操作和挖掘分析过程提供指导,另一方面可以为用户提供直接或间接的行业分析解决方案。
10 流数据处理功能
TempoAI提供流数据处理功能,包括kafka输入(流)、kafka输出(流)、SQL编辑(流)、数据连接(流)、数据水印(流),满足用户对实时流数据进行处理的需求。
11 一键式建模能力
TempoAI支持一键式建模功能,用户只需输入数据,该功能可以自动完成数据处理、特征工程、算法及参数选择及模型评估等环节。节省了用户AI建模的时间,提升了建模效率。让用户将有限的精力更多的关注到业务中,将建模工作交给平台,从而进一步降低AI建模的门槛。
2021-11-26 广告
2020-07-01
亿信华辰豌豆DM可视化数据挖掘平台深入洞察企业数据规律,充分挖掘数据潜在价值,多维度深度分析更精准。
当前流行的图形可视化和数据分析软件有Matlab,Mathmatica和Maple等。这些软件功能强大,可满足科技工作中的许多需要,但使用这些软件需要一定的计算机编程知识和矩阵知识,并熟悉其中大量的函数和命令。而使用Origin就像使用Excel和Word那样简单,只需点击鼠标,选择菜单命令就可以完成大部分工作,获得满意的结果。 但它又比excel要强大些。一般日常的话可以用Excel,然后加载宏,里面有一些分析工具,不过有时需要数据库软件支持
Weka
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
2、
Rapid
Miner
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
3、
Orange
Orange是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了
Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++
和
Python开发,它的图形库是由跨平台的Qt框架开发。
4、
Knime
KNIME
(Konstanz
Information
Miner)
是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。
5、
jHepWork
jHepWork是一套功能完整的面向对象科学数据分析框架。
Jython宏是用来展示一维和二维直方图的数据。该程序包括许多工具,可以用来和二维三维的科学图形进行互动。
6、
Apache
Mahout
Apache
Mahout
是
Apache
Software
Foundation
(ASF)
开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在
Apache
在许可下免费使用。该项目已经发展到了它的最二个年头,目前只有一个公共发行版。Mahout
包含许多实现,包括集群、分类、CP
和进化程序。此外,通过使用
Apachehadoop库,Mahout
可以有效地扩展到云中。
7、
ELKI
ELKI(Environment
for
Developing
KDD-Applications
Supported
by
Index-Structures)主要用来聚类和找离群点。ELKI是类似于weka的数据挖掘平台,用java编写,有GUI图形界面。可以用来寻找离群点。
8、
Rattle
Rattle(易于学习的
R
分析工具)提供数据的统计和可视化摘要,将数据转换成容易建模的形式,从数据中构建无监督和监督模型,以图形方式呈现模型的性能,并得出新的数据集。
展开