数据挖掘的定义是什么

 我来答

1个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

退潮缚叹1
2021-06-02 · TA获得超过278个赞

知道答主

回答量：134

采纳率：98%

帮助的人：55.4万

我也去答题访问个人页

关注

展开全部

数据挖掘（Data Mining）是指通过大量数据集进行分类的自动化过程，以通过数据分析来识别趋势和模式，建立关系来解决业务问题。换句话说，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

原则上讲，数据挖掘可以应用于任何类型的信息存储库及瞬态数据（如数据流），如数据库、数据仓库、数据集市、事务数据库、空间数据库（如地图等）、工程设计数据（如建筑设计等）、多媒体数据（文本、图像、视频、音频）、网络、数据流、时间序列数据库等。也正因如此，数据挖掘存在以下特点：

（1）数据集大且不完整
数据挖掘所需要的数据集是很大的，只有数据集越大，得到的规律才能越贴近于正确的实际的规律，结果也才越准确。除此以外，数据往往都是不完整的。

（2）不准确性
数据挖掘存在不准确性，主要是由噪声数据造成的。比如在商业中用户可能会提供假数据；在工厂环境中，正常的数据往往会收到电磁或者是辐射干扰，而出现超出正常值的情况。这些不正常的绝对不可能出现的数据，就叫做噪声，它们会导致数据挖掘存在不准确性。

（3）模糊的和随机的
数据挖掘是模糊的和随机的。这里的模糊可以和不准确性相关联。由于数据不准确导致只能在大体上对数据进行一个整体的观察，或者由于涉及到隐私信息无法获知到具体的一些内容，这个时候如果想要做相关的分析操作，就只能在大体上做一些分析，无法精确进行判断。
而数据的随机性有两个解释，一个是获取的数据随机；我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习，那么一切的操作都属于是灰箱操作。

关于派可数据，用心创造数据价值让数据分析更简单

已赞过 已踩过<

评论收起

美林数据技术股份有限公司
2023-08-27 广告

常见的大数据分析工具有：1. Hadoop：分布式计算框架，适合处理大量数据，但学习曲线较陡峭。2. Spark：实时大数据分析工具，易用性好，可扩展性强，但易用性相对较差。3. Flink：实时数据分析工具，处理速度快，可扩展性好，但社区... 点击进入详情页

本回答由美林数据技术股份有限公司提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

数据挖掘的定义是什么

其他类似问题

为你推荐：