数据挖掘

来自计算思维百科
跳转至: 导航搜索

定义

数据挖掘是一个与数据库技术紧密相关的正在迅速发展的新兴交叉应用领域,它在许多领域包括市场营销、库存管理、质量控制、借贷风险管理、欺诈检测和投资分析等的决策支持活动扮演着越来越重要的角色。

数据挖掘(Data Mining),简单地讲就是从大量数据中挖掘或抽取出知识,数据挖掘又称为数据库中知识发现,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘涉及人工智能、机器学习、统计学、数据库系统等多领域技术。数据挖掘的全过程定义描述如图1所示。

5.4.1.png

知识挖掘的步骤

知识挖掘过程是由若干挖掘步骤组成,数据挖掘是其中的一个主要步骤。整个知识挖掘的主要步骤有:

①数据清洗,其作用就是清除数据噪声和与挖掘主题明显无关的数据;

②数据集成,其作用就是将来自多数据源中的相关数据组合到一起;

③数据转换,其作用就是将数据转换为易于进行数据挖掘的数据存储形式;

④数据挖掘,它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识;

⑤模式评估,其作用就是根据一定评估标准从挖掘结果筛选出有意义的模式知识;

⑥知识表示,其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。

数据挖掘的应用

数据挖掘是整个知识挖掘过程中的一个重要步骤,目前在工业界、媒体、数据库研究领域中,“数据挖掘”一词已被广泛使用并被普遍接受,因此 “数据挖掘”一词来也可以表示整个知识挖掘过程,即数据挖掘就是一个从数据库、数据仓库或其它信息资源库的大量数据中发掘出有趣的知识。

数据挖掘活动不同于传统的数据库查询,数据挖掘是寻找确定以前未知的模式,而数据检索是查找已经存储好的事实。数据挖掘操作的是静态的数据集合,即数据仓库,这些仓库往往是数据库的“快照”,因为静态系统中寻找模式比动态系统中更加简单。

数据挖掘的常见形式包括:类型描述、类型识别、聚类分析、关联分析、孤立点分析等。类型描述用来确定描绘一组数据项的属性而类型识别用来确定区分两组数据的属性。例如,类型描述技术可以用来发现购买经济型轿车的人的特点,而类型识别技术可以用来发现能区分买二手车和新车的顾客的特性。聚类分析根据“各聚集内部数据对象间的相似度最大化;而各聚集对象间相似度最小化”的原则,将数据对象按照相似度划分为若干组,例如,商场对购买力较大的顾客居住地进行聚类分析,可以帮助商场主管针对相应顾客群采取有针对性的营销策略。关联分析是寻找数据组织间的联系,比如商场要找到既买土豆片又买饮料的顾客,或者商店正常营业时间购物又享受退休优惠的顾客这样的分析。孤立点分析试图识别出不符合规则的数据项。孤立点分析可以用于确定数据集中的错误,可以检测信用卡偏离客户正常消费模式的行为,防止信用卡被盗用。

数据挖掘技术应用的例子在我们的日常生活中随处可见:

“啤酒与尿布”的故事是营销界的神话,“啤酒”和“尿布”两个看上去风马牛不相及的商品摆放在一起进行销售、并获得了很好的销售收益,这看起来像是一个笑话,但是实际上这一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。在美国,妇女通常在家照顾孩子,她们经常会嘱咐丈夫在下班回家路上去超市给孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。发现这个有趣的现象后把两种商品摆放在一起,使尿布和啤酒的销量大幅增加。这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!这也正是数据挖掘技术的动力所在。

另一个典型的数据挖掘应用例子是余弦定理和新闻分类,我们所熟悉的Google 的新闻分类系统也是数据挖掘技术的一个应用成果。余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系:通过计算单文本词汇频率/逆文本频率值可以把一篇新闻表示为一个特征向量,利用余弦定理可以计算不同新闻之间特征向量的相似性从而实现新闻的分类。Google新闻的分类很大程度上就是依靠余弦定理。