博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据挖掘——大型数据集
阅读量:6049 次
发布时间:2019-06-20

本文共 870 字,大约阅读时间需要 2 分钟。

df7e3a6cfc41b710cc5fd0bddd75e7ccf05df0d7

我们分析和理解大规模数据集(成为大数据)的能力,远远落后于采集和存储数据的能力。

数据采集和存储能力得益于计算,通信,数字化存储技术的不断发展以及高吞吐量的数据获取技术。

数字化信息的大型数据库无处不在,附近商店的结账记录,银行信用卡授权机构,医院办公室中的病例记录以及许多应用程序中的数据都会生成数字记录流,放在巨大的商业数据库中。

数据搜集和组织能力数据分析能力之间的差距正在迅速扩大。问题的根源在于数据多出进行手工分析和解释,甚或基于计算机的半自动化分析,其规模和维数都太大了。

目前唯一的解决办法是用新的数据挖掘技术来代替传统的数据分析和解释方法

数据可分为结构化数据半结构化数据非结构化数据

结构化数据由定义明确的字段组成,这些字段包含数字值或者字母数字值。半结构化数据的例子有商务文档的电子图像,医学报告,执行概要和修复手册等。非结构化数据的例子有百货商店的监视摄像机所记录的录像等。

结构化数据通常成为传统数据,半结构化数据和非结构化数据合称为非传统数据。

对结构化数据进行数据挖掘的标准模型是一组案例,它们指定了潜在的度量(成为特征),这些特征在许多案例中的测量方式都相同。数据挖掘问题的结构化数据通常以表格表示或者用单个关系来表述。

大型数据集包括带有混合数据类型的数据集,是应用数据挖掘技术的典型初始环境。

大型数据集放在计算机中时在运用数据挖掘技术前首先要解决数据质量这个重要的问题。必须在数据挖掘过程的早期阶段进行数据质量的分析。

数据质量可以限制最终用户做出明智决策的能力,他对系统的映像有深渊的影响,并决定了隐含着描述的相应模型。

在数据挖掘过程的数据处理阶段应考虑这些指标:

   1. 数据应当准确。

   2.应该根据数据类型来存储数据

   3.数据应该完整

   4.数据要一致,集成了不同来源的大型数据集后,数据的形式和内容应一致。

   5.数据不要有冗余

   6.数据应当具有时效性

   7.数据应当能被正确的理解。

   8.数据集应完整。将现实中数据丢失的情形降到最低,同时要采用健壮性的数据挖掘技术即可以分析丢失了值的数据集

转载地址:http://whaex.baihongyu.com/

你可能感兴趣的文章
浏览器的回流和重绘及其优化方式
查看>>
2.4 salt grains与pillar jinja的模板
查看>>
VDI序曲二十 桌面虚拟化和RemoteApp集成到SharePoint 2010里
查看>>
移动互联网,入口生死战
查看>>
JAVA多线程深度解析
查看>>
Kafka High Level Consumer 会丢失消息
查看>>
时间轴
查看>>
java 获取系统当前时间的方法
查看>>
Ubuntu 10.04升级git 到1.7.2或更高的可行方法
查看>>
Spring Security4实战与原理分析视频课程( 扩展+自定义)
查看>>
第一周博客作业
查看>>
thinkpython2
查看>>
oracle recyclebin与flashback drop
查看>>
svmlight使用说明
查看>>
Swing 和AWT之间的关系
查看>>
Mysql设置自增长主键的初始值
查看>>
获取post传输参数
查看>>
ASP生成静态页面的方法
查看>>
HDU 1325 Is It A Tree? 判断是否为一棵树
查看>>
Bzoj 2252: [2010Beijing wc]矩阵距离 广搜
查看>>