大数据

来自计算思维百科
跳转至: 导航搜索
大数据1.jpg

大数据(big data),是指无法利用传统的数据处理系统处理的数据集合。

基本概念

“大数据(big data)”这一名词是2008年由Infineta Systems公司的Haseeb Budhani提出。麦肯锡公司2011年对大数据有如下定义:大数据是其体量超出了传统数据库软件工具的采集、存储、管理和分析能力的数据。

大数据有5V特性,分别是Volume、Velocity、Variety、Value、Veracity。

容量(Volume):大数据量大,不仅量大而且增长速度快;

变化性(Velocity):数据流动性大,变化迅速;

种类(Variety):数据类型的多样性;

价值(Value):价值是决定大数据应用的根本属性,没有价值就没有大数据;

真实性(Veracity):要求数据准确,准确的数据才能反映真实的信息。

应用范围

大数据无时不刻在产生,在变化。1.5亿淘宝注册用户的个人信息、消费信息、商品浏览信息等都是大数据,利用这些大数据可以更好地考察用户需求,改善网站。股票市场中每天产生的交易信息也是大数据,利用这些大数据可以分析预测股票价格走向。

使用方法及步骤

首先采集大数据,利用数据分析软件从大数据中提取有价值的信息。

应用案例

应用1-娱乐大数据

案例:新华社新媒体中心联合数托邦抓取了新浪微博上提及“爸爸去哪儿”的45.5万条原创微博,并对36.7万独立原发作者用户(去除疑似水军账户)、1300余万条用户微博及近1亿的关系数据进行分析,得出下面《爸爸去哪儿》提及用户主要省份年龄分布表,以及女性用户中妈妈占的比例图。

大数据2.png

大数据3.png

我们可以看到,像北京、上海、天津、山东这样GDP比较高的省市的观众的平均年龄更高。这也说明,更高GDP省市的人群收看这个节目的年龄层次整体也会更高。

大数据4.png

由上图可以看到,北京、上海的妈妈占比数值是高于全国平均值的,而广东和湖南低于全国平均值。有理由推断,京沪观众群中多是处于育龄或已为人母的女性,而粤湘娱乐节目的粉儿中更“有模有young”,更多年轻观众群体。

应用2-预测疾病

案例:在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。

应用3-快餐业的视频分析

案例:快餐公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。

应用4-大数据预测犯罪率

案例:PredPol Inc.PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。

可以体现的计算思维

抽象是从众多的事物中抽取出共同的、本质性的特征,而舍弃其非本质的特征。抽象能力要求能够从纷繁复杂的事物中提炼本质的过程,是一个具体到概念的过程。大数据的提出体现了计算思维的“抽象”特点。