大数据是什么,是怎么带动经济发展的
大数据的概念
概念:难以用常规的数据库工具获取、存储、管理、分析的数据集合。
特征:
1、数据量大:起始单位是PB级的。
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
2、类型多:
结构化、板结构化、非结构化:网诺日志、音频、视频、图片、地理位置等信息混杂。
3、价值密度低:
获取数据的价值就像是淘金一般。
4、速度快时效高:
数据呈指数倍增长,时效性要求高,比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能的完成实时推荐。
5、永远在线:
大数据时代的数据是永远在线的,随时应用计算,这也是区别于传统的数据的最大特征。
大数据从哪来
1、搜索引擎服务
百度数据量1000PB,每天响应138个国家数十亿次请求,每日新增10TB
2、电子商务
3、社交网络
QQ:8.5亿用户,用4400台服务器存储用户产生的信息,压缩后的数据100PB,每天新增200~300TB
4、音视频在线服务
5、个人数据业务
6、地理信息数据
7、传统企业
8、公共机构
智慧城市:摄像头拍摄的图片,1080P高清网络摄像机一月产生1.8TB数据,大点的城市50万个摄像头,一个月3PB的数据量。
医疗、中国的气象系统。
大数据的存储与计算模式
存储:
面临的问题:数据量大、类型复杂(结构化、非结构化、半结构化)
关键技术:
1、分布式文件系统(高效元数据管理技术、系统弹性扩展技术、存储层级内的优化、针对应用和负载的存储优化技术、针对存储器件的优化技术)
2、分布式数据库
事务性数据库技术:NoSQL:(支持非关系数据库、具有多个节点分割和复制数据的能力、用最终一致性机制解决并发读操作与控制问题、充分利用分布式索引及内存提高性能)代表有:BigTable、HBase、MongoDB、Dynamo。
分析型的数据库技术:Hive 、Impala
3、大数据索引和查询技术
4、实时流式大数据存储与处理技术
计算:
面临的问题:数据结构特征、并行计算(以分布式文件为基础的Hadoop\以分布式内存缓存为基础的Spark)、数据获取(批处理\流处理)、数据处理类型(传统查询\数据挖掘分析计算)、实时响应性能、迭代计算、数据关联性(先map一下再reduce一下)。
关键技术:
1、大数据查询分析计算模式与技术:HBase、Hive、Cassandra、Impala
2、批处理计算:Hadoop MapReduce、Spark
3、流式计算:Storm、Spark Steaming
4、图计算:Giraph、GraphX
5、内存计算:Spark、Hana(SAP公司全内存式分布式数据库系统)、Dremel
应用领域
1、智慧医疗(临床数据、公共卫生数据、移动医疗健康数据)(共享疾病案例,基因分类参考)
2、智慧农业(主要指依据商业需求进行农产品生产,降低菜残伤农概率)
3、金融行业:
精准的营销:根据可与习惯进行推销
风险管控:根据用户的交易流水实施反欺诈
决策支持:抵押贷款这一块,实施产业信贷的风险控制。
效率提升:加快内部数据处理。
产品设计:根据客户的投资行为设计满足客户需求的金融产品。
4、零售行业(对零售商来说:精准营销(降低营销成本,扩大营销额);对厂商:降低产品过剩)
5、电子商务行业
6、电子政务
希望对您有所帮助!~