什么是大数据。。大数据是什么
我是一个学生。我前段时期去贷款。他们用了那个叫什么道诚数据的app跟我查了一下我的真信还有什么哦。。我看见上面东西好详细就是想问一下这个是什么。毕竟我对着方面不怎么了解。...
我是一个学生。我前段时期去贷款。他们用了那个叫什么道诚数据的app跟我查了一下我的真信还有什么哦。。我看见上面东西好详细就是想问一下这个是什么。毕竟我对着方面不怎么了解。
展开
26个回答
展开全部
通俗来讲,大数据就是所有数据整合在一起,并且比以往数据库都要庞大的一个数据库。从学术上来讲,大数据就是在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,并且具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
2020-05-21
展开全部
央行征信征信报告需要本人携带到当地的央行网点自助查询。央行征信报告中会记录用户过去5年的借贷平台,借贷金额,借贷期限,负面记录等数据内容。
1、由于目前大部分的网贷机构都没资格将用户的逾期记录上报央行征信,从而只能将逾期的用户信息公示出来,久而久之便形成了行业内的网贷征信大数据。
2、网贷大数据可以比较清楚的反映用户近期网贷申请的情况,网贷是否按时还款,身份信息是否存疑等等情况;
3、微信查找:蓝冰数据,可以看到很大一部分的网贷机构的数据,从而绝大多数的网贷应该都是会上大数据的,
想要把大数据恢复正常,建议半年内不要再有任何申贷操作。
獊圃渞喼皿邈践漨锞焄圵仩俐仕舷荆滵顾泙撵昻趭徣囵甛噐卟盉慙曙
1、由于目前大部分的网贷机构都没资格将用户的逾期记录上报央行征信,从而只能将逾期的用户信息公示出来,久而久之便形成了行业内的网贷征信大数据。
2、网贷大数据可以比较清楚的反映用户近期网贷申请的情况,网贷是否按时还款,身份信息是否存疑等等情况;
3、微信查找:蓝冰数据,可以看到很大一部分的网贷机构的数据,从而绝大多数的网贷应该都是会上大数据的,
想要把大数据恢复正常,建议半年内不要再有任何申贷操作。
獊圃渞喼皿邈践漨锞焄圵仩俐仕舷荆滵顾泙撵昻趭徣囵甛噐卟盉慙曙
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
2020-01-22 · 百度认证:云南新华电脑职业培训学校官方账号
云南新华电脑学校
云南新华电脑学校是经云南省教育厅批准成立的省(部)级重点计算机专业学校,采用三元化管理模式,教学设备先进,师资雄厚学生毕业即就业,学院引进了电商企业入驻,创建心为电商创业园区,实现在校即创业
向TA提问
关注
展开全部
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。 大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质
的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。 物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式 著云台
例子包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。
大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的。
斯隆数字巡天收集在其最初的几个星期,比在天文学的历史,早在2000年的整个数据收集更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上和将获得的数据,每5天沃尔玛处理超过100万客户的交易每隔一小时,反过来进口量数据库估计超过2.5 PB的是相当于167次,在美国国会图书馆的书籍 。
FACEBOOK处理400亿张照片,从它的用户群。解码最初的人类基因组花了10年来处理时,现在可以在一个星期内实现。
“大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。 大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。
基本上,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
“麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。”
事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。
“大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在12月8日工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。
简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。 大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质
的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。 物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式 著云台
例子包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。
大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的。
斯隆数字巡天收集在其最初的几个星期,比在天文学的历史,早在2000年的整个数据收集更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上和将获得的数据,每5天沃尔玛处理超过100万客户的交易每隔一小时,反过来进口量数据库估计超过2.5 PB的是相当于167次,在美国国会图书馆的书籍 。
FACEBOOK处理400亿张照片,从它的用户群。解码最初的人类基因组花了10年来处理时,现在可以在一个星期内实现。
“大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。 大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。
基本上,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
“麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。”
事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。
“大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在12月8日工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。
本回答被网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
优就业丸子老师为你解答~
大数据只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物。当然,这并不是说大数据没有意义,只是对于不同的人有不同的含义。
A.
对于投资人和创业者而言,大数据是个热门的融资标签。就和前几年流行的 SoLoMo,这几年火爆的 P2P 一样,大数据是资本泡沫的催化剂。如今任何一家(移动)互联网公司都忙着把自己标榜为大数据公司,或者干脆说自己是一家数据公司。遗憾的是,大多数中国的互联网公司都是流量驱动的企业。与其说这些公司是大数据公司,不如说它们是数据采集公司。是的,每一家互联网公司都是数据公司,因为数据(Data)是比信息(Information)要狭隘得多的词汇。换句话说,任何一家 IT 行业的公司天然地都是数据公司。但是非 IT 公司同样可以是数据公司,例如房地产企业和汽车销售公司——毕竟他们优质低价地将顾客的信息转卖给任何感兴趣的个人或实体。遗憾的是,中国并没有几家 Pure-Play 的数据公司,因此中国不太可能出现 Palantir 这样伟大的企业。我不幸见过一两家国产独角兽企业的技术/数据负责人,他们似乎并不了解这家 CIA 投资的创业公司,但这并不妨碍他们把自己的公司定位为世界级的大数据公司。我可以臆测,国内这些独角兽企业的道德底线远远低于(为美帝情报机构服务的) Palantir,只是它们还没有足够的人才和技术来充分挖掘数据中的有效信息。
对于大多数互联网公司或者工程师而言,大数据实际上只有一个意思,就是把一堆乱七八糟的数据扔到 HDFS 上面然后进行计算。计算的工具有很多,最常见的是 Map-Reduce,但是技术一直在演进,现在还流行 Impala、Spark、Presto 什么的。对于这些搞大数据的工程师而言,这是一个非常好的事情,因为要把这么多异构的数据和系统跑起来,需要很多人写很多代码,还需要有人来做运维。这么一个部门总得需要几十台机器否则还不如单机计算能力强,工程师也得有十来人。然后可能还需要数据分析师,否则这部门跟摆设也没什么区别。如果系统做得不错数据量也有了,总得配个数据科学家搞点数据挖掘或者机器学习什么的吧。所以大数据这件事情可以解决很多就业问题,毕竟很多上了规模的互联网公司都想搞大数据。
但是对于消费者或者互联网所谓的“用户”来说,大数据却是另外一个意思。大数据的意思就是尽可能地搜集跟终端消费者相关的隐私,然后进行营销。从理论上说,大数据公司通过搜集用户行为,可以更好地了解消费者的需求,增强用户体验。但是在实践上,这些所谓的智能推荐还停留在很初级的阶段,因此会有人在淘宝上搜索棺材结果在微博上不停地看到跟丧葬相关的广告。对于微博这样的公司,还意味着它会倾向于通过直接或者间接地暴露你的隐私来获得商业利益。据说,评价一家国内公司的大数据能力是跟被查水表的频繁程度正相关的。就目前而言,大数据对于终端消费者更多的是“被实名”。举一个例子,如果你在 Android 手机上使用 Facebook 账号访问某个 App,那么对不起,你在这个手机上的所有行为都有可能被 Facebook 关联到你真实的身份上。在这种能力上,国内的三巨头排序大概是 T > A >> B。所以最后这家公司的 App 特别流氓甚至超越了数字公司,如果你想帮帮这家公司就多用用他家的地图或者订点外卖。
B.
关于大数据和隐私,最核心的问题在于标识(Identity),尤其是所谓的 PII (Personal Identifiable Information)。但是要对用户进行追踪并不一定需要 PII,任何一个强度足够高的随机数都可以用来追踪单个用户。在 Web 时代,由于 Cookie 的生命周期问题,对用户进行长期追踪并不是很容易。但是最近几年,越来越多的公司使用 Flash 来进行追踪,最终演进成一种叫做数字指纹的技术。要解释这些技术需要一些应用数学背景,知乎上应该可以找到相关的问答,我就不赘述了。我很想系统地讲述在使用桌面浏览器上如何保护自己的隐私,但是似乎离题太远了。但是我还是想提醒一句,在桌面浏览器上最有效的安全习惯就是禁用 Flash(当然,如果你出于安全装了数字公司的软件,那么你可以假装我说的都是废话——毕竟数字公司连你开机时间这种信息都不放过,更何况这家公司可是以所谓的“厚数据”而闻名的)。
身份到底有多重要呢?我可以说说我自己的一些非理性的习惯。大多数地铁一卡通都是不记名的,但是我以前会定期地破坏一卡通,从而避免在一卡通里积累过多的数据。但是由于我并不能很频繁地换卡,所以我这样的非理性行为是毫无用处的——你只需要读读我的卡就知道我住在哪里又在哪里上班,误差不会超过两公里。从技术上说,任何一张非接触卡都可以可能用于追踪我的身份,以及我所在的时空坐标。虽然我知道目前的技术并不能在超过一米的距离上读出我随身携带的卡片,但是我仍然把我身上所有的非接触卡放在一个金属的名片盒中。作为一个足够偏执的人,我更相信物理隔离。遗憾的是,这些非理性的习惯在移动时代都是徒劳的。
在移动时代,身份问题变成了最严重的问题,因为智能手机在很大程度上是私人设备。大多数人都随身携带这些设备,这就意味着设备的标识和个人几乎是一一对应的。在这个问题上,就连苹果公司都没能意识到其严重性,以至于在早期的苹果设备上有一个接近完美的唯一硬件标识(UDID)。这就意味着所有的 App 开发者都可以使用这个标识来追踪设备和交换数据。换句话说,只要你在一个 App 中使用了 Facebook 账号或者提交了电话号码,那么你在这个设备中的所有行为都有可能被关联到你的 PII。苹果直到两年以前才堵上这个漏洞,并通过所谓的 IDFA 来替代 UDID。我并不喜欢苹果公司,但是我在这里提这个案例并不是为了贬低苹果公司。事实上,苹果公司是所有的智能手机制造商中最尊重用户隐私的那一家,没有之一。原因很简单,苹果公司并不是一家互联网公司,它是通过向消费者出售手机来获利的。苹果公司的硬件利润非常高,它不需要通过 App Store 和广告来获利,因此 Tim Cook 才会有底气地讨论消费者的隐私问题。而 Google 则不同,它是一家广告公司,它甚至会通过分析用户的邮件来进行精准广告投放。我并不想把 Google 妖魔化成一个侵犯消费者隐私的寡头,但是 Google 的不作为让 Android 成为了地球上最伟大的监控平台。Android 上的确没有 UDID 这么高质量的标识,但是它允许开发者直接获取 IMEI——利用 IMEI 理论上可以通过运营商获取手机号码,并且进行实时的监控。此外 Android 还允许开发者获取 MAC 地址和 Android ID 这些标识,而前者可以用于基于 Wi-Fi 的地理位置定位。这些看起来很糟糕,但还不是最糟糕的,因为 Android 还允许开发者获取安装应用列表、正在运行应用列表。换句话说,Android 不仅允许开发者监控自己的 App 使用情况,还可以监控其他的 App 的使用情况,这可是字面上的情报工作。这些在技术层面上都是 Android 允许的,对于已 Root 设备或者能够利用漏洞提权的 App 而言,Android 提供的想象空间几乎是无限的。
有些读者评论扯 Google 的 IDFA 对应物,那我举个 Google 平台上的栗子吧:
近日,多个与TalkingData合作的厂商表示在Google Play发布的产品于2016年5月25日凌晨陆续被下架。且下架的说明邮件里称:“违反了开发者条款”并指出是TalkingData的SDK的问题所导致。
TalkingData回应SDK导致下架:GooglePlay审核调整
这家公司更是毫不掩饰地展示自己侵犯隐私的能力:
TalkingData-行为地图
那么问题来了,大家觉得他们的数据是哪里来的呢,是苹果用户还是安卓用户呢?
为了避免引起恐慌,这家公司的客户主要是某些银行和游戏,市场覆盖率并不是特别高。BAT 任何一家拥有的隐私数据都能秒杀这家公司,所以大家请保持内心的平静,睡觉前多玩玩手机。
C.
想象有这么一家智能手机厂商,它以极低的价格出售 Android 智能手机,它还声称自己是一家互联网公司,并且标榜自己是一家大数据公司。那么,这样的公司为什么会销售无线路由器呢?其实我说的不是国内的公司,而是 Google。当然这并不是什么秘密,有一段时间所有的互联网公司都想为用户提供所谓的智能路由器。
理由很充分,Wi-Fi 技术是以兼容以太网为目的局域网组网方案,它从来没有考虑过隐私和所谓的大数据带来的问题。以太网提供了一个高强度的网卡标识(即所谓的 MAC),理论上能提供 48 位的地址空间,从实际来说也足够所有的网卡制造商唯一地标识每一张网卡。最初这个网卡标识的设计目的是为了区分不同的设备,将冲突降到最低,因此对于给定的网卡,这个标识应该是永久不变的。这个标识在有线网络时代从来都不是一个真正的问题,因为 MAC 仅用于局域网通讯,任何设备在互联网上只会暴露 IP。为了无缝地兼容以太网,Wi-Fi 设备继承了这个标识,并且在扫描无线接入点的时候广播这个标识。换句话说,你随身携带的智能手机有一个几乎独一无二的永久标识,并且倾向于广播这个标识。因此对于很多大数据公司而言,这比你在脸上写着自己的姓名还要好得多。所以,苹果在最近的一次升级中改变了策略,所有的苹果手机在扫描热点的时候都会使用一个临时的 MAC。苹果这样做对于保护消费者的隐私很有帮助,但是离解决这个问题还很远。当苹果设备连接一个热点(例如咖啡厅里的免费热点)的时候,它依然会使用一个固定的网卡标识。
一个平庸的无线网卡标识为什么会跟大数据扯上关系呢?出乎标准设计者的意料,Wi-Fi 已经成为了一种主流的互联网接入方式,并且成了一种重要的辅助定位技术。不同于智能设备,大多数无线热点都是固定不动的,并且覆盖了都市的大多数区域。利用无线热点的 SSID 和 MAC,加上从智能手机采集的 GPS 信息,地理信息服务商可以利用这些信息完成误差在百米以内的定位。在 GPS 不能覆盖的室内,Wi-Fi 定位几乎是首选的解决方案。从这个角度来看,Wi-Fi 定位是一个方便消费者的福音。但是 Wi-Fi 的技术设计决定了它不是一个匿名的定位技术,在定位的过程中 Wi-Fi 热点同样可以获得智能手机的无线标识。因此从另一个角度来看,Wi-Fi 热点的运营商可以获得智能手机的一个时空坐标。这样第三方就有可能追踪智能手机在城市中的轨迹,其效果甚至可以超越运营商的监控手段。但是这并不是最糟糕的,出于统计的需求,很多 Android App 还会采集手机的 Wi-Fi 网卡标识。这些数据有可能将用户的行为和时空轨迹联系在一起,从而造成严重的隐私风险。正如 Facebook 一样,智能手机的普及是 CIA/NSA 做梦也想不到的好事。现代人进入了一个自愿监控自己的伟大时代,A Brave New World。
Snowden 在讨论 XKeyscore 的时候,其实提到过 NSA 非常喜欢这一点:
EDITED TO ADD (9/18): Marcy Wheeler comments on the second story, noting that the NSA uses this capability to map MAC addresses.
Two New Snowden Stories
当然,得益于 Palantir 的支持,NSA 的 SIGINT 能力已经不再是 Snowden 能够想象的了。
D.
让我用一个思维实验来展示一个
Android 用户在这个大数据生态链中的位置吧(当然任何一个读者都可以亲自尝试,用 iPhone 手机效果会大打折扣)。某个周末,你来到了某个商场,在一个咖啡厅里面点了一杯咖啡,然后开始用智能手机上网。咖啡厅提供了免费 Wi-Fi 网络,由于法规要求需要你提供手机号进行实名认证,你毫不犹豫地输入了手机号。于是免费 Wi-Fi 的服务商知道了你的信息:你的手机号和智能手机的 MAC。然后你开始刷微博,由于微博的 API 通常不使用加密信道,于是 Wi-Fi 热点通过偷窥 HTTP 请求获得了你的微博账号。通过你的微博,Wi-Fi 服务商有可能了解你的性别年龄工作等信息。此外通过该热点请求的很多元信息都会被服务商保留,虽然它们未必知道怎么挖掘这些元信息,但是它们会尽量将你的身份和这些信息关联在一起并长期保留。喝完咖啡,你开始逛街,这时候你的手机会开始扫描热点,商场可以通过 Wi-Fi 探针追踪你的位置。如果商场使用的 Wi-Fi 服务商和咖啡厅是同一家,或者与服务商建立了数据交换的协议,那么商场有可能实名地追踪你的轨迹。商场的 Wi-Fi 服务商同样会非常有耐心地存储你的信息,以备不时之需。在逛街的过程中,你打开了一些购物 App 用于比价,顺便拍了一些照片发给好友。其中一些 App 会把你的 MAC 地址和通过 Wi-Fi 完成的定位信息也发送出去。如果存在一个完备的数据交易网络,任何对你感兴趣的人都有可能获得以下信息:你的电话号码、手机的 MAC、微博账号,何时出现在这个商场,在商场停留了多久,其间使用了哪些 App,在咖啡厅访问了哪些网站。而这一切都离不开 Wi-Fi 和 MAC。如果更极端一点,你使用了专车软件来这个商场,并且你经常来这家商场,那么你很可能已经在商场的常客数据库里了,你的家庭住址也不再是个秘密。
这个思维实验当然是虚构的,因为利益冲突无关公司之间很难达成信任,它们很少进行实质性的数据交换。但是寡头们可以通过收购和战略投资将第三方变成第二方,甚至亲自介入 Wi-Fi 热点的服务。利用这些数据和技术,大数据公司事实上可以将营销做到无孔不入。例如,利用上述信息,商场中的餐厅可以针对最近到过商场的用户推送折扣信息,并且根据情况选择短信或微博作为送达渠道。当然现实社会中的餐厅并不会走得这么远,它们更倾向于使用微信服务号一类的技术来建立会员机制。各种 P2P 金融公司、讨债公司对数据更加饥渴,它们会愿意为你的信息(尤其是位置信息)付大价钱。所以从某种意义上说,数据寡头更可能看重你的隐私的长期价值。
正因为如此,中国的三大寡头都参与了商业 Wi-Fi 的布局。除了微信 Wi-Fi,相信大多数人都没有注意过相关的报道。事实上新闻报道披露的仅仅是冰山一角。
本报讯公共交通领域最大的WIFI建设运营商16WIFI日前宣布,已完成由百度领投、荣之联等跟投的A轮融资,融资金额超过1亿元。这也标志着在商业WIFI领域,BAT(即百度、阿里、腾讯)再次到齐。
百度战略投资杀入商业WIFI_新浪新闻
E.
还是来点轻松的吧,看看 Google 是怎么利用大数据投放精准广告的:
莫非喜欢 Fallout 的死宅更容易接受某教?我并不是想讽刺 Google 的算法或者宗教布道者的 SEM 策略,只是觉得这对于下面讨论的计算神学而言,是一个绝佳的隐喻。
计算神学是一种对计算的绝对信仰,其基本教义派别甚至认为整个宇宙都是一台量子计算机,可以用 Universal Wave Function 来完备地描述。在大数据流行起来之前,计算神学属于边缘学科(或者说伪科学),几乎无人问津。但是在大数据时代,计算能力和数据量都不再是问题,计算神学一下就成了主流的意识形态。经过大数据修正过的计算神学摒弃了科学的实证主义传统,试图将一切问题简化成数据处理。吊诡的是,很多计算神学的信徒获得了数据科学家的称号,这无异于将占星师当作天文学家,或者将炼金术士称为化学家(sadly, it was true before we had hard science)。
这些年我还真见过不少计算神学的布道者,他们开始张口就是大数据和机器学习,后来开始扯深度学习和人工智能。然而有一次我问某个信徒,他用的模型对性别的预测精度有多高,他居然诚实地回答接近 60%。如果需要考虑 Facebook 那么多种非常规的性别,这 60% 还是相当不错的,比扔硬币强不少呢。我之前的公司不幸跟某寡头有非平凡的合作,有幸跟对方的祭司阶级聊了几句,我发现这帮人对数据的理解连频率主义者都不如,连什么是信号什么是噪声都分不清楚。当然这圈子里面也有聪明人,并不是真诚地相信这些鬼话——据说某公司做了两三位数样本的问卷攒了份报告就卖了很多钱。
大数据是个系统工程,从采集数据到计算到应用到决策有很长的流水线。在这个流水线上的每一个环节,都存在严重的人才空缺。当然,更稀缺的是搞清楚整个流水线的综合性人才。计算神学的信徒们根本没有意识到这一点,或者他们也不关心。幸运的是,官僚们欣赏这些人的盲目乐观。所以这是个让人宽慰的好消息,这些个大数据公司里面还是以蠢货和官僚为主。
短期来说上述判断应该是靠谱的,至于更长期的我就不杞人忧天了。毕竟某位大师说过,in the long run, we are all dead.
所以,天朝把 Google 挡在外面是多么的英明神武啊。如果国内的公司都有了 AlphaGo 这样的暴力计算系统来搞大数据,我也该洗洗睡了改行做水管工算了。总体来说我还是一个悲观的存在主义者,要不了多久所有的 CCTV 都会成为面部识别算法的数据源。我感觉,计算神学训练出来的 AI 都是些反社会的自闭症患者,而不再是充满浪漫主义气息的面盲症患者。
我毫无痕迹地插入了一条原生公益广告:什么是自闭症?(请不要被我的修辞手法误导,自闭症患者几乎不可能反社会,而任何互联网广告系统都是天然反社会的。)。
Z.
评论里面有人问大数据有什么不侵犯隐私的用途,我觉得有必要澄清一下,我并不是在写一篇讨伐大数据的檄文。数据和分析能解决很多实际的问题,而且并不总是需要以隐私作为代价。但是技术几乎总是双刃剑,风险与机遇并存。说个相对远一点的,如果新的基因测序技术能将全基因组测学成本降到足够低,利用大数据技术将有可能定量地测量很多遗传疾病的基因风险,这可是造福人类的善举。但是,这也意味着保险公司可以更加精确地估计投保人的健康状况,换句话说可以利用这些信息来进行歧视(美国已经有相关的立法,禁止保险公司利用基因相关的隐私)。再说一个相对近一点的,某公司垄断了天朝的搜索市场,几乎是躺着在挣钱,但是为了追求利润什么骗子广告都愿意打,还会往用户的电脑上装几乎无法卸载的全家桶。几乎所有的人都在说大数据是一座金矿,但是很少有人意识到提炼金子是个技术活,而且现在很多矿山的黄金生产成本已经高于期货价格了(写于黄金价格低点 $1000 左右)。利用数据变现还是颇有技术含量的,用常理就可以推断守着金矿不能赚钱是个什么样的感觉。至少在天朝,真正的问题在于有很多没有技术的公司守着大量的数据干着急——它们其实也很想卖点假药什么的,但是它们能卖的也仅仅是用户的隐私。
大数据只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物。当然,这并不是说大数据没有意义,只是对于不同的人有不同的含义。
A.
对于投资人和创业者而言,大数据是个热门的融资标签。就和前几年流行的 SoLoMo,这几年火爆的 P2P 一样,大数据是资本泡沫的催化剂。如今任何一家(移动)互联网公司都忙着把自己标榜为大数据公司,或者干脆说自己是一家数据公司。遗憾的是,大多数中国的互联网公司都是流量驱动的企业。与其说这些公司是大数据公司,不如说它们是数据采集公司。是的,每一家互联网公司都是数据公司,因为数据(Data)是比信息(Information)要狭隘得多的词汇。换句话说,任何一家 IT 行业的公司天然地都是数据公司。但是非 IT 公司同样可以是数据公司,例如房地产企业和汽车销售公司——毕竟他们优质低价地将顾客的信息转卖给任何感兴趣的个人或实体。遗憾的是,中国并没有几家 Pure-Play 的数据公司,因此中国不太可能出现 Palantir 这样伟大的企业。我不幸见过一两家国产独角兽企业的技术/数据负责人,他们似乎并不了解这家 CIA 投资的创业公司,但这并不妨碍他们把自己的公司定位为世界级的大数据公司。我可以臆测,国内这些独角兽企业的道德底线远远低于(为美帝情报机构服务的) Palantir,只是它们还没有足够的人才和技术来充分挖掘数据中的有效信息。
对于大多数互联网公司或者工程师而言,大数据实际上只有一个意思,就是把一堆乱七八糟的数据扔到 HDFS 上面然后进行计算。计算的工具有很多,最常见的是 Map-Reduce,但是技术一直在演进,现在还流行 Impala、Spark、Presto 什么的。对于这些搞大数据的工程师而言,这是一个非常好的事情,因为要把这么多异构的数据和系统跑起来,需要很多人写很多代码,还需要有人来做运维。这么一个部门总得需要几十台机器否则还不如单机计算能力强,工程师也得有十来人。然后可能还需要数据分析师,否则这部门跟摆设也没什么区别。如果系统做得不错数据量也有了,总得配个数据科学家搞点数据挖掘或者机器学习什么的吧。所以大数据这件事情可以解决很多就业问题,毕竟很多上了规模的互联网公司都想搞大数据。
但是对于消费者或者互联网所谓的“用户”来说,大数据却是另外一个意思。大数据的意思就是尽可能地搜集跟终端消费者相关的隐私,然后进行营销。从理论上说,大数据公司通过搜集用户行为,可以更好地了解消费者的需求,增强用户体验。但是在实践上,这些所谓的智能推荐还停留在很初级的阶段,因此会有人在淘宝上搜索棺材结果在微博上不停地看到跟丧葬相关的广告。对于微博这样的公司,还意味着它会倾向于通过直接或者间接地暴露你的隐私来获得商业利益。据说,评价一家国内公司的大数据能力是跟被查水表的频繁程度正相关的。就目前而言,大数据对于终端消费者更多的是“被实名”。举一个例子,如果你在 Android 手机上使用 Facebook 账号访问某个 App,那么对不起,你在这个手机上的所有行为都有可能被 Facebook 关联到你真实的身份上。在这种能力上,国内的三巨头排序大概是 T > A >> B。所以最后这家公司的 App 特别流氓甚至超越了数字公司,如果你想帮帮这家公司就多用用他家的地图或者订点外卖。
B.
关于大数据和隐私,最核心的问题在于标识(Identity),尤其是所谓的 PII (Personal Identifiable Information)。但是要对用户进行追踪并不一定需要 PII,任何一个强度足够高的随机数都可以用来追踪单个用户。在 Web 时代,由于 Cookie 的生命周期问题,对用户进行长期追踪并不是很容易。但是最近几年,越来越多的公司使用 Flash 来进行追踪,最终演进成一种叫做数字指纹的技术。要解释这些技术需要一些应用数学背景,知乎上应该可以找到相关的问答,我就不赘述了。我很想系统地讲述在使用桌面浏览器上如何保护自己的隐私,但是似乎离题太远了。但是我还是想提醒一句,在桌面浏览器上最有效的安全习惯就是禁用 Flash(当然,如果你出于安全装了数字公司的软件,那么你可以假装我说的都是废话——毕竟数字公司连你开机时间这种信息都不放过,更何况这家公司可是以所谓的“厚数据”而闻名的)。
身份到底有多重要呢?我可以说说我自己的一些非理性的习惯。大多数地铁一卡通都是不记名的,但是我以前会定期地破坏一卡通,从而避免在一卡通里积累过多的数据。但是由于我并不能很频繁地换卡,所以我这样的非理性行为是毫无用处的——你只需要读读我的卡就知道我住在哪里又在哪里上班,误差不会超过两公里。从技术上说,任何一张非接触卡都可以可能用于追踪我的身份,以及我所在的时空坐标。虽然我知道目前的技术并不能在超过一米的距离上读出我随身携带的卡片,但是我仍然把我身上所有的非接触卡放在一个金属的名片盒中。作为一个足够偏执的人,我更相信物理隔离。遗憾的是,这些非理性的习惯在移动时代都是徒劳的。
在移动时代,身份问题变成了最严重的问题,因为智能手机在很大程度上是私人设备。大多数人都随身携带这些设备,这就意味着设备的标识和个人几乎是一一对应的。在这个问题上,就连苹果公司都没能意识到其严重性,以至于在早期的苹果设备上有一个接近完美的唯一硬件标识(UDID)。这就意味着所有的 App 开发者都可以使用这个标识来追踪设备和交换数据。换句话说,只要你在一个 App 中使用了 Facebook 账号或者提交了电话号码,那么你在这个设备中的所有行为都有可能被关联到你的 PII。苹果直到两年以前才堵上这个漏洞,并通过所谓的 IDFA 来替代 UDID。我并不喜欢苹果公司,但是我在这里提这个案例并不是为了贬低苹果公司。事实上,苹果公司是所有的智能手机制造商中最尊重用户隐私的那一家,没有之一。原因很简单,苹果公司并不是一家互联网公司,它是通过向消费者出售手机来获利的。苹果公司的硬件利润非常高,它不需要通过 App Store 和广告来获利,因此 Tim Cook 才会有底气地讨论消费者的隐私问题。而 Google 则不同,它是一家广告公司,它甚至会通过分析用户的邮件来进行精准广告投放。我并不想把 Google 妖魔化成一个侵犯消费者隐私的寡头,但是 Google 的不作为让 Android 成为了地球上最伟大的监控平台。Android 上的确没有 UDID 这么高质量的标识,但是它允许开发者直接获取 IMEI——利用 IMEI 理论上可以通过运营商获取手机号码,并且进行实时的监控。此外 Android 还允许开发者获取 MAC 地址和 Android ID 这些标识,而前者可以用于基于 Wi-Fi 的地理位置定位。这些看起来很糟糕,但还不是最糟糕的,因为 Android 还允许开发者获取安装应用列表、正在运行应用列表。换句话说,Android 不仅允许开发者监控自己的 App 使用情况,还可以监控其他的 App 的使用情况,这可是字面上的情报工作。这些在技术层面上都是 Android 允许的,对于已 Root 设备或者能够利用漏洞提权的 App 而言,Android 提供的想象空间几乎是无限的。
有些读者评论扯 Google 的 IDFA 对应物,那我举个 Google 平台上的栗子吧:
近日,多个与TalkingData合作的厂商表示在Google Play发布的产品于2016年5月25日凌晨陆续被下架。且下架的说明邮件里称:“违反了开发者条款”并指出是TalkingData的SDK的问题所导致。
TalkingData回应SDK导致下架:GooglePlay审核调整
这家公司更是毫不掩饰地展示自己侵犯隐私的能力:
TalkingData-行为地图
那么问题来了,大家觉得他们的数据是哪里来的呢,是苹果用户还是安卓用户呢?
为了避免引起恐慌,这家公司的客户主要是某些银行和游戏,市场覆盖率并不是特别高。BAT 任何一家拥有的隐私数据都能秒杀这家公司,所以大家请保持内心的平静,睡觉前多玩玩手机。
C.
想象有这么一家智能手机厂商,它以极低的价格出售 Android 智能手机,它还声称自己是一家互联网公司,并且标榜自己是一家大数据公司。那么,这样的公司为什么会销售无线路由器呢?其实我说的不是国内的公司,而是 Google。当然这并不是什么秘密,有一段时间所有的互联网公司都想为用户提供所谓的智能路由器。
理由很充分,Wi-Fi 技术是以兼容以太网为目的局域网组网方案,它从来没有考虑过隐私和所谓的大数据带来的问题。以太网提供了一个高强度的网卡标识(即所谓的 MAC),理论上能提供 48 位的地址空间,从实际来说也足够所有的网卡制造商唯一地标识每一张网卡。最初这个网卡标识的设计目的是为了区分不同的设备,将冲突降到最低,因此对于给定的网卡,这个标识应该是永久不变的。这个标识在有线网络时代从来都不是一个真正的问题,因为 MAC 仅用于局域网通讯,任何设备在互联网上只会暴露 IP。为了无缝地兼容以太网,Wi-Fi 设备继承了这个标识,并且在扫描无线接入点的时候广播这个标识。换句话说,你随身携带的智能手机有一个几乎独一无二的永久标识,并且倾向于广播这个标识。因此对于很多大数据公司而言,这比你在脸上写着自己的姓名还要好得多。所以,苹果在最近的一次升级中改变了策略,所有的苹果手机在扫描热点的时候都会使用一个临时的 MAC。苹果这样做对于保护消费者的隐私很有帮助,但是离解决这个问题还很远。当苹果设备连接一个热点(例如咖啡厅里的免费热点)的时候,它依然会使用一个固定的网卡标识。
一个平庸的无线网卡标识为什么会跟大数据扯上关系呢?出乎标准设计者的意料,Wi-Fi 已经成为了一种主流的互联网接入方式,并且成了一种重要的辅助定位技术。不同于智能设备,大多数无线热点都是固定不动的,并且覆盖了都市的大多数区域。利用无线热点的 SSID 和 MAC,加上从智能手机采集的 GPS 信息,地理信息服务商可以利用这些信息完成误差在百米以内的定位。在 GPS 不能覆盖的室内,Wi-Fi 定位几乎是首选的解决方案。从这个角度来看,Wi-Fi 定位是一个方便消费者的福音。但是 Wi-Fi 的技术设计决定了它不是一个匿名的定位技术,在定位的过程中 Wi-Fi 热点同样可以获得智能手机的无线标识。因此从另一个角度来看,Wi-Fi 热点的运营商可以获得智能手机的一个时空坐标。这样第三方就有可能追踪智能手机在城市中的轨迹,其效果甚至可以超越运营商的监控手段。但是这并不是最糟糕的,出于统计的需求,很多 Android App 还会采集手机的 Wi-Fi 网卡标识。这些数据有可能将用户的行为和时空轨迹联系在一起,从而造成严重的隐私风险。正如 Facebook 一样,智能手机的普及是 CIA/NSA 做梦也想不到的好事。现代人进入了一个自愿监控自己的伟大时代,A Brave New World。
Snowden 在讨论 XKeyscore 的时候,其实提到过 NSA 非常喜欢这一点:
EDITED TO ADD (9/18): Marcy Wheeler comments on the second story, noting that the NSA uses this capability to map MAC addresses.
Two New Snowden Stories
当然,得益于 Palantir 的支持,NSA 的 SIGINT 能力已经不再是 Snowden 能够想象的了。
D.
让我用一个思维实验来展示一个
Android 用户在这个大数据生态链中的位置吧(当然任何一个读者都可以亲自尝试,用 iPhone 手机效果会大打折扣)。某个周末,你来到了某个商场,在一个咖啡厅里面点了一杯咖啡,然后开始用智能手机上网。咖啡厅提供了免费 Wi-Fi 网络,由于法规要求需要你提供手机号进行实名认证,你毫不犹豫地输入了手机号。于是免费 Wi-Fi 的服务商知道了你的信息:你的手机号和智能手机的 MAC。然后你开始刷微博,由于微博的 API 通常不使用加密信道,于是 Wi-Fi 热点通过偷窥 HTTP 请求获得了你的微博账号。通过你的微博,Wi-Fi 服务商有可能了解你的性别年龄工作等信息。此外通过该热点请求的很多元信息都会被服务商保留,虽然它们未必知道怎么挖掘这些元信息,但是它们会尽量将你的身份和这些信息关联在一起并长期保留。喝完咖啡,你开始逛街,这时候你的手机会开始扫描热点,商场可以通过 Wi-Fi 探针追踪你的位置。如果商场使用的 Wi-Fi 服务商和咖啡厅是同一家,或者与服务商建立了数据交换的协议,那么商场有可能实名地追踪你的轨迹。商场的 Wi-Fi 服务商同样会非常有耐心地存储你的信息,以备不时之需。在逛街的过程中,你打开了一些购物 App 用于比价,顺便拍了一些照片发给好友。其中一些 App 会把你的 MAC 地址和通过 Wi-Fi 完成的定位信息也发送出去。如果存在一个完备的数据交易网络,任何对你感兴趣的人都有可能获得以下信息:你的电话号码、手机的 MAC、微博账号,何时出现在这个商场,在商场停留了多久,其间使用了哪些 App,在咖啡厅访问了哪些网站。而这一切都离不开 Wi-Fi 和 MAC。如果更极端一点,你使用了专车软件来这个商场,并且你经常来这家商场,那么你很可能已经在商场的常客数据库里了,你的家庭住址也不再是个秘密。
这个思维实验当然是虚构的,因为利益冲突无关公司之间很难达成信任,它们很少进行实质性的数据交换。但是寡头们可以通过收购和战略投资将第三方变成第二方,甚至亲自介入 Wi-Fi 热点的服务。利用这些数据和技术,大数据公司事实上可以将营销做到无孔不入。例如,利用上述信息,商场中的餐厅可以针对最近到过商场的用户推送折扣信息,并且根据情况选择短信或微博作为送达渠道。当然现实社会中的餐厅并不会走得这么远,它们更倾向于使用微信服务号一类的技术来建立会员机制。各种 P2P 金融公司、讨债公司对数据更加饥渴,它们会愿意为你的信息(尤其是位置信息)付大价钱。所以从某种意义上说,数据寡头更可能看重你的隐私的长期价值。
正因为如此,中国的三大寡头都参与了商业 Wi-Fi 的布局。除了微信 Wi-Fi,相信大多数人都没有注意过相关的报道。事实上新闻报道披露的仅仅是冰山一角。
本报讯公共交通领域最大的WIFI建设运营商16WIFI日前宣布,已完成由百度领投、荣之联等跟投的A轮融资,融资金额超过1亿元。这也标志着在商业WIFI领域,BAT(即百度、阿里、腾讯)再次到齐。
百度战略投资杀入商业WIFI_新浪新闻
E.
还是来点轻松的吧,看看 Google 是怎么利用大数据投放精准广告的:
莫非喜欢 Fallout 的死宅更容易接受某教?我并不是想讽刺 Google 的算法或者宗教布道者的 SEM 策略,只是觉得这对于下面讨论的计算神学而言,是一个绝佳的隐喻。
计算神学是一种对计算的绝对信仰,其基本教义派别甚至认为整个宇宙都是一台量子计算机,可以用 Universal Wave Function 来完备地描述。在大数据流行起来之前,计算神学属于边缘学科(或者说伪科学),几乎无人问津。但是在大数据时代,计算能力和数据量都不再是问题,计算神学一下就成了主流的意识形态。经过大数据修正过的计算神学摒弃了科学的实证主义传统,试图将一切问题简化成数据处理。吊诡的是,很多计算神学的信徒获得了数据科学家的称号,这无异于将占星师当作天文学家,或者将炼金术士称为化学家(sadly, it was true before we had hard science)。
这些年我还真见过不少计算神学的布道者,他们开始张口就是大数据和机器学习,后来开始扯深度学习和人工智能。然而有一次我问某个信徒,他用的模型对性别的预测精度有多高,他居然诚实地回答接近 60%。如果需要考虑 Facebook 那么多种非常规的性别,这 60% 还是相当不错的,比扔硬币强不少呢。我之前的公司不幸跟某寡头有非平凡的合作,有幸跟对方的祭司阶级聊了几句,我发现这帮人对数据的理解连频率主义者都不如,连什么是信号什么是噪声都分不清楚。当然这圈子里面也有聪明人,并不是真诚地相信这些鬼话——据说某公司做了两三位数样本的问卷攒了份报告就卖了很多钱。
大数据是个系统工程,从采集数据到计算到应用到决策有很长的流水线。在这个流水线上的每一个环节,都存在严重的人才空缺。当然,更稀缺的是搞清楚整个流水线的综合性人才。计算神学的信徒们根本没有意识到这一点,或者他们也不关心。幸运的是,官僚们欣赏这些人的盲目乐观。所以这是个让人宽慰的好消息,这些个大数据公司里面还是以蠢货和官僚为主。
短期来说上述判断应该是靠谱的,至于更长期的我就不杞人忧天了。毕竟某位大师说过,in the long run, we are all dead.
所以,天朝把 Google 挡在外面是多么的英明神武啊。如果国内的公司都有了 AlphaGo 这样的暴力计算系统来搞大数据,我也该洗洗睡了改行做水管工算了。总体来说我还是一个悲观的存在主义者,要不了多久所有的 CCTV 都会成为面部识别算法的数据源。我感觉,计算神学训练出来的 AI 都是些反社会的自闭症患者,而不再是充满浪漫主义气息的面盲症患者。
我毫无痕迹地插入了一条原生公益广告:什么是自闭症?(请不要被我的修辞手法误导,自闭症患者几乎不可能反社会,而任何互联网广告系统都是天然反社会的。)。
Z.
评论里面有人问大数据有什么不侵犯隐私的用途,我觉得有必要澄清一下,我并不是在写一篇讨伐大数据的檄文。数据和分析能解决很多实际的问题,而且并不总是需要以隐私作为代价。但是技术几乎总是双刃剑,风险与机遇并存。说个相对远一点的,如果新的基因测序技术能将全基因组测学成本降到足够低,利用大数据技术将有可能定量地测量很多遗传疾病的基因风险,这可是造福人类的善举。但是,这也意味着保险公司可以更加精确地估计投保人的健康状况,换句话说可以利用这些信息来进行歧视(美国已经有相关的立法,禁止保险公司利用基因相关的隐私)。再说一个相对近一点的,某公司垄断了天朝的搜索市场,几乎是躺着在挣钱,但是为了追求利润什么骗子广告都愿意打,还会往用户的电脑上装几乎无法卸载的全家桶。几乎所有的人都在说大数据是一座金矿,但是很少有人意识到提炼金子是个技术活,而且现在很多矿山的黄金生产成本已经高于期货价格了(写于黄金价格低点 $1000 左右)。利用数据变现还是颇有技术含量的,用常理就可以推断守着金矿不能赚钱是个什么样的感觉。至少在天朝,真正的问题在于有很多没有技术的公司守着大量的数据干着急——它们其实也很想卖点假药什么的,但是它们能卖的也仅仅是用户的隐私。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。[1]
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[2] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[2] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询