如何准确又通俗易懂地解释大数据及其应用价值
1个回答
展开全部
首先我觉得wikipedia上那句话已经够清楚了。再解释也只是用家常话同义重复而已。‘大数据’概念本身强调的是处理大数据的能力和技术,大数据的应用价值不在于它‘大’,而在于其细粒度信息的价值(微观干预的能力)。这一点的确很多人、很多出版物都没说清楚。
1 先举几个例子来说明什么是粗粒度信息,什么是细粒度信息:
各省市妹纸的bra size排名是粗粒度信息,每个实名妹纸的bra size是细粒度信息;
张三的九型人格类型是粗粒度信息,张三每次在某些特定情境中的行为记录是细粒度信息;
一家媒体/一个品牌/一个品牌官微的影响力是粗粒度信息,这家机构每次发出的信息到达了谁、这些人产生了什么反应是细粒度信息;
......
2 信息的价值是什么?信息给它的拥有者带来了什么?更直观的感受、更精细的判断、更准确的预测...这些都是某种中间目标/中间价值,而非终极目标/终极价值。信息的终极价值体现在做功:信息的使用者利用一段信息(相比于没有这段信息时)多做了一些事(这些事的价值用做功来衡量),这就是这段信息的价值。也因为如此,信息只有和与之匹配的做功机器放在一起才有价值。太阳光谱特征对太阳能电池厂家有价值,但对农民就没有价值;全国各地区妹纸的bra size对当代的bra厂家有价值,对二百年前的织布厂就没价值,因为农民和织布厂的生产只依赖粗粒度的信息(光照强度、全国人均布料消费量)。
3 所有提到‘大数据是用普查代替抽样’的类似说法,都必然说不到点子上。
为什么这么说?因为我们要搞清楚一件事:无论是抽样还是普查,都是一种宏观测量+操作视角,目的都是得到宏观观测量(研究对象的整体特征),宏观观测量是为了进行宏观干预的,宏观干预的行动效率这就是这个信息的价值极限——不管用什么方法取得这个信息,无论这个量变得多么准确。
举例来说,如果我有一台热机(heat engine),那么我需要利用温度计取得'温度'这个宏观量(至多4byte吧)指挥我的热机做功。现在有个做大数据的家伙出现了,说:你怎么还在用上个世纪的抽样方法获得的数据管理你的工作?!现在用我的xx分析仪,我可以立即给出你的热机里每个气体分子的热运动数值!他说干就干,立刻安装好全套设备,并架设好仪表板,给我一一展示:“你看这热分布与粒径分布的交叉分析,你看这涨落...这可是实时处理的mol级数据呢...”,最后呢,我必然要打断他:“这些都很好,但是我还是想知道,温度在哪显示?”
如果我拥有的不是一台普通热机,而是一台3D打印机,或者是一台纳米打印机,或者是量子计算机之类的,那么大数据对我就非常有用,这些都不是依赖于宏观观测量能做的工作。
4 大数据的应用价值很大,但现在的应用普遍错位。
在这个‘大数据‘概念刚开始被鼓吹、技术刚兴起的年代,这样的错位在现实中一再发生,这一点也不荒唐。一方面,一些大数据技术公司正在千方百计地鼓动农民和织布厂购买大数据(大数据时代的电子政务、大数据时代的品牌战略)。不是说更准确的数据对电子政务完全没价值,但是投入产出比肯定不高,因为这些数据用抽样一样可以保证精度,数据再多,热机功率也无法突破极限。
另一方面,也是更可笑的方面,是一些拥有大数据的企业,正在千方百计地把他们的数据换算成’更精确的温度‘——手握大量数据,也有微观干预的技术可行性,但是他们只想用热机的方式利用这些数据(例如某浪总想把微博定位成媒体)。
总之【更新日志:看到上面的答案互踩得挺热闹的,我也来欢乐地踩一下高票答案们】:
把bra size数据归纳为’各国bra
size排行榜'给娱乐新闻供稿不是大数据的价值(抽样也可实现),利用bra size数据提高陌生男女速配几率是大数据的价值(更高效率的微观干预);
将市场交易信息汇总成实时数据供宏观政策决策不是大数据的价值(抽样也可实现),根据个人交易记录和行为特征降低在线交易的撮合成本是大数据的价值(更高效率的微观干预);
目前排名第一答案中的『在知乎上如何能获得更多赞同?』不是大数据的价值(基于统计,抽样也可实现),问题变成『给定任意用户u,他在时间T写一个答案内容A,预测给赞的名单L=L(u,A)、L的演化L(t)=L(u,A,T)』才是大数据的价值(必须依赖细粒度信息才能实现的预测);
目前排名第二答案中的举例『重建了整个罗马城的3D模型』、『糖果厂生产糖果的红绿比例是什么?』不是大数据的价值(利用了大数据,但没产生额外的价值——不用大数据也能建立罗马城的影像,也能统计颜色比例),问题变成『根据每个旅行者的个人兴趣重建最佳罗马城浏览路线』、『糖果厂改进生产流程,使出厂糖果的颜色和甜度自动匹配下单客户的口味』是大数据的价值(不用大数据无法实现)。
1 先举几个例子来说明什么是粗粒度信息,什么是细粒度信息:
各省市妹纸的bra size排名是粗粒度信息,每个实名妹纸的bra size是细粒度信息;
张三的九型人格类型是粗粒度信息,张三每次在某些特定情境中的行为记录是细粒度信息;
一家媒体/一个品牌/一个品牌官微的影响力是粗粒度信息,这家机构每次发出的信息到达了谁、这些人产生了什么反应是细粒度信息;
......
2 信息的价值是什么?信息给它的拥有者带来了什么?更直观的感受、更精细的判断、更准确的预测...这些都是某种中间目标/中间价值,而非终极目标/终极价值。信息的终极价值体现在做功:信息的使用者利用一段信息(相比于没有这段信息时)多做了一些事(这些事的价值用做功来衡量),这就是这段信息的价值。也因为如此,信息只有和与之匹配的做功机器放在一起才有价值。太阳光谱特征对太阳能电池厂家有价值,但对农民就没有价值;全国各地区妹纸的bra size对当代的bra厂家有价值,对二百年前的织布厂就没价值,因为农民和织布厂的生产只依赖粗粒度的信息(光照强度、全国人均布料消费量)。
3 所有提到‘大数据是用普查代替抽样’的类似说法,都必然说不到点子上。
为什么这么说?因为我们要搞清楚一件事:无论是抽样还是普查,都是一种宏观测量+操作视角,目的都是得到宏观观测量(研究对象的整体特征),宏观观测量是为了进行宏观干预的,宏观干预的行动效率这就是这个信息的价值极限——不管用什么方法取得这个信息,无论这个量变得多么准确。
举例来说,如果我有一台热机(heat engine),那么我需要利用温度计取得'温度'这个宏观量(至多4byte吧)指挥我的热机做功。现在有个做大数据的家伙出现了,说:你怎么还在用上个世纪的抽样方法获得的数据管理你的工作?!现在用我的xx分析仪,我可以立即给出你的热机里每个气体分子的热运动数值!他说干就干,立刻安装好全套设备,并架设好仪表板,给我一一展示:“你看这热分布与粒径分布的交叉分析,你看这涨落...这可是实时处理的mol级数据呢...”,最后呢,我必然要打断他:“这些都很好,但是我还是想知道,温度在哪显示?”
如果我拥有的不是一台普通热机,而是一台3D打印机,或者是一台纳米打印机,或者是量子计算机之类的,那么大数据对我就非常有用,这些都不是依赖于宏观观测量能做的工作。
4 大数据的应用价值很大,但现在的应用普遍错位。
在这个‘大数据‘概念刚开始被鼓吹、技术刚兴起的年代,这样的错位在现实中一再发生,这一点也不荒唐。一方面,一些大数据技术公司正在千方百计地鼓动农民和织布厂购买大数据(大数据时代的电子政务、大数据时代的品牌战略)。不是说更准确的数据对电子政务完全没价值,但是投入产出比肯定不高,因为这些数据用抽样一样可以保证精度,数据再多,热机功率也无法突破极限。
另一方面,也是更可笑的方面,是一些拥有大数据的企业,正在千方百计地把他们的数据换算成’更精确的温度‘——手握大量数据,也有微观干预的技术可行性,但是他们只想用热机的方式利用这些数据(例如某浪总想把微博定位成媒体)。
总之【更新日志:看到上面的答案互踩得挺热闹的,我也来欢乐地踩一下高票答案们】:
把bra size数据归纳为’各国bra
size排行榜'给娱乐新闻供稿不是大数据的价值(抽样也可实现),利用bra size数据提高陌生男女速配几率是大数据的价值(更高效率的微观干预);
将市场交易信息汇总成实时数据供宏观政策决策不是大数据的价值(抽样也可实现),根据个人交易记录和行为特征降低在线交易的撮合成本是大数据的价值(更高效率的微观干预);
目前排名第一答案中的『在知乎上如何能获得更多赞同?』不是大数据的价值(基于统计,抽样也可实现),问题变成『给定任意用户u,他在时间T写一个答案内容A,预测给赞的名单L=L(u,A)、L的演化L(t)=L(u,A,T)』才是大数据的价值(必须依赖细粒度信息才能实现的预测);
目前排名第二答案中的举例『重建了整个罗马城的3D模型』、『糖果厂生产糖果的红绿比例是什么?』不是大数据的价值(利用了大数据,但没产生额外的价值——不用大数据也能建立罗马城的影像,也能统计颜色比例),问题变成『根据每个旅行者的个人兴趣重建最佳罗马城浏览路线』、『糖果厂改进生产流程,使出厂糖果的颜色和甜度自动匹配下单客户的口味』是大数据的价值(不用大数据无法实现)。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询
广告 您可能关注的内容 |