大数据工程师需要掌握哪些技能?
2018-10-29 · 国内专业的大数据轻应用自助平台
一门JVM系语言:当前大数据生态JVM系语言类的比重极大,某种程度上说是垄断也不为过。这里我推荐大家学习Java或Scala,至于Clojure这样的语言上手不易,其实并不推荐大家使用。另外,如今是“母以子贵”的年代,某个大数据框架会带火它的编程语言的流行,比如Docker之于Go、Kafka之于Scala。因此笔者这里建议您至少要精通一门JVM系的语言。值得一提的,一定要弄懂这门语言的多线程模型和内存模型,很多大数据框架的处理模式其实在语言层面和多线程处理模型是类似的,只是大数据框架把它们引申到了多机分布式这个层面。
计算处理框架:严格来说,这分为离线批处理和流式处理。流式处理是未来的趋势,建议大家一定要去学习;而离线批处理其实已经快过时了,它的分批处理思想无法处理无穷数据集,因此其适用范围日益缩小。事实上,Google已经在公司内部正式废弃了以MapReduce为代表的离线处理。因此如果要学习大数据工程,掌握一门实时流式处理框架是必须的。当下主流的框架包括:Apache Samza, Apache Storm, Apache Spark Streaming以及最近一年风头正劲的Apache Flink。当然Apache Kafka也推出了它自己的流式处理框架:Kafka Streams
分布式存储框架:虽说MapReduce有些过时了,但Hadoop的另一个基石HDFS依然坚挺,并且是开源社区最受欢迎的分布式存储,绝对您花时间去学习。如果想深入研究的话,Google的GFS论文也是一定要读的([url=]https://static.googleusercontent.com/media/research.google.com/en//archive/gfs-sosp2003.pdf[/url])。当然开源世界中还有很多的分布式存储,国内阿里巴巴的OceanBase也是很优秀的一个。
资源调度框架:Docker可是整整火了最近一两年。各个公司都在发力基于Docker的容器解决方案,最有名的开源容器调度框架就是K8S了,但同样著名的还有Hadoop的YARN和Apache Mesos。后两者不仅可以调度容器集群,还可以调度非容器集群,非常值得我们学习。
分布式协调框架:有一些通用的功能在所有主流大数据分布式框架中都需要实现,比如服务发现、领导者选举、分布式锁、KV存储等。这些功能也就催生了分布式协调框架的发展。最古老也是最有名的当属Apache Zookeeper了,新一些的包括Consul,etcd等。学习大数据工程,分布式协调框架是不能不了解的, 某种程度上还要深入了解。
KV数据库:典型的就是memcache和Redis了,特别是Redis简直是发展神速。其简洁的API设计和高性能的TPS日益得到广大用户的青睐。即使是不学习大数据,学学Redis都是大有裨益的。
列式存储数据库:笔者曾经花了很长的时间学习Oracle,但不得不承认当下关系型数据库已经慢慢地淡出了人们的视野,有太多的方案可以替代rdbms了。人们针对行式存储不适用于大数据ad-hoc查询这种弊端开发出了列式存储,典型的列式存储数据库就是开源社区的HBASE。实际上列式存储的概念也是出自Google的一篇论文:Google BigTable,有兴趣的话大家最好读一下:
消息队列:大数据工程处理中消息队列作为“削峰填谷”的主力系统是必不可少的,当前该领域内的解决方案有很多,包括ActiveMQ,Kafka等。国内阿里也开源了RocketMQ。这其中的翘楚当属Apache Kafka了。Kafka的很多设计思想都特别契合分布流式数据处理的设计理念。这也难怪,Kafka的原作者Jay Kreps可是当今实时流式处理方面的顶级大神。
2022-09-21 广告
2019-08-29 · 大数据人才培养的机构
大数据技术体系庞大,包括的知识较多
1、学习大数据首先要学习Java基础
Java是大数据学习需要的编程语言基础,因为大数据的开发基于常用的高级语言。而且不论是学hadoop
2、学习大数据核心知识
Hadoop生态系统;HDFS技术;HBASE技术;Sqoop使用流程;数据仓库工具HIVE;大数据离线分析Spark、Python语言;数据实时分析Storm;消息订阅分发系统Kafka等。
3、学习大数据需要具备的能力
数学知识,数学知识是数据分析师的基础知识。对于数据分析师,了解一些描述统计相关的内容,需要有一定公式计算能力,了解常用统计模型算法。而对于数据挖掘工程师来说,各类算法也需要熟练使用,对数学的要求是最高的。
4、学习大数据可以应用的领域
大数据技术可以应用在各个领域,比如公安大数据、交通大数据、医疗大数据、就业大数据、环境大数据、图像大数据、视频大数据等等,应用范围非常广泛。
首先我们要知道对于大数据开发工程师需要具备的技能,下面我们分别来说明:
用人单位对于大数据开发人才的能力要求有
技能要求:
1.精通JAVA开发语言,同时熟悉Python、Scala开发语言者优先;
2.熟悉Spark或Hadoop生态圈技术,具有源码阅读及二次开发工作经验;精通Hadoop生态及高性能缓存相关的各种工具,有源码开发实战经验者优先;
3.熟练使用SQL,熟悉数据库原理,熟悉至少一种主流关系型数据库;熟悉Linux操作系统,熟练使用常用命令,熟练使用shell脚本;熟悉ETL开发,能熟练至少一种ETL(talend、kettle、ogg等)转化开源工具者优先;
4.具有清晰的系统思维逻辑,对解决行业实际问题有浓厚兴趣,具备良好的沟通协调能力及学习能力。
以上就是想要成为大数据人才需要具备的技能
那么如何具备这些能力,怎么学习了,对于大多数人来说,目前只有通过参加大数据的学习,才能够系统的掌握以上的大数据技能,从而胜任大数据工程师的工作。
大数据工程师一个很重要的工作,就是通过分析数据来找出过去事件的特征。比如,腾讯的数据团队正在搭建一个数据仓库,把公司所有网络平台上数量庞大、不规整的数据信息进行梳理,总结出可供查询的特征,来支持公司各类业务对数据的需求,包括广告投放、游戏开发、社交网络等。
找出过去事件的特征,最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹,就能够了解这个人,并预测他的行为。“你可以知道他是什么样的人、他的年纪、兴趣爱好,是不是互联网付费用户、喜欢玩什么类型的游戏,平常喜欢在网上做什么事情。”腾讯云计算有限公司北京研发中心总经理郑立峰说。下一步到了业务层面,就可以针对各类人群推荐相关服务,比如手游,或是基于不同特征和需求衍生出新的业务模式,比如微信的电影票业务。
2.预测未来可能发生的事情
通过引入关键因素,大数据工程师可以预测未来的消费趋势。在阿里妈妈的营销平台上,工程师正试图通过引入气象数据来帮助淘宝卖家做生意。“比如今年夏天不热,很可能某些产品就没有去年畅销,除了空调、电扇,背心、游泳衣等都可能会受其影响。那么我们就会建立气象数据和销售数据之间的关系,找到与之相关的品类,提前警示卖家周转库存。”薛贵荣说。
在百度,沈志勇支持“百度预测”部分产品的模型研发,试图用大数据为更广泛的人群服务。已经上线的包括世界杯预测、高考预测、景点预测等。以百度景点预测为例,大数据工程师需要收集所有可能影响一段时间内景点人流量的关键因素进行预测,并为全国各个景点未来的拥挤度分级—在接下来的若干天时间里,它究竟是畅通、拥挤,还是一般拥挤?
3.找出最优化的结果
根据不同企业的业务性质,大数据工程师可以通过数据分析来达到不同的目的。
以腾讯来说,郑立峰认为能反映大数据工程师工作的最简单直接的例子就是选项测试(AB Test),即帮助产品经理在A、B两个备选方案中做出选择。在过去,决策者只能依据经验进行判断,但如今大数据工程师可以通过大范围地实时测试—比如,在社交网络产品的例子中,让一半用户看到A界面,另一半使用B界面,观察统计一段时间内的点击率和转化率,以此帮助市场部做出最终选择。
2020-02-04
入行大数据分析师必备技能有哪些?大数据分析师需要每天使用各种不同的技能;从深入分析到数据可视化和讲故事的一切。您将在一分钟内编写一个SQL查询来探索数据集,而下一分钟您将站在董事会面前,概述业务如何根据您的发现进行调整。
在介绍了大数据分析师和数据科学家之间的差异,大数据分析师的薪水以及刚起步的人员的一些关键大数据分析术语之后,我们现在将探讨与成为大数据分析师相关的关键技能。您可能已经拥有一些技能,因为它们涵盖了涉及沟通,分析和解决问题的广泛技能。
在入行大数据分析师必备技能有哪些文章中,我们将深入了解成为大数据分析师的意义。AAA教育目前正在提供一个简短的大数据分析课程,该课程的重点之一是掌握Microsoft Excel(分析的关键工具)的基础知识。这是对大数据分析的清晰易懂的介绍,它将教您与成为大数据分析师相关的核心技能之一。它还会轻而易举地消除您可能对该领域是否适用存在的任何疑问:是的,您也可以成为大数据分析师!
成为大数据分析师:您需要的关键技能
优秀的解决问题能力
扎实的数字技能
Excel熟练程度和查询语言知识
数据可视化方面的专业知识
良好的沟通能力
关键要点
1.优秀的解决问题能力
解决问题是大数据分析师应具备的最重要技能之一。大约90%的分析与批判性思维有关,并且知道要提出的正确问题。如果您提出的问题基于对业务,产品和行业的了解,那么您将获得所需的答案。大数据分析就是要提出一个问题(即“为什么我们不卖更多的红色自行车?”),并执行必要的调查任务以找到答案。
大数据分析主要涉及对遇到的问题进行逻辑思考。如果您熟悉数据的挑战和细微差别,您将更快地得出正确的结论。如果红色自行车卖得不好,那为什么会这样呢?是因为其他颜色的范围更大吗?红色自行车的价格通常高于其他自行车吗?红色自行车是否仅以山地自行车形式提供,因此不鼓励城市居民购买?大数据分析师通过使用他们的逻辑来理解数据可以更快地得出结论。
2.扎实的数字技能
许多大数据分析师并非来自数字世界,通常是来自业务或营销背景。随着您的发展,完全有可能增加对这一领域的了解。虽然不一定是“技能”,但对于任何有抱负的大数据分析师来说,拥有数字天赋无疑是一件好事。您需要从正规教育或其他经验中获得一定程度的数字专业知识。您可以学习与大数据分析相关的大多数数字技能,例如回归分析,它涉及检查两个或多个变量及其关系,而无需回到学校。
在统计方面有充分的基础也是有益的。您需要对查询有所了解,查询是计算机用来执行任务的命令。在分析中,这些命令用于从数据集中提取信息。精通应用科学和线性代数的知识将使您更轻松,尽管如果这对您来说还是个谜,请不要放任。
3.精通Excel和查询语言知识
如前所述,Microsoft Excel的知识是有效大数据分析的一项基本技能。这是一个电子表格程序,全球数百万人使用它来存储和共享信息,执行数学和统计运算以及创建总结重要发现的报告和可视化效果。对于大数据分析人员来说,它是一个强大的工具,可用于快速访问,组织和处理数据以获取和共享见解。大数据分析师每天都会使用Excel,因此您将必须从数据透视表中真正了解您的VLOOKUP。是否想找出红色自行车卖得最多的地方?好奇红色自行车的平均价格是否高于蓝色自行车?Excel可以帮助提供此类问题的答案。
除Excel之外,分析人员还需要熟悉至少一种查询语言。这些语言用于指示计算机执行特定任务,包括许多与大数据分析有关的任务。用于大数据分析的最受欢迎的语言是SQL和SAS,而诸如Python和R之类的编程语言则具有各种专用于分析数据的强大程序。
许多可用的语言执行不同的功能或适应某一特定行业。SAS主要用于医疗行业,而SQL通常用于从数据库检索数据。如果您对自己想从事的行业有所了解,那么进行一些研究并找出它们使用的语言是有益的-为您最感兴趣的行业量身定制学习是一个明智的举动。
4.数据可视化方面的专业知识
很难处理一个复杂的主题并以简单的方式介绍发现的结果,但这正是大数据分析师的工作!这是关于将您的发现转化为易于消化的信息块。用数据讲述一个引人入胜的故事至关重要,而其中很多都涉及视觉辅助工具的使用。图形和饼图是说明数据发现的一种流行且极为有效的方法。
Microsoft Excel和Tableau都拥有大量用于可视化数据的选项,使您能够以准确的方式显示结果。该技能在于知道如何最好地呈现数据,以便您的发现自己说话。技术专业人员之间倾向于用复杂而深奥的语言说话,但是要成为一名出色的大数据分析师,就是要通过简单的可视化轻松,有效地传达发现。
5.良好的沟通能力
除了能够可视化您的发现之外,大数据分析师还必须能够口头交流发现的结果。大数据分析师与利益相关者,同事和数据供应商不断合作,因此良好的沟通技巧至关重要。你和别人说话有多好?您可以有效地将技术信息分解为简单的单词吗?这是与数据可视化紧密相关的一项关键技能,这一切都在交付中!
相关推荐: