Hadoop本地模式
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决,海量数据的存储和海量数据的分析计算问题。
Hadoop HDFS:一个高可靠高吞吐量的分布式文件系统;
Hadoop MapReduce:一个分布式的离线并行计算框架;
Hadoop YARN:作业调度与集群资源管理的框架;
Hadoop Common:支持其他模块的工具模块;
本地独立模式
不需要启动单独进程,直接运行就可以了,测试和开发时使用;
伪分布式模式
等同于全分布式模式,只不过只有一个节点;
全分布式模式
多个节点一起运行;
在使用VM安装centos的时候,注意网络连接选择NAT连接,利用 NAT,虚拟机和主机系统将共享一个网络标识,此标识在网络以外不可见。
1、关闭所有防火墙
2、本机配置hosts文件
修改本机hostname为Hadoop101,为后面全分布式做准备。
3、配置静态IP地址
注意,修改的数据要和虚拟机保持一致。并测试虚拟机是否可以ping通主机以及网络百度。
4、关机、克隆
关闭虚拟机Hadoop101,右键管理进行克隆操作。
5、修改克隆体
克隆体创建完毕后,对克隆体修改如下:
物理网卡:
网络:
只需要修改物理ip和ip地址就可以了。
主机名:
重复上述操作,克隆多个子体。
6、配置JDK
在opt文件夹下创建module文件夹以及software文件夹,用来存放安装文件以及对应的压缩文件。
7、配置Hadoop
grep案例-其实就是从大量文件中找到符合匹配规则的数据以及个数。
2024-08-19 广告