September 2021

Code

MapReduce代码编写总览

一.pom.xml依赖二.Mapper 三.Reducer 四.JobMain 注：1.若想要使用本地模式运行，则仅需要将输入与输出目录更改为本地目录即可，如： TextOutputFormat.setOutputPath(job,new Path("file:///D:\mapreduce\output")); 2.输出时的目标目录不能存在，否则会警告五.运行方式 1.点击Lifecycle内的package进行打包2.将jar包上传至虚拟机，可使用命令rz直接上传3.运行jar包，使用命令：hadoop jar jar包名 Main完整路径，如：hadoop jar wordcount-1.0-SNAPSHOT.jar top.fullstar.mapreduce.JobMain4.运行完毕后从浏览器端即可下载结果

View Post

Code

hadoop框架概述

一.Zookeeper 1.架构图 ZooKeeper集群中的机器分为Leader与Follower，其中Leader由机器进行选举产生。Follower接收客户端的读写请求，并将写请求转发至Leader，由Leader再次经过投票，当得到过半应答后将写请求广播至所有Follower，并将结果返回至客户端。 2.主要特点 (1)顺序一致性同一客户端发起的事务请求，最终将会严格地按照顺序被应用到 ZooKeeper 中去。 (2)原子性所有事务请求的处理结果在整个集群中所有机器上的应用情况是一致的 (3)Watch机制类似于观察者模式。Zookeeper的client监控Zookeeper上的节点，当节点变动时client会收到变动事件提醒 (4)单一系统映像无论客户端连到哪一个 ZooKeeper 服务器上，其看到的服务端数据模型都是一致的。 3.应用场景 (1)配置管理利用Watch机制，为所有服务器集群的机器注册Watch事件，监控特定保存配置信息的节点，则当需要改变配置信息时仅需要改变对应的节点内容，即可以将更新发布给所有机器，从而触发调用，更新配置信息。 (2)名字服务 Zookeeper维护一个树形文件系统，且对每一个节点的访问都需要通过绝对路径进行访问，每一个节点既有文件的功能，又有目录的功能。由于Zookeeper具有单一系统映像特性，因此能够为访问提供统一的入口。二.HDFS 1.架构图 NameNode负责管理文件系统的命名空间，由于文件数目很多的情况下NameNode存储的数据会过大，因此由SecondaryNameNode备份NameNode的部分数据，DataNode存储具体数据。当客户端访问数据时首先访问NameNode获取具体的文件路径，再由DataNode访问数据。三.MapReduce 1.架构图 1.在MapReduce1.x版本中，客户端与JobTracker交互，将任务提交至JobTracker，由其分配至各个TaskTracker节点(Map)，再将结果整合(Reduce)返回至客户端。 2.在MapReduce2.x版本中引入了Yarn，其中ResourceManager节点类似于JobTracker，NodeManager类似与TaskTracker。客户端首先将任务提交至Applilcations Manager，由其启动某个机器内的AppMaster，AppMaster对Resource Scheduler进行资源请求，利用返回的资源应答通知机器分配计算资源，在被分配的NodeManager中启动Map…

View Post

Archives

Categories

JDBC操作Hive概述

MapReduce代码编写总览

hadoop框架概述