`

第四章 开发MapReduce应用程序

 
阅读更多

 

4.1 系统参数的配置

配置中被标记为“final”的属性不能被重写

 

4.2 配置开发环境

Hadoop三种不同的运行方式:单机模式、伪分布式模式、完全分布式

 

4.3 编写MapReduce程序

 

4.4 本地测试

P62

 

4.5 运行MapReduce程序 

P62

 

4.6 网络用户界面

P65

 

4.7 性能调优

 P68

 

4.8 MapReduce工作流

 1、setup函数

/**
   * Called once at the beginning of the task.
   */
  protected void setup(Context context
                       ) throws IOException, InterruptedException {
    // NOTHING
  }

在task函数启动之后数据处理之前值调用一次,而map函数和reduce函数会针对分片中每个key调用一次

 2、cleanup函数

  /**
   * Called once at the end of the task.
   */
  protected void cleanup(Context context
                         ) throws IOException, InterruptedException {
    // NOTHING
  }

 在task销毁之前调用

3、run数

  /**
   * Expert users can override this method for more complete control over the
   * execution of the Mapper.
   * @param context
   * @throws IOException
   */
  public void run(Context context) throws IOException, InterruptedException {
    setup(context);
    while (context.nextKeyValue()) {
      map(context.getCurrentKey(), context.getCurrentValue(), context);
    }
    cleanup(context);
  }

 启动函数

 

MapReduce Job中的全局共享数据

1、读取HDFS文件

针对多个Map和Reduce写操作时会覆盖之前的数据,I/O消耗资源

2、配置Job属性

通过Configuration类中的set()设置属性,在task中通过get()获得属性,较大的数据共享乏力

3、DistributedCache

MapReduce为应用提供缓存文件的只读工具

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    Hadoop实战-第2版-陆嘉恒.pdf

    MapReduce应用程序5. MapReduce应用案例6. MapReduce工作机制7. Hadoop I/O操作8. 下一代MapReduce: Yarn9. HDFS简介10. HDFS文件结构11. Hive详解12. HBase详解13. Mahout简介14. Pig详解15. ZooKeeper详解16. ...

    Hadoop实战-第二版-陆嘉恒 (2012版)

    MapReduce应用程序5. MapReduce应用案例6. MapReduce工作机制7. Hadoop I/O操作8. 下一代MapReduce: Yarn9. HDFS简介10. HDFS文件结构11. Hive详解12. HBase详解13. Mahout简介14. Pig详解15. ZooKeeper详解16. ...

    Google_MapReduce中文版-系统架构

    第四部分描述我们认为在MapReduce编程模型中一些实用的技巧。第 五部分对于各种不同的任务,测量我们MapReduce实现的性能。第六部分揭示了在Google内部如何使 用MapReduce作为基础重写我们的索引系统产品,包括其它...

    Python示例-从基础到高手PDF

    第 4 章 一个脚本讲述 python 语言的基础规范,适合初学者 第 5 章 python 计算文件的行数和读取某一行内容的实现方法 第 6 章 python 中用 string.maketrans 和 translate 巧妙替换字符串 第 7 章 python ...

    Hadoop权威指南 第二版(中文版)

    Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何构建Hadoop集群,如何管理Hadoop;Pig简介;Hbase简介;Hive简介;ZooKeeper简介;开源工具Sqoop,最后还...

    Hadoop实战中文版

    3.3 读和写 3.3.1 InputFormat 3.3.2 OutputFormat 3.4 小结第二部分 实战 第4章 编写MapReduce基础程序 4.1 获得专利数据集 4.1.1 专利引用数据 4.1.2 专利描述数据 4.2 构建MapReduce 程序的基础模板 4.3...

    大数据算法视频课程+课件

    第4章 外存算法概述 外存存储结构与外存算法 外存算法示例:外存排序算法 外存数据结构示例:外存查找树 第5章 外存查找结构 B树 KD树 第6章 外存图数据算法 表排序及其应用 时间前向处理方法 缩图法 第7章 基于...

    Hadoop实战(陆嘉恒)译

    实战第4 章 编写MapReduce基础程序4.1 获得专利数据集4.1.1 专利引用数据4.1.2 专利描述数据4.2 构建MapReduce 程序的基础模板4.3 计数4.4 适应Hadoop API 的改变4.5 Hadoop 的Streaming4.5.1 通过Unix命令使用...

    Hadoop权威指南(中文版)2015上传.rar

    第5章 MapReduce应用开发 配置API 合并多个源文件 可变的扩展 配置开发环境 配置管理 辅助类GenericOptionsParser,Tool和ToolRunner 编写单元测试 mapper reducer 本地运行测试数据 在本地作业运行器上运行作业 ...

    Hadoop实战丛书

    第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制,同时还列出了多个mapreduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了...

    Hadoop权威指南_第四版_中文版

    而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 ...

    Scala程序设计(第2版)

    第23章 应用程序设计 435 23.1 回顾之前的内容 435 23.2 注解 437 23.3 Trait即模块 441 23.4 设计模式 442 23.4.1 构造型模式 443 23.4.2 结构型模式 443 23.4.3 行为型模式 444 23.5 ...

    Hadoop实战

    433.3 读和写 433.3.1 InputFormat 443.3.2 OutputFormat 493.4 小结 50第二部分 实战第4章 编写MapReduce基础程序 524.1 获得专利数据集 524.1.1 专利引用数据 534.1.2 专利描述数据 544.2 构建MapReduce程序的基础...

    深入云计算 MongoDB管理与开发实战详解pdf.part1

    第4章 查询 4.1 find简介 4.1.1 返回指定的键 4.1.2 find查询限制 4.2 条件操作符 4.2.1 $all匹配所有 4.2.2 $exists判断字段是否存在 4.2.3 null值处理 4.2.4 $mod取模运算 4.2.5 $ne不...

    深入云计算 MongoDB管理与开发实战详解pdf.part2

    第4章 查询 4.1 find简介 4.1.1 返回指定的键 4.1.2 find查询限制 4.2 条件操作符 4.2.1 $all匹配所有 4.2.2 $exists判断字段是否存在 4.2.3 null值处理 4.2.4 $mod取模运算 4.2.5 $ne不...

    Hadoop权威指南_第四版_中英文

    而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

    Hadoop实战中文版.PDF

    1025.3.2 实现一个Bloom filter 1045.3.3 Hadoop 0.20以上版本的Bloom filter 1105.4 温故知新 1105.5 小结 1115.6 更多资源 112第6章 编程实践 1136.1 开发MapReduce程序 1136.1.1 本地模式 1146.1...

    代码之美(中文完整版).pdf

    第4章 查找 4.1. 耗时 4.2. 问题:博客数据 4.3. 问题:时间,人物,以及对象? 4.4. 大规模尺度的搜索 4.5. 结论 第5章 正确、优美、迅速(按重要性排序):从设计XML验证器中学到的经验 5.1 XML验证器的作用 5.2 ...

    云计算第二版

    第4章 微软云计算Windows Azure 135 4.1 微软云计算平台 135 4.2 微软云操作系统Windows Azure 136 4.2.1 Windows Azure概述 136 4.2.2 Windows Azure计算服务 137 4.2.3 Windows Azure存储服务 138 4.2.4 Windows ...

    C#并行编程高级教程:精通.NET 4 Parallel Extensions中文(第一部分)

    第4章 并发集合 4.1 理解并发集合提供的功能 4.1.1 System.Collections.Concurrent 4.1.2 ConcurrentQueue 4.1.3 理解并行的生产者-消费者模式 4.1.4 ConcurrentStack 4.1.5 将使用数组和不安全集合的代码转换为使用...

Global site tag (gtag.js) - Google Analytics