MapReduce应该如何应用开发

MapReduce应该如何应用开发,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

10年积累的网站设计制作、成都网站设计经验,可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你,你也不认识我。但先网站制作后付款的网站建设流程,更有辰溪免费网站建设让你可以放心的选择与我们合作。

用于配置的API

  • Configuration org.apache.hadoop.conf

配置开发环境

  • 不同环境使用不同的配置文件,跟web开发类同

  • HADOOP_USER_NAME 设置hadoop 用户名

  • HADOOP_CONF_DIR 配置信息环境变量

  • 辅助类 Configured Tool ToolRunner

  • 用MRUnit 来写单元测试

本地运行测试数据

  • 在本地作业运行器上运行作业

  • 测试驱动程序

    • 使用本地作业运行器

    • 使用一个mini集群来运行它

在集群上运行

  • 打包作业

    • 分布式环境打包成JAR 文件

  • 启动作业

  • 作业调试

    • 通过打印语句

    • 计数器 可以衡量问题的严重程度

    • 日志

    • 远程调试

作业调优

  • mapper 的数量

  • reducer 的数量

  • combiner

  • 中间值的压缩

  • 自定义序列

  • 调整 shuffle

MapReduce 的工作流

  • 通常是增加更多的作业,而不是增加作业的复杂度

  • 对于更复杂的问题,可考虑使用Pig, hive, Cascading, Crunch 或Spark

  • JobControl

  • Apache Oozie 是一个运行工作流的系统,该工作流由相互依赖的作业组成

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注创新互联行业资讯频道,感谢您对创新互联的支持。


文章名称:MapReduce应该如何应用开发
URL分享:http://ybzwz.com/article/pojhjd.html