温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
  • 忘记密码?
登录注册×
获取短信验证码
其他方式登录
点击 登录注册 即表示同意 《亿速云用户服务条款》
  • 服务器
  • 数据库
  • 开发技术
  • 网络安全
  • 互联网科技
登 录 注册有礼
最新更新 网站标签 地图导航
产品
  • 首页 > 
  • 教程 > 
  • 互联网科技 > 
  • 大数据 > 
  • MapReduce的工作机制是什么

MapReduce的工作机制是什么

发布时间:2021-06-22 17:47:53 来源:亿速云 阅读:154 作者:chen 栏目: 大数据

本篇内容主要讲解“MapReduce的工作机制是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“MapReduce的工作机制是什么”吧!

剖析MapReduce 作业运行机制

静态图:

MapReduce的工作机制是什么

动态图:

MapReduce的工作机制是什么

进度和状态的更新

MapReduce的工作机制是什么

失败

  • map任务或reduce 任务中的用户代码抛出运行异常

  • JVM突然退出

  • 节点管理器运行失败

  • 资源管理器运行失败

    • 获得高可用性,HA, 在双机热备模式下,运行一对资源管理器是必要的

shuffle 和排序

  • MapReduce 确保每个reducer 的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为shuffle.

  • map 端

    map 函数开始产生输出时,并不是简单地将它写入到磁盘。这个过程更为复杂,它利用缓冲的方式写到内存并出于效率的考虑进行预排序。

    每个map任务都有一个环形内存缓冲区用于存储任务存储任务输出。在默认情况下,缓冲区的大小为100Mb,这个值可以通过改变mapreduce.task.io.sort.mb性来调整。一但锾冲内容达到阈值(mapreduce.map.sort.spill.percent,默认为0.80,或80%),一个后台线程便开始把内容溢出(spill)到磁盘。在溢出写到磁盘过程中,map输出继续写到缓冲区,但如果在此期间缓冲区被填满,map会被阻塞直到写磁盘过程完成。溢出写过程按轮询方式将缓冲区中的内容写到mapreduce.cluster.local.dir属性在作业特定子目录下指定的目录中。

    在写磁盘之前,线程首先根据数据最终要传的reducer把数据划分成相应的分区(partition)。在每个分区中,后台线程按键进行内存中排序,如果有一个combiner函数,它就在排序后的输出上运行。运行combiner函数使得map输出结果更紧凑,因此减少写到磁盘的数据和传递给reducer的数据。

    每次内存缓冲区达到溢出阈值,就会新建一个溢出文件(spill file),因此在map任务写完其最后一个输出记录之后,会有几个溢出文件。在任务完成之前,溢出文件被合并成一个已分区且已排序的输出文件。配置属性mapreduce.task.io.sort.factor控制着一次最多能合并多少流,默认值是10。

    如果至少存在3个溢出文件(通过mapreduce.map.combine.minspills属性设置)时,则combiner就会在输出文件写到磁盘之前再次运行。前面曾讲过,combiner可以在输人上反复运行,但并不影响最终结果。如果只有1或2个溢出文件,那么由于map输出规模减少,因而不值得调用combiner带来的开销,因此不会为该map输出再次运行combiner。

    在将压缩map输出写到磁盘的过程中对它进行压缩往往是个很好的主意,因为这样会写磁盘的速度更快,节约磁盘空间,并且减少传给reducer的数据量。在默认情况下,输出是不压缩的,但只要将mapreduce.map.output.compress设置为true,就可以轻松启用此功能。使用的压缩库由mapreduce.map.output.compress.codec指定。

    reducer通过HTTP得到输出文件的分区。用于文件分区的工作线程的数量由任务的mapreduce.shuffle.max.threads属性控制,此设置针对的是每一个节点管理器,而不是针对每个map任务。默认值0将最大线程数设置为机器中处理器数量的两倍。

    • 给shuffle 过程尽量多提供内存空间

    • 写map函数和reduce 函数时尽量少用内存,不应该无限使用内存

    • 在map端,可以通过避免多次溢出写磁盘来获得最佳性能

    • 在reduce端,中间数据全部驻留在内存时,就能获得最佳性能

    • reduce 端

    • 配置调优

任务的执行

  • 推测执行 并行执行过程中,对于拖后腿的任务,Hadoop不会尝试诊断或修复执行缓慢的任务,相反,在一个任务运行比预期慢的时候,它会尽量检测,并启动另一个相同的任务作为备份。这就是所谓的“推测执行”

  • OutputCommitters

hadoop MapReduce 使用一个提交协议来确保作业和任务都完全成功或失败。这个行为通过对作业使用OutputCommitters 来实现

到此,相信大家对“MapReduce的工作机制是什么”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

向AI问一下细节
推荐阅读:
  1. 三、MapReduce的shuffle工作过程
  2. WAF的工作机制

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

mapreduce
  • 上一篇新闻:
    python中怎么获取当前运行程序路径
  • 下一篇新闻:
    python中operator.itemgetter的作用是什么

猜你喜欢

  • css中的选择器包括哪些类型
  • css怎么设置div圆角
  • 怎么判断网站是否有cdn服务
  • Ubuntu重启如何进入tty3
  • redis如何开启aof
  • css怎么设置背景图片透明度
  • dz论坛如何开启redis
  • 微信小程序二级页面怎么设置导航页
  • css怎么设置图片
  • Ubuntu如何退出recovery模式
最新资讯
  • 如何通过Angular Service Workers实现离线功能
  • Angular中的响应式编程如何与模板驱动表单结合使用
  • 如何在Angular应用中实现动态主题切换
  • Angular中如何使用TemplateRef和ViewContainerRef
  • Angular中异常处理的最佳实践是什么
  • 如何使用Angular CLI生成并管理多个应用和库
  • Angular项目中的代码拆分和懒加载是如何配置的
  • 使用Angular Forms时如何进行复杂验证
  • Angular中的数据共享策略有哪些
  • 如何在Angular中使用Custom Elements和Web Components
相关推荐
  • MapReduce的工作原理是什么
  • MapReduce工作机制相关知识点有哪些
  • YARN集群工作机制是什么
  • hive的工作机制是什么
  • Kubernetes Eviction Manager工作机制是什么
  • kubeadm工作机制是什么
  • HDFS工作机制是什么
  • Kubernetes的工作机制
  • MapReduce的Shuffle机制是什么
  • MapReduce工作机制是什么

相关标签

concurrenthashmap ordered redhat6 navicat premium redis主从同步 san lun mapping haproxy高可用web群集 preparestatement redis5.0 redis面试题 redis-shake v-pre redis.conf preg_match() redhat7.2 map集合 redislive preload bufferedwriter array map
AI

PHP网站源码荷坳品牌网站设计坂田网站优化按天扣费永湖建设网站东莞网站开发龙华网站改版罗湖如何制作网站南联百搜标王光明网站优化软件荷坳网站优化按天扣费坪山SEO按效果付费广州设计网站大鹏企业网站制作罗湖网站定制布吉关键词按天计费丹竹头网站推广系统同乐SEO按天收费龙岗高端网站设计木棉湾网络推广松岗高端网站设计荷坳网站设计沙井设计公司网站大鹏网络推广福田百度竞价包年推广沙井网站设计模板大运企业网站设计南澳百姓网标王推广东莞关键词按天收费深圳seo荷坳seo龙岗企业网站制作歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化