00:00
好,那接下来我们聊一下这个还有一个优缺点啊,其实你从整个的刚才我们所说的它客户端也能知道他一些优缺点啊,来第一个。这个是不是我们之前说的一个优点。对吧,啊简单吧,因为你写搜狗肯定比你写简单多了啊,简单多了啊,这第一个第二个避免了去写,减少开发人员的一个学习成本,刚才我也聊到了吧,啊,这个点都是对于开发人说的,好接下来。延迟性比较高,常用于数据分析对实时性要求不高的一个场所。也就是说,因为它默认采用的是他妈。想要什么吞吐量比较大,就是操可处理的数据量比较大,但是呢,你说map,你你可能会有量操作吗?假如说呃,有一个页面,然后本来是请求响应的一个数据,然后你一点那个按钮,然后底下是请求的一个map任务。你会这样去设计整个的一个架构吗?不可能吧,那用户肯定都跑光了,你执行了一下,本来正常的页面是网页,这种是交互式的,对吧,交互式的访问啊,交互式的访问,那你一执行,然后就。
01:16
转转转转转是吧,转了半个小时,然后给你返回一个结果,那人早走了吧,对吧,那又不是十年前那个网速啊,十年前可能你要等个十分钟啊,请求一下,这是有可能的,但现在绝不允许,你要是十分钟甚至两分钟,那客户都跑光了,用户体验太差。啊,用户体验太差,好,然后还有优势在于处理大数据,对于处理小数据没有优势。因为它采用的是ma对吧,那小文件处理M2肯定没有优势对吧,按照我们默认的切片规则,一个文件一个切片。那你小文件太多了,你要开多少个脉任务一对吧,有可能因为我们知道每一个脉任务它是不个接M进程。他这个加入进程啊,那个开虚拟机,关虚拟机的时间呢,开GM虚拟机啊,我说的GM虚拟不是这个虚拟机啊。
02:08
那假如说开了十秒,我总共只有1K的数据,我处理多少才一秒?是不是有可能这种啊,那你这个大量的时间都在干什么,开关虚拟机啊,开关切换M虚拟机这方面啊,那就太麻烦了,所以呢,它不利于处理这种小数据。啊,所以但是我们也不是没有办法处理对吧?Com的呀,对吧?啊或者自定义呀,啊多个文件放在一块,或者有同提到了介绍重用啊。对吧,啊,避免这个开关的一个过程啊,都是OK的啊,刚才呢,我们提到的是MR当中那个调优点嘛,Have当中使用啊,Have当中使用OKGO。支持用户自定义函数。啊,用户可以根据自己的需求来实现相应的一个函数,啊,这个就很方便,因为他提供的函数毕竟是有限的。毕竟是有限的啊,所以呢,你要能自定义,你能解决的事情就很多了啊,就更多了,而且呢,它还有UBF,还有u btf啊等等这块都有啊好,这是它的一个优点,然后我们接下来看一下它这个缺点,其实刚才我们所说的它依赖于它依赖太多,其实也是它的一个缺点,对吧,第一个。
03:18
表达能力有限体现在两方面。第一个。迭代式算法。无法表达。迭代式运算。知道什么意思吗?上午我们所说的那种多叫串联,其实是迭代一次。也就是说,我们要反复的对某些数据结果要做什么事,要做处理,哎,不断的对这个结果还要加工处理,加工处理。做这个事,那这种呢叫做迭代式运算,那为什么mmr不擅长。其实我们说汉不擅长,其实就是MR不擅长。太慢了,因为你迭代一次都是一个独立的。
04:07
Mar chance。因为你一个MAP6当中,你能写几个map,写几个维三。只有一个了,对吧,一个map一个就是一个。那如果迭代式计算讲的什么事呢?我MR走完了之后,我还要对这个结果再做处理迭代的100次,那你想想看,你用二来做这个事,你不疯了吗?对吧?啊,但是有很多框架呢,它可以在一个任务当中就直接对结果进行处理啊,比较方便一点,好,既然迭代式运算不擅长,所以你在数据挖掘方面呢,也不擅长,因为数据挖掘方向这块呢,呃,它更多的是对数据不停的迭代,迭代迭代。迭代运算最终呢,能挖掘两个数据之间的一个什么关系啊关系啊,那接下来效率比较低。效率比较低。也是体现在。
05:01
好吧,就像我们说的,它虽然吞吐量大,但是呢,很慢。对吧,啊,它慢啊,主要在这块,第二个调优比较困难,粗力度调优。啊,作业的调动就是因为他写的是黑口,你不能机械化,像我们MAP6,诶,我可以把有的东西写到什么setup里面,有的东西呢,我写在cleanup里面等等,这些操作可以自己来控制了,但是你写的是黑口,人家是根据模板来做的,当然随着版本的不断更新,就是现在have版本,什么二三啊,甚至到五,假如说到五了,他可能这个模板越来越好啊,啊模板肯定越来越好了,但是早期的时候这个模板肯定不完善,没有你自己写MAP6能做到什么精细化管理。啊,因为你调优肯定是在收购层面的调优,对吧,或者是在资源方面的一个调优,你不能说这个任务我希望。他在执行任务的时候,Set up里面做什么事,Ma里面做什么事,这个你就没法控制了,这个是他模板说了算。能懂这个意思吧,啊,这个是我们说的调优力度的一个问题啊,调优这是整个的一个优缺点,这个优缺点呢,主要的大家了解一下,因为你看这里面绝大部分东西,我们都是围绕着哈杜跑来说的,对吧。
06:11
啊,都是围绕哈多本来说道。
我来说两句