00:00
好,然后我们接下来看一下这个他的一个架构,还架构呢,这个在面试过程中他可能会问。啊,但是他不能不深,他就需要你干什么呢?哎,你就简单说一下这个汉文架构里面包含哪些组件。啊,就是问到这个层面的一个题啊,就是我之前就讲的第一章里面有一道面试题,对吧?啊就是这个点啊,就在于架构这块啊,在于架构这块,OK,那我们看一下。分为几大块来看,首先这一块是不是我们可以给他剔除掉?是哈的吧,好,然后在上面这一块呢。是不是也可以踢掉这一块代表什么?操作的人吧,客户端嘛,对吧,啊用GPC啊连接这个驱动连进去对吧?啊,这是客户端好,然后这一块。左边叫原数据。原数据,那我们要聊一聊这个原数据是个什么东西了啊,这个到时候我们都能看到,因为我们会把原数据配到里。
01:01
就是MY来帮我们存储这个原数据,那这是什么东西呢?我们之前说过,在那个have,它是哈的一个客户端。IDF上呢有一个文件,它呢都是四个列,我是不是可以在汉里面建一张表,也就相当于做了一个映射。映射到这个文件对吧,那这个映射关系就是我们的什么。原数据。就是我们的源数据啊,映射关系,那这个呢,它默认的它是存在德比里面,德比数据库。但是德比呢,存在里边有问题,到时候我们能看到那个错误啊,它会有异常有问题,使用起来很不方便,那最后呢,我们会把它配到MYSQL,那配到MYS就简单了,这个原数据呢,所有的东西我们都能看到。我们都能看到,那有一个很简单的东西,就在里边有什么什么样的呢?就have,你写了一个,它最终我们说的要翻译成MAP6 ma6也好,翻译成其他任务也好,它是不是都要去HDFS读数去。
02:04
对吧,他一定要去HDF读数据,因为数据真实数据是存在HDFS对吧?好,这个时候他到底到哪个路径上去读呢。他要先访问一下MYSO克里边的原数据,原数据有里边保存着,我当前这张表在哪个路径下面,他先把原数据拿到,拿到之后呢,他把它拼接起来之后去HDF去访问,那访问HDFS又一样了,去还是同样的找内node对吧?啊去请求读这个数据,然后去对not读,那就是HDFS那边那个读写原理的。啊,实际上这样读的,但是我们很少去这样去说,我们直接就说的什么呢,先去MYS当中加载到原数据,根据原数据拼接起来的路径,然后去挨个F访问实际是什么。数据。啊,时间数据,也就是说have这个东西,它作为哈特的一个客户端,它不仅连。真正的数据不存了,他连原数据都不自己存。
03:02
都交给了什么第三方框架?啊,我们是存在MYS克里边了啊,存在MY克里面,生产环境当中更多的也是采用的MYS,但是如果你公司生产用的什么Oracle这些东西,那输啊,那可以啊,可以更多的呢,是存在马斯克里面啊,原数据信息更多的,现在呢,你可能不知道这个原数据到底代表什么东西,当然原数据信息不光刚才我所说的那个路径啊,还有很多内容啊,到时候我们会大家去看,但至少有一点,它的一个路径都会存在里面。啊,存在里边,OK,这是它的一个原数据信息,接下来真正的这一块才是我们have。他自己所拥有的那些东西了。那你看一下第一个。解析器。第二个编译器,第三个优化器,第四个真题,这个呢,它调一个顺序,就是这个顺序。首先编译他要看你这个思考语法对不对。啊,校验一下原数据信息对吧,这个表你写的表明对不对,存不存在啊,表明不存在,直接说这个表不存在,或者说你表里边有ID有name,有,然后你非得查一个address,不好意思查不了吧?啊在解析器这就过不了,好解析通过了,也就是说基本语法没问题了,经过编译期,那你这个时候你看一下这个编译器,你猜一下他是干么事啊。
04:24
对,他就是来负责翻译的,我们之前提过还有一个本质,将我们写的翻译成任务吧,那就是这个编译器展式。啊,编译器它会将我们的任务翻译成MR之后呢,它会根据我们所写的那个MR任务啊,会做一些优化,我刚才之前也说了,随着版本的不断迭代,他可能那个模板越来越优化了啊,越来优化,它里边有自己的一个优化器啊,自己的优化器,那还有一个最后就执行器,就提交给样板那个8032端口去执行任务的。啊,执行任务了,那执行任务过程当中呢,他会去访问原数据啊访问完原数据之后呢,找到实际数据,然后呢,把实际数据读进来,读进来之后,哎,走我们的一个MR任务,给我们吐出来相应的一个结果。
05:11
啊,这是最终的一个过程啊,那其他的东西呢,我们所要掌握的就是这块,如果面试问到那最重要就这几个气,你要需要关注一下啊,你现在呢,呃,你稍微的去看一下这个点,稍微的能记住更好,记不住呢也没关系,因为你现在记住这一块呢,有一个面试题对吧,到面试之前你要把这个回来看一下,我相信这四个,这四个东西最后你随便突击一下,或者在地铁上对吧?啊,拿着手机看一下也就OK了。啊,假如说人家那个面试过程当中,面试招聘的那个需求上写了要说对汉文比较了解啊,那你把还有这个东西要去关注一下啊,就去关注一下,好,这是对于底下的一个解释,这块我也说了默认的德比数据库,然后呢,我们最后是存在我们搜索当中,因为德比有问题啊,至于什么问题我们会演示出来啊,有一个很严重的问题啊。
06:02
就是这个点啊,运营机制就是其实刚才我们也看到了,就是中间的一个点,就是上面那张图的更细化一点。创建表,通过映射关系。啊,在那个MYSL当中存储因证关系,然后HDFS呢有实际的数据啊,有实际的数据这个图呢,你自己看一下,在这个原数据库里边有实际的数据,然后我们客户端写的一些查询条件的时候,他会先去访问原数据,然后找到我们HD数据,翻译成我们we去执行的。啊,执行的这个图呢,你随便去稍微的去了解一下,最后呢,它还是哈多个架这种方式去运行的啊,最终呢,都是一样的啊,这是我们所聊的他整个的一个加固的一个点啊,最重要的就是解析器,编译器,优化器,真析器啊面试的时候会问到他就会问这个架构当中有什么东西。啊,有什么东西,在早期的时候,我记得应该是他还他还问什么,就是如何翻译的。就是说那个ATS语法数,但是现在呃,好多系统根本就没人问这个东西了,基本上就问到这个几个。
07:05
解析器编辑器优化器,这析器就够了啊,就够了,之前那个语法书已经不聊了啊,已经不聊了啊,如果说你有兴趣的话,我觉得应该有扩展资料里面也有,或者你自己上网去搜一下啊,不建议去看那个东西比较复杂,而且现在也不问了,其实你说你把那个东西搞得特别透,对你写黑客有什么好处没有好处。没有用。他怎么翻译的,跟你写什么还用。没有关系啊,没有关系。
我来说两句