00:00
好,那接下来我们要讲什么呢?我们要从那个。文件系统当中将数据导入。加数据导入,因为刚才我们发现我们这个一条一条的插入数据,你是不是太慢了呀,那几一条插入一下,这不疯了吗?对吧,所以呢,整个的文件本地已经有了,那我们想办法弄到。HDF对吧,啊弄到HDFS好,那这块呢,就要从。文件系统当中来加载这个数据啊,那我们先准备一个数据啊,准备一个数据,呃,CD出来,我在这呢,Make DR一个。塔啊,就数据目录,数据目录,然后CD到那个里边VI一个STu.sD。Sq.D好,哎,插入对吧,呃,刚才一我用table键隔开。啊,这个分隔符一定要注意,因为会影响你间表的啊,会影响进表,我用的我用的是K,不用这点OK,然后呢,呃,来两个数据对吧,班长跟副班长都上来了,你们班没有那种就是特别跳的人吗?就班长特别挑人,我看到了宝。
01:22
铁柱保柱,还有铁柱啊,咱们有铁柱吗?铁柱还有什么,还有同柱傻柱吗?真的吗?不傻柱傻猪是吗?我没有,如果说有这个人,我我我没有其他的意思,只是简单的开个玩笑吧,没有什么其他的意思,就就是那个意思是么?好啊,那这个搞定了对吧?数据已经有了。追了,而且我们的格式是不是也是。一二三两列对吧,那我们能想办法给它导到这张表里,那导入数据的语法是这样的,要用load加载load什么呢?Load贝塔。
02:11
现在我这个数据是不是在本地对吧,那就要加一个local,然后local in pass。然后这个地方就会写什么路径,对吧,好平常。然后这里面有一个S点么?然后into table到这个s student语法稍微看一下load data这个因为是MY当中没有的吧,啊,因为加载数据啊,如果说你这个数据在DFS也能加载,那就去掉谁啊。啊,这不是从本地加载啊,从远端加载的,OK,那我们走一下。就看挺快对吧,然后我们来。上传扑的这个逻辑,其实就上传不这个不用走,那我们查一下这个数据啊。
03:15
对吧。有问题吧,哎,这个就是我们建表的时候跟刚才那个分隔符。不一样了啊,不一样了,那这个我们现在分割符那个数据分割符,想想看现在这个文件夹是不是代表了我student的这个所有的数据。我落地我来找是不是找到这个里面,我要把这个数据全部加载过去,那也就要求我当前这个数据里边的整个的多个文件是不是格式应该保持一致。你不能瞎搞吧,对吧,那也就是说这个地方呢,你既然是杠T分割的,你就建表的时候,你要建成钢B-T的这个表,那怎么建呢?前面还是一样的,还是table,刚才我们是student对吧,我来一个s to表。
04:01
字段是不是第一个ID是一个。逗号,然后还有一个name对吧,然后是。啊,之前我们是不是直接。分好结束了,对吧,这个时候不好不行,你要加什么呢?加分割符,指定当前这张表,将来这个数据格式要用什么分割符,首先第一个是form。行的一个格式化应该是什么样子的?对吧,啊,行的一个格式化。然后呢?面什么意思,就是限制限制,然后那这个限制呢,他不光括一种就是行限制,字段限制,然后我们里面还有复杂的,你有什么分割符的,还有map map有什么分割符的都有啊一个一个的来,现在我们是不是限定的是不是字段的分割符。对吧,那这个地方写的就是。F。然后terminated terminated by就是以什么什么分割对吧,那后面就会写了,这个里面写什么搞T,然后分号结束,这里面呢,你不交分号不行,我敲一下是不是还让你继续写啊对吧,敲一下分好就OK了,现在呢,我们是不是有另外一张表了。
05:20
As on。这个是我们刚才插入的那个两个音色的语法,它建的中中间面啊,你不用管,OK,这个s to是我们刚才创建的嘛,对吧?好,那我们刚才有一个Sq.T我们把它加载到这张表里来看一下。啊,因为我们现在已经限定了它按杠地分法,刚定说那好,那语法还记得吗?贝塔叫in对吧?路径我还是同样的在这一下,因为这个路径自己敲,假如错了划S点对吧?啊,同样的into tableable s to啊,语法比较简单,多敲两次就好了,现在看着比较陌生啊,这个语法呢,以后你们肯定会特别熟悉。
06:08
走。然后这个时候我先一下新from s。就OK了吧,啊就OK了,好这个OK了,那我能不能做这个事来,诶你不是这个路径吗?来你现在应该有一个sto这个东西对不对,理论上来说,因为有一个S表嘛,得看。你这个有一个SQ点0C,那我能不能做这样做,我在本地搞一个什么杠T分割的数据,我直接手动给他put进来。我们试一下对吧,我们试一下来一个sto1.t,好,这里面刚才要三对吧四,哎,刚才是134是吧,什么铜铸铁柱傻柱子。然后还有谁?飞机不是你们天上飞的,地下跑的都有是吗?
07:05
还有谁啊,富强富强是吗?哎,富强民主是吧,你被和社会主义核心价值观是吗?强民主,然后是和谐是吧?够了够了够了,现四个都背一下是吗?没必要,那我们想法是把这个直接负得到哪。这个路径底下,那大家觉得它能不能成。是不是到这个路径对吧。你扑的上来肯定没问题,对吧,你肯定能能扑的上来,那接下来我们来看一下能不能找到。执行权限。可是可以的,其实我们的漏命令刚才不讲了吗?就是就是put上去的呀,啊,其实就是put上去啊,你不也是调用负的,没有走mmr吧,啊没有走其实是一样的,也就是说这个数据可以铺的进去。
08:17
啊,这个就很方便了,假如说将来我们建一个表,想把一个什么大的数据直接放进去,因为不是只有路的这一条路可以走啊,是不是可以put的呀,啊,可以put的这种方式啊,这是OK的,也就是说这个呢,在生长环境当中用的是最多的,就是工作的命令,或者你用put呀,这个是最多的,因为你用音色的这个一看就不靠谱啊。对吧,嗯,大数据大数据你一条一条的预测的那个封了,而且一条20多秒,一条20多秒啊怎么可能啊,直接就铺的上去,对吧,用路的命令加载进去就OK了啊加载进去好,那我们还要讲一个点就是呃,这个呢,是我们通过那个本地本的系统用了logo,那是不是还可以用什么。CB一个S t.TST,然后呢叫ST2.tst,呃数据呢,我也不改了,因为它这里面呢,也没有说主见啊的,对吧,那我们干什么事呢,它都把FS杠不的,然后这个sto2.tsd上传到根目录可以吧?啊先从根目录,然后我们把根目录上这个东西给它加载进去,我们看一下做个对比来。
09:21
漏了,刚才我们说了这个地方呢,就不要那个什么local了,直接写在根目录下有一个SQ2.t对吧。然后table是这个这张表。没问题吧,走也加载进来,那我们查一下。没问题吧,也能查到,也就是说从H点加载也可以,但是。我在这弄了好多次这个数据。是不是还在?在本身还有吗?来看这。
10:01
那肯定就是什么。没了,也就是说本地上传的话。啊,它相当于copy复制,但是如果是HDFS,它就是移动,类似于MV,但是其实这个MV啊,你要知道刚才MV其实看着也挺快的呀。但是真正的他会去移数据吗?那就改一下内note当中那个什么文件路径不就完了,原数据信息改了,其实刚才那个命令就修改了内not里面原数据信息。啊,原数据信息啊,不是真正的,诶看着从这个根目录移到了哪啊。S to移到了SQ2移到这来了啊,看着好像这个数据移动了吧,其实没有啊,只是改一下note。里面的原数据信息就够了,实际数据还是在哪啊?在你的DFS里面有一个D下有个什么BP,什么DD好几层那个东西,那个东西特别长啊,里面有一个B2K,什么二五那个命名呢。
11:08
不是怎么说了,感觉这的哈都跑这里,要不有个黑塔,你自己创建个太猛了,他自己创建这个D,还有个D一个对他吗。然后有个卡人,他里边有个BP嘛,刚才说的P里边是不是还有那个还有卡么?然后是奈,然后是那个沙宝,两个沙宝对吧,这不是实际的数据吗。这个是实际的数据吗?我看一下,我们找一下快八是谁。你没看过这个数据吗?实际的数据在这啊,呃,我看一下八五应该是他,我觉得应该是他,因为他是第一个。快。嗯,有看到那个名字吗。
12:03
八坚持832是吧,呃,825,我想想看二五应该是谁,那我们看一下832。832里边应该是一班长对吧。没问题吧,当时我们不是一色的插入进来了吗?一班长832,那我们找一下832832这个。832。一班的。对吧,啊,实际数据在这儿啊,也就是说实际数据它根本没有动,它只是动了下内动啊原数据啊,实际数据之前那个SQ啊,假如说对应的叫869吧,假如说啊叫869,这869这个东西呢,还在这。还在这,他不用动,他就改了一下原数据,这个目录不要深啊,就是刚才我说了一堆,所以说你们不要蒙,这个目录特别深。对吧,啊,这个目录特别深的啊,你可以自己看一下,这是实际的数据,这个都有对应关系的,825你能找到它有一个快呢,会叫825啊对应关系的好,然后我回来。
13:05
啊,这个呢,是我们所讲的从那个文件系统当中来加载数据到我们还L表里边啊,这个是最常用的一种方式,Ins色的这种呢,呃,也会有也会有啊,但是呢,没有这种常用啊,没有这种常用,因为正常情况下市场环境当中,我们日志是不是落到磁盘里面了,对吧?一个大的文件嘛,啊,你想办法把这个大的文件呢上传到HDS。啊,然后从IDFS干什么,加载到那个have里边啊,加载到里边,然后就可以去分析了啊,可以分析了量。
我来说两句