00:00
好,那剩最后一章就是最后呢,我们做一个练习啊,之前呢,我们学了很多这个语法,对吧?啊,我们把这些东西去用啊,就当然了,呃,这个之外我还有一个文档,还有一个文档里边呢,有一些搜狗也可以发给大家,大家去练一下,因为搜索这个东西啊,呃,要多练。要多练啊,这个东西呢,因为你看那当时可能有的人觉得学的还OK,但是歇了一段时间不写之后,是不是很多语法都会忘掉,对吧,因为他语法比较他不像你写代码,你写着写着啊讲么或者调API啊,有很多方法一提示你也知道,但是so,这个东西或者顺序啊,或者类似的一个内容,你长期不写,你就会忘掉,就忘忘的,所以呢,一直一定要保证自己一个手不段多去找一些题目,就像我们之才所说的,辅导老师给你50个题目,你拿have去做一做吧,也不用多,每天练个什么一个两个,所以时间啊,时间多的时候练个两个,时间少了练个一个啊,保持手热就行了啊,保持手热啊,那我们看一下我们这个案例啊,叫这个鼓励营啊,鼓励营就是对一些,呃,视频数据。
01:06
视频的日志数据做一些分析啊,做一些分析啊,然后。不利于呢,各种淘的一个指标啊指标,那这个地方就是说,如果生产环境当中,人家给到你需求。同时一定还会给到你另外一个东西。除了这个需求,还会给到的就是什么?数据结构。啊,有可能数据有的公司是这样的,因为他呢,是一个新的一个公司,新成立一个公司,他的后台他不一定有。也就是说他可能后台和大数据同时开放。然后两个都开发完了,一对接就可以了,那这个时候呢,是让你自己做一些数据的,但是你一定是开会去跟那个后台的人去开会干什么事了,把整个字段给他干什么敲定了。因为如果说你开发完了之后,字段不一样。
02:01
对接对接起来吧,啊,就中间字段你要对接起来,就是你一动好分割,还是以杠地分割,你未来这个日志的格式,大概希望后台那边甚至什么样子,你把这个一碰,碰完之后自己就干什么生产出去。啊,可以自己造一些数据去做测试,测试完了之后呢,生产数据真的来了之后啊,在生产环境当中去做什么压力测试啊,这些这些东西啊,去做这个事,那他一定会给数据结构的,就刚才我们说了,你开会碰的那个内容就是什么。数据结构,就数据的格式大概是什么样的,一定会给你的,他如果说光秃秃的给你这个。需求这个东西没法做对吧?啊,你都不知道数据是什么样的,你这个搜索能写吗。写不了了,所以呢,我们先看一下据结构啊,先看一下数据结构,第一个我们总共呢有两个数据结构,第一个呢是视频表,第二个呢是用户表,视频表里边我们看一下总共有这些字段,第一个叫VIB。视频的VIP啊,视频的VIP,第二个呢,视频的上传者。
03:05
是吧,啊,这个视频是谁上传的啊,第三个视频的年纪。年龄,这个年龄按什么算呢?视频在上传之后,整数天按照这个来的啊,就是说他们这边呢,定义了一个整个的一个要求是这样的,然后是category。视频的类别。好,这块要注意一下了,因为一般来说一个视频的类别是多个的,对吧?哎,见表的时候这块要怎么了,是不是数组了啊,要都数组了这个意思啊,Lengths视频的长度啊,应该是秒,里边呢,是视频左右秒,以秒为算为单位的,然后VI观看次数。对活动点击了,然后还有瑞视频那个评分打分,然后流量。流量多少兆多少兆,然后是评论评论数,然后最后还有一个相关视频ID。
04:04
相关联的视频,而且这边说了最多20个数。最多20个,最少呢零个。这个视频新上传的。对吧,我今天刚上传的是不是可能没有关联大家对吧,因为不断的有人看了之后,哎去分类等等东西,才会不断的有人把它们类别归在一块,关联相似度更高的放在一块了,或者说这个东西呢,我本身以前都没有。可以是一个,但最多呢是20个,这个东西最终存字段的时候也要分什么。为了啊也要了这个内容好来还有用户表,用户表面就比较简单一点,第一个。上传的什么?东明。啊,上传用户名,那第二个。上传视频数第三个朋友的数量啊,朋友的数量,注意这两个都是数量啊。
05:01
不是说上传视频,把那个视频ID放到这了。能懂的意思有必要放吗?没必要,如果说上传太多的话,你这放多少啊。放不下了啊,放不下了,OK,那我有这个upload,跟上面那个内容进行一个关联,是不是能能找到这个人发的视频包括哪些呀,对吧,总个数也能查到,然后哪一些也有啊,哪些有还有一个朋友的数量,注意是朋友的数量,不是什么。把朋友的名字放在这了啊啊,朋友的数量是这意思,也就是说这张表里面没有什么O啊,其他的复杂类型的啊,其他的一个复杂类型是这个意思啊好,那我们看一下这个具体的需求,因为数据结构大概呢,我们知道了啊,大家我们知道了,第一个叫统计视频观看数。头,这个简单吗?因为他自带有一个。观看数量啊,这个整个的任务呢,我们是这样的。整个任务这里面需求的难度是这样。
06:00
符合什么,这是什么曲线正态分布对吧?啊,符合一个人的一个正常的一个思维嘛,对吧,好第一个呢,就很简单,就不聊了,对吧,刚刚说第二个叫视频类别热度淘汰。叫类别。对,那这个热度我们给他定义一下,因为这里面没有热度这个内容吧,那我们就以这个视频这种类别有多少个视频。啊,就是就是假如说他有很多A类别B类别,A类别呢100万个视频,B类别呢50万个视频,那我就认为A类别的热度比B类别的高,OK吧。啊,是这样来的啊,当然有的同学可能在想,那不应该这样算,那你可以算一下什么,我们把这个类别,把它所有的视频给它放到一块,然后统计一下总观看次数是不是也可以对吧?啊总观看次数也行,那我们这边呢,就以那个整个视频的一个。
07:02
个数啊,视频的个数,其实你把整个视频的个数能求出来,是不是等于你把视频找出来,最后创新,你在视频找出来了,每个视频里面是不是有它的views,然后你sum下这个view也可以吧,啊,作为它的一个任务也可以啊,但是呢,总体来说它是比较简单,但是有一个点,它里面一定会要干什么事。裂要炸裂吧,因为类别我们刚才说了要存在什么数组,是不是要用炸裂啊,炸裂好接下来。叫统计视频观看数TOP20,注意这个TOP10TOP20这个无所谓吧,对吧,这个就是一个最后一个数字的问题啊,所属类别。说统计视频观看数TOP20所属类别以及类别包含的TOP20的视频个数。能不能读懂这个意思,首先这个没问题吧,第一步肯定淘包20对吧,把淘包20类别进行一个炸开,然后说该类别包含的TOP20的一个视频个数。
08:08
看他了,20里面,因为我们每一个视频是不是所属的类别比较多啊,对吧,我们看一下哎,哪一种类别在这前20里面最多,对吧?啊是这个意思啊,然后接下来说统计视频观看数前50,这个前50前20都一样的吧,所关联视频的所属类别的边可。这个是不是用到最后的那个关联是不是的,同样的也要给他干什么。炸开因为关联ID,关联的那个视频是不是一个ID对吧,而且你要对ID进行炸开之后。还要跟原表进行。关联,得到关联视频的类别,再对这个类别进行展开,求RA能听懂。这个所以说呢,通过正则,刚才我们说的正正态分布,这个是正常的一个需求。
09:03
来看一下啊,我们分析一下,因为到时候最后我们还要详细的分析,现在呢,昨天过了一下,首先第一步求出来超过50这个没问题吧,就跟它一下对吧,超过十超过50对吧,好所关联视频。关联视频是不是一个数组,我们是不是关联视频里面,假如说A这个视频关联的BC。D什么EF这一推啊啊,我们是不是首先要把它拿到。他拿到是一个数组。我们要对它进行。炸裂。对吧,没问题吧,好抓裂开,那抓裂开这一堆东西是不是一个一个的视频ID啊。视频ID,我要的是关联视频所属类别,是不是你应该拿着这个ID跟原表进行什么?效应,交易之后拿到B这个人的什么类别,类别又是一个什么数组,要对它进行展开,求什么?
10:04
求转口,也就是说这里面要改什么,扎开两次。能捋明白这个关系吧,啊,要想一想啊,当然我们后面做这个需求的时候,还会再详细的聊这个事情啊,一步一步的去写啊,自己要梳理一下这个内容,大致的想一下这个思路应该怎么写,思考好,接下来几个几个需求又变简单了啊,又变简单了,第一个统计每个类别视频的一个淘。每个类别中视频热度。这里面类别呢,有很多,有那个什么音乐,有政治对吧,有娱乐。啊等等,这些东西我要每个类别中视频热度淘,不在热度呢,还是拿这个视频观看数来的。对吧,你music观看是最高的。啊,之前是不是把所有的类别隔离判评判啊,现在对单一的类别给开发,那同样的每个类别中视频流量。一样的吧,啊,看哪个那个视频最长是吧,看哪个视频最长,这意思好,接下来这个叫统计上传视频最多的用户头。
11:06
啊,两个表交一下吧。上传视频最多的用户淘汰。以及他们上传观看次数的前20的视频。首先是不是要拿到。上传视频最多的十个人。每个人都有那个上传视频的个数吗?对吧,拿到人这个人跟我们哪张表视频表进行关联。对吧,查出来他有哪些视频,然后看哪些视频在前20。对吧,是这意思啊,这个意思做一个关联啊,那最后统计每个类别观看数淘。这两种有区别,到时候我们写思过的时候不一样啊,这两种呢,一个呢用到了那个O窗口函数作为分组,它不对,这种呢是另外一种处理方案啊,另外一种处理方案,也就是其实这两个需求是不是一样的。
12:01
对吧,啊,热度不就有观看数吗?啊,需求是一样的啊,需求一样的,但是呢,两种处理方式不一样啊,两种处理方式说也不一样,这个是我们整个的一个需求。
我来说两句