00:00
好,那我们继续往下看啊,呃,接下来我们看一下跟这个数据库的一个对比,好对比,因为它也是用了类似语言嘛,所以很容易就把他们俩对比到一块了,其实他们俩一点关系都没有啊,一点关没有,呃,你要是就这样,嗯,应该一点关系都没有,这也。不太对,有一点关系啊,就是说一个说一个类说个就是查询语言类似其他的再没有了啊,其他再没有了,黑个我们看下。他语言方面。查询语言方面,那由于搜狗被广泛应用在数据仓库当中,然后专门针对汉的一个特性设计了类似和语言,啊,仅仅在这方面呢,有一点类似。有点类似,其他的都不一样。第一个来看存中位置,存中位置我们说了have,建立在它之上的所有的数据存在。这个,但是你数据库买Oracle或者其他的一个数据库。什么搜等等这些东西它都是存在什么,更多的都是本地文件系统当中吧,啊,更多的都是本地文件存储为主,是不同的,第二个数据更新方面。
01:11
我们当时还说了数据库呢,你可以做增删改查对吧,但是呢,在汉当中更多的做的是什么查询啊,增和删这是可以的。因为你查的前提得有数据啊,啊肯定能增进来啊,增进来啊这个东西是可以的,更多的呢,都确定好的,然后呢是读多写少,我们也说了一次写入多次读出对吧,哎,读多写少就看了,但是数据库不一样,数据库更多的它是要跟在线进行交互的,对吧?啊接在线业务的,也就是说他要实时的做这种增删改查。啊,实时的做这种增加产是不一样的,好接下来所以。你们麦高级上了上了对吧?啊,那里面是不是有索引啊,主要的作用干什么?加速查询吧啊,对于某些特定的查询的时候,我们是可以加速的,对吧?啊可以加速查询,但是have当中啊,它。
02:12
他见不了索引啊,因为它本身数据量大,就算你把某一列抽出来建索引,那那一列的数据也是非常庞大的吧,对吧,因为数据条数多嘛,它主要体现在条数多,几亿条上一条。啊,几十一条等等的,那你单独的拉一列出来,那么专样还是几十一条啊,又存在另外一个地方,那你扫几十一条数据也不划算啊,所以呢,这个当中呢,他要暴力扫描整个数据集。啊,就是你查询的时候,他只能去扫描所有的数据啊,这个也是他比较慢,你的点上没有没有这个索引啊,没有这索引接下来执行。和真颜值方面。Have呢,它是用的MR来做运算的,但是很多的一个数据库呢,有自己的执行机,像MY。
03:00
咱们用的最多的引擎是哪个in的地B对吧?啊in的这个东西呢,你需要去了解的,那还有呢,它计算引擎呢,就是我们所说的比较慢,那跟下面一个一样的执行延迟。那我有自己的直接是产品擎,你是MA6,那我肯定往数据库要,比你还要什么。要快对吧,其实我们所讲的这个快跟慢也是有前提的,因为人家汉处理的几十亿,什么几百一条数据,你买搜狗。你能处理掉吗?一般到瓶颈在什么时候?百万或者甚至有的好一点千万对吧,到了千万这个级别吸引到什么急剧下降啊,那你要挤一条数据,那可能更难啊,所以呢,他们俩处理的数据规模也不一样啊,数据规模也不一样,但是换句话说,如果说仅仅就十条数据。假如说只有十条数据啊,买个当中十条,还不当中十条。
04:02
那处理速度还是有差别的。对吧,啊们solo还是快很多的,因为你光启动一个MR任务,你想想它启动时间就很慢了嘛,对吧?啊所以呢,执行延迟方面你要知道一下啊,然后可扩展性。扩展方面就是哈多来说,这个东西汉堡是基于哈多堡而言的,那哈多堡是不是能扩展对动,那么那同时能不能扩展note麦呢?可以吧,啊也可以,所以那既然你哈多我能扩展这两个东西,那对于汉姆来说,我存储能力能不能扩展。计算能力呢,是不是也同样的可以扩展了,因为我基于延安来调度的,你有了note manager,我是不是任务就可以放在新机器上运行啊,对吧?所以呢,它无论是存储还是计算都是可扩展到,当然MYS也是,但是MYS呢,它扩展的机群呢。有具体的什么限制,不是说无限扩展,就目前来说,对于哈多零九年它出现了4000台左右的一个航货,其实现在美团我们了解到美团现在基本上在6000台左右。
05:09
他们现在计划,而且是应该是上半年的时候就有计划,因为我们跟他聊的时候发现他们有像那个上万台去发展这个哈集群。啊,像包括360公司也一样,他们的那个内存就集群内存,大家猜想想一下,你觉得能集群的内存能达到多大。对吧,去想象一下啊,集群的内存,而且这种大公司不止一个集群。不止一个集群,你想想看吧,就上千台的一个节点,甚至上万台。上半台,而且他们公司用的都是基本上都是118256这种。服务器啊,很少用64的,比较比较低端的一点服务器,一台服务器128 256可以算。对吧,啊,可以算一下集群的一个内存能达到多大啊,咱们现在呃,虚拟机给个什么444对吧?啊,而且是四个G啊,这些东西就没没法比啊,没法比,所以呢,有很多东西,这个我们在现在的环境下测不出来。
06:11
啊,就包括我们所说的调优就没办法啊要了OK,最后还有一个数据规模,数据规模其实我们也之前从执行啊这块也聊了,那这块列出来八点,那假如说面试问到了,他问你这个跟这个。那有什么区别,或者有什么区别,不要像背书一样背,然后核心的点就是数据量。最核心的是不是处理数据量的问题,大家为什么要有大数据这些框架?就是因为数据量增长了,MY搜狗传统的关心数据库是不是解决不了这个事情呢?所以最根本的问题就是什么?数据量的问题,那引发出来的数据量问题,会导致我汉服这边延迟比较高吧。量量级大呀啊量大呀,买表延迟低。啊,其他的那数据量问题,我数据量大,我要存在一个分布式文件系统当中,而你买搜狗数据量小,你可以存在本地文件系统啊,是不是引出来我们说到的存储不置的不同啊,对吧?哎,是这样子出来的,一点一点的就是其他的还有什么索引呢,额外的一些点,你想答就答,不想答就算了。
07:15
就是我们给大家提供八点,不是说你像背书一样,12345678,这样反而打的不好。啊,反而不好,不是说你面试把这些东西全部背下来了就OK了啊,你就围绕着几个关键点,然后把它阐述一下就行了。这是我们所说的它与这个数据库的一个比较。
我来说两句