00:00
好,然后我们看一下这个分钟表啊,它更多的是用在这个做分组抽象查询的时候,因为当数据集特别大的时候,对于某一个K对吧,我想呢,把某一些值呢指标给它抽出来,但是对于整个数据集我又不好抽象,因为我要看不同的规律啊,你现在呢,放在四个桶里边,我每个桶呢抽一点数据,或者说抽不同的桶出来看啊,那这个意思,那这个抽样的语句是什么样子的呢?来看一下。主要的在于这儿。Sample什么意思啊?要买对吧,配。一个函数,然后是8K12F4ID。ID这个ID这个都不用了了吧。你这个分桶的一个。字段对吧,那前面这个东西主要的我们来看一下这个是什么意思。啊,是抽样语句啊,抽样语句那叫8X out of y。抽样,那是不是有XY来决定我抽多少,怎么抽的问题啊?
01:00
因为你要抽样嘛,对吧,你要抽样就类似于什么一个随机的数,然后抽样,你给要提供一个种子,从哪开始抽,抽多少样本,是不是这个意思啊,那这个X由X跟Y来控制的。啊,我们要改的也就是这个一或者四,那这是什么意思呢?前面这个X。指的是从哪一个桶开始抽?指的是从哪一个桶开始抽?这意思好,那Y是什么意思呢?Y让Y必须为统数的倍数,或者说是因子。现在我们是不是分了四个图对吧,你Y可以写248等这种数字能理解好它呢,Y呢是决定抽多少样本的。啊,我现在分成四个桶,如果说我外写啊,我将来抽的就是四除以二。两个桶里边的数据。
02:00
我要抽两个桶里的数据,能懂我意思啊,Y是决定抽多少数据,那如果说我要抽写的是八呢。那将来抽多少数据?抽一个桶的1/2的数据吗?是这个意思啊,抽一个桶的1/2的数据好,那X呢?是从哪一个桶开始抽?啊,从哪个桶开始抽好,那现在看这个情况。现在写的是1OUT of,四代表什么意思?总共抽一个桶数据对吧,而且抽的是哪个,第一个是这意思。啊,这的第一桶,好,接下来有一个问题来了,如果说我写的是一二。Y为二是不是抽两个桶数据对吧,那第一个开始抽没问题。第一个第一个,那第二个我到底抽谁呢。
03:02
不是随机的,他抽的是一加就是X加Y。能听懂是X加Y好,假如说啊这样,假如说有一个这种情况,我总共呢,有16个。就是我煎表的时候建了16个桶,这没问题吧,那接下来呢,我抽样的时候,我X写的还是一。我Y写的是四。这个代表什么意思?总共抽四个桶里面的数据。没问题吧,因为16除以四嘛,我总共要抽四个桶的数据。好,那接下来从第一个开始抽,这第一个桶,那第二个桶四个桶,第二个桶就按我们刚才所说的,第二个桶抽谁抽五,那第三个桶呢,再猜就再加四,能懂意思啊,九再加四就13,他抽的是一五九十三这几个桶你总共不有16个桶吗?16个桶不是零到什么15吗?
04:09
对吧,啊,零到15是这个意思啊,零到15也就抽的这几个桶,所以由于这种情况啊,它有一个规定。X的值必须小于Y,要不然它报错,那不管他报不报错,这个报错你就知道了,但是我们要分析一下刚才那个过程,为什么它会有这个点。来举个例子啊,我们列一个数学公式算一下,假设我总共有这个图。OK吧,啊,假设有这个桶,我现在。要抽的是X跟Y,就是那两个数字,因为我们要传的是X跟Y,好总共抽多少个总的数据。Z除以Y没问题吧,那我们算一下最后一个桶,它应该是数字是多少,是哪一个?是不是X加什么东西啊,Y分之Z减一。
05:07
乘以谁?乘以Y嘛,对吧,因为第二个桶加一个Y嘛,第三个桶加两个Y嘛,也就是说N第N个图的时候加N减一个Y吗?最后一个桶是它,那不就N减一个没问题吧?啊这个公式,那你把它一化简得出来什么东西?X加Z减Y如果X大于Y,这个式子将大于超出了你的总数。所以X不能大于Y,能理解这个事儿。能看得明白这个公式对吧?啊,所以呢,其实你自己写一下,它会给你报错,他也说了,这个东西呢,不能够干什么超过big啊好,那我们把这个抽样啊,一直说这么多,我们来抽一下,按照我们这个逻辑,我们现在这个表是不是四个桶。
06:04
我们要从第一个桶开始抽,那抽的是谁啊?第一个。1400。第一个桶啊,1234对吧,那假如说我现在要干什么,从第二个桶,那它出来数据呢。应该是九五一十三对吧,啊,九五一十三,九五一十三没问题吧,啊,这个就是抽的孔,那或者说诶这个地方。我写八呢。那我们先分析一下,你不要写七啊,这种东西就算能抽出来那个数据不是有一定规律,因为你说有问题八就是说四除以八,我要抽1/2个桶,也就二第二个,这里边选两个数据嘛,对吧?啊选两个数据走一下。119选两个没问题吧,啊,这就是抽样啊,但是这个分筒表更多的就在于跟这个分筒的一个抽样在块用啊,但是实际在生产环境当中呢,用的比较少啊,用的比较少,那最后我们看下这个内容,假如说这个地方呢,我写的是二,我前面写的是什么。
07:11
这个等我们试一下啊,Y能不能等于一,现在呢?哎,这我写三,那这个就是我们说的X大于Y了,是不是啊,X大于Y了,这个就啊错啊第一个好,然后有同学提到了这个是一,如果这个是一的话,那这个只能是什么一?那就出全部数据吧,从第一个桶派出,每一个桶的数据都要。就全量数据嘛,对吧,啊,也就是Y可以等于一,我说了是它这个因子啊因子或者倍数对吧,一是它的一个因子吗。是吧,啊一是啊,一是因为它自自身也是嘛啊,这是这个分母重样,大家呢,可以下去自己去,呃,按照这个文档去玩一玩啊,其他的这个呢,也不是不要求作为重点去掌握的一个内容啊,它不是一个重点内容。
我来说两句