在Server 2016中,有一个名为wide world-importers的数据库,我们可以通过调用Server的内置存储过程来模拟数据以生成数百万数据。
在google-大查询中有什么方法可以做同样的事情吗?还是有一种方法可以根据我的要求模拟google-大查询中的数据?或者,是否有一个地方可以获得有数百万条记录的样本数据集,如人力资源、财务、销售等,用于大查询;大查询中的公共数据集不能满足我的要求?
发布于 2016-08-11 00:01:16
只需在as is以下运行BigQuery标准SQL
CREATE TEMPORARY FUNCTION gender(num STRING)
RETURNS STRING
LANGUAGE js AS """
var n = parseInt(num);
if (Math.floor(Math.sin(n*n)) == 0) return "f"
return "m";
""";
CREATE TEMPORARY FUNCTION department(num STRING)
RETURNS STRING
LANGUAGE js AS """
var n = parseInt(num);
return Math.floor(Math.sin(n) * 3 + 3)
""";
WITH sequence AS (
SELECT FORMAT("%07d", ROW_NUMBER() OVER()) AS num
FROM UNNEST((SELECT SPLIT(FORMAT("%1000000s", ""),"") AS h FROM (SELECT NULL))) AS pos
)
SELECT
num AS id,
CONCAT("FN ", num) AS first_name,
CONCAT("LN ", num) AS last_name,
gender(num) AS gender,
CONCAT("Department ", department(num)) AS department
FROM sequence
ORDER BY num耐心点,因为运行只需几分钟--您可以将%1000000s中的1000000更改为较低的数目(结果是设置行数),以便在玩它时使其速度更快。
这只是一个非常简单的例子,说明如何免费生成您自己的数据。
可以将此示例扩展到所具有的任何特定需求。
无穷无尽的机会--比如控制不同属性的分布,有嵌套的数据-记录/重复等等。
如果有任何关于语法或函数的问题,您可以看到标准SQL引用
还要注意:我在这里使用的是最近介绍的标量用户定义函数
享受吧,希望这能帮上忙!
https://stackoverflow.com/questions/38864223
复制相似问题