我试图理解数据目录和数据模式的定义。在我读了几篇文章之后,我变得更困惑了!
我意识到,当这篇文章谈到数据湖时,这个术语将被用来将data catalog描述为containing metadata information within data lake。与名称一样明显,它是数据池中所有信息的目录。
现在,据我所知,数据目录是数据库。而data schema被描述为containing metadata information within a database。这意味着数据湖中的data catalog等于数据库中的data schema。两者似乎具有相同的目的,如数据发现。
但术语在不同的层次上使用。一个用于数据湖,另一个用于数据库。
我的问题是:
发布于 2020-02-11 16:25:41
这有一个常规结构(“模式”):
id name color cost
1 dress green 40
2 camera red 200
3 car black 34000注意刚性的“行”和“列”。列具有特定的数据类型“(字符串、数字等)等等。
下面有一些结构,但也是非常开放和“自我定义”的.
{name: "dress"; size: "large"},
{name: "camera"; pixels: "12M"; zoom: "4x"},
{name: "car"; style: "sedan"},
{name: "family"; members: ["father", "mother", "children"]}前一个例子是所有RDBMS的关键设计。它是MySQL、Postgres等的主要关注点,它是为速度和扩展而设计和实现的。“目录”和“架构”定义了与数据分离的结构。
后一个例子结构较少,性能较低,但更灵活。也许这就是你要问的“数据湖”。
我建议您关注RDBMS,不要将自己与“其他”想法混淆。
https://dba.stackexchange.com/questions/259113
复制相似问题