假设我想在OLAP多维数据集中按类型找出每年的电影销售额。数据结构将如下所示:
{
"Year": 2020,
"Title": "Spider-Man: Into the Spider-Verse",
"Revenue": 102000,
"Genres": ["Action", "Sci-Fi"]
}对此进行建模的正确方法是什么?我会不会去嵌套流派,这样流派本身就会乘以销售量?例如,事实表将如下所示:
+------------+
| Movie Fact |
+------------+
| Year |
| Title | (1 record for the above data)
| Revenue |
+------------+或者它看起来像是:
+------------+
| Movie Fact |
+------------+
| Year |
| Title | (TWO records for the above data)
| Revenue |
| Genre |
+------------+为什么它会是一种方式超过另一种方式?
发布于 2020-11-24 22:39:41
你需要多对多的桥接表来处理同一电影的多种类型。你的事实表显然会有>1部电影。M2M表将仅显示每个电影和每个流派之间的维度关系。
尺寸:
桥接表(+分隔此度量值组!):
事实表:
所有表之间的联接是:
电影日期<-- Movies
在维度用法选项卡上,您将通过已连接到流派维度的Movies_Genres度量值组上的“多对多关系”将Movies事实数据表与流派维度联接起来。
这是避免重复的唯一方法。服务器将通过每个流派,在总的收入,你将看到每个流派相同的收入,如果一部电影被选中。
对于每个>1M行的桥接表和维度,性能可能会很慢。
https://stackoverflow.com/questions/64907039
复制相似问题