首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于异步BI的标签驱动的数据库

用于异步BI的标签驱动的数据库
EN

Stack Overflow用户
提问于 2013-04-09 21:14:16
回答 1查看 143关注 0票数 0

对于我正在设计的标签驱动的软件,我遇到了一个小问题。

我想做的是将纯文本存储在数据库中,这是所有者和其他实体喜欢的。纯文本充满了标签,就像Twitters的标签一样,应该是可搜索/可索引的。这可以在应用程序端完成,因此我将有大量的小块数据需要为商业智能人员处理。

没有人会准备好纯文本,它只是关于分析,不需要一致,可以异步运行。

我知道Twitter使用几个数据库: Gizzard和Cassandra用于tweet,FlockDb用于关系。

我不想使用混合体来完成关系,我也不想建立下一个社交网络。我需要做的是对所有与其他实体相关的标签进行分析。

如何解决散列标签问题,或者如何处理文本以使其工作?

我真的在寻找一个很好的解决方案,而不是任何解决方案。我真的知道如何为SQL创建模式。

谢谢你帮我走出数据库丛林。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-04-10 19:11:43

下面是在数据库中表示标签的一种相当标准的方法:

这个应用程序为每个识别出的标签解析RAW_TEXT,检查它是否已经在标签中,如果不存在,就插入到标签中,然后通过插入到TAG_POST中,将帖子与从中提取的标签连接起来。

注意TAG_POST的复合主键中字段的顺序-将TAG_ID放在前缘有助于高效地搜索给定标签的帖子。如果你想得到一个给定帖子的标签,颠倒顺序。如果两个都想要,则以与主键相反的顺序创建一个综合索引。

如果您的数据库管理系统支持clustering,那么TAG_POST将是一个很好的候选者。

如果您的DBMS支持领先的索引压缩(Oracle),请考虑简单地执行以下操作:

压缩的索引将有效地存储相同TAG_NAME的许多重复,因此不需要仅仅为了节省空间而将其“外包”到另一个表。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15902945

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档