我最近开始阅读大数据,以及像hadoop或BigInsights这样的工具是如何管理结构化和非结构化数据的。
社交媒体分析()是一种可以在BigInsights上实现的工具,它接受非结构化数据并对其进行分析/构造。
这让我想知道,社会媒体数据是如何非结构化的?例如,您可以在tweet上接收的信息可以使用Twitter调用,并以结构化的JSON格式返回给您。
那么,社会媒体数据不是已经被结构化了吗?如果是这样的话,你为什么需要一个主要管理非结构化数据的平台?
发布于 2015-02-09 07:00:54
一些人也做出了“半结构化”的区分。
但关键是查询数据的能力。是的,推特等通常有一些结构。但这对分析没有帮助。
给定一个丑陋的SQL架构,您确实可以运行如下所示的查询
SELECT AVG(TweetID) FROM Twitter;但这种功能在实践中是无用的。这可能就是为什么数据最好被认为是非结构化的:将数据压缩到关系模式中并不能带来好处。
不过,要小心大数据的流行词“宾果”。通常情况下,“支持非结构化数据”实际上意味着“不从数据中的结构中受益(通过使用索引),而是每次重新读取数据”。
发布于 2015-02-09 05:58:02
这不仅仅是为了得到推特。这些数据的真正价值在于知道在推特上发布的内容。以Facebook为例,我们可以对任何图片或视频发表评论。我们需要一个平台来知道什么是所有的评论是积极的,或有多少是滑雪板,或有多少评论是真正的反馈。有多少人提出了更好的建议。此外,你还需要知道有多少次视频被分享和喜欢。再一次,所有的人都是谁,谁不喜欢它或喜欢它。可以收集这么多种类的数据,因此这些数据都被称为非结构化数据。
https://stackoverflow.com/questions/28400188
复制相似问题