有多少数据有资格被归类为Bigdata?
有了多大的数据,就可以决定现在是时候使用Hadoop这样的技术并使用分布式计算的能力了吗?
我相信这些技术有一定的溢价,那么如何确保使用Bigdata方法将利用当前的系统呢?
发布于 2012-12-27 03:14:34
引用Bigdata的维基页面:
当使用我们的传统数据库管理工具存储、搜索、分析、共享等给定数量的数据变得困难时,这种庞大而复杂的数据集被称为Bigdata。
基本上,它们都是相对的。什么是Bigdata取决于管理数据集的组织的能力。对于一些组织来说,第一次面对数百to的数据可能会引发重新考虑数据管理选项的需求。对于其他人来说,在数据大小成为一个重要的考虑因素之前,可能需要数十或数百or。
数据量只是定义Bigdata的关键元素之一。Variety in data和 velocity 是定义要成为Bigdata的数据集的另外两个主要元素。
数据中的Variety意味着具有许多不同的数据和文件类型,这些数据和文件类型可能需要以传统关系databases.Some之外的方式进行分析和处理。这种类型的示例包括声音和电影文件、图像、文档、地理空间数据、网络日志和文本字符串。
Velocity指的是数据更改的速度,以及必须以多快的速度处理数据才能产生显著的价值。传统技术特别不适合存储和使用高速数据。因此,需要新的方法。如果相关数据的创建和聚合速度非常快,并且必须迅速用于发现模式和问题,则速度越快,手头出现Bigdata问题的可能性就越大。
顺便说一下,如果你正在寻找一个“高性价比”的解决方案,你可以探索一下amazon's EMR。
发布于 2012-12-27 03:46:55
“大数据”是一个有点模糊的术语,更多地用于营销目的,而不是做出技术决策。一个人所说的“大数据”,另一个人可能认为只是一个单一系统上的日常操作。
我的经验法则是,大数据是从你的工作数据集不适合单个系统的主内存开始的。工作集是您在给定时间正在积极处理的数据。因此,例如,如果您有一个存储10 TB数据的文件系统,但您正在使用它来存储视频以进行编辑,那么您的编辑人员在任何给定的时间可能只需要几百TB的数据;而且他们通常将这些数据从光盘上流式传输出来,这不需要随机访问。但是,如果您尝试对定期更改的完整10 TB数据集执行数据库查询,则不希望从磁盘中提供该数据;这将开始成为“大数据”。
根据基本经验,我现在可以将现成的戴尔服务器配置为2 TB的RAM。但是,要将如此多的RAM放入单个系统中,您需要支付相当大的额外费用。在一台服务器上使用512 GB的RAM要实惠得多,因此使用4台具有512 GB RAM的机器通常比使用一台具有2 TB的机器更具成本效益。因此,您可能会说,超过512 GB的工作集数据(您需要在日常基础上访问任何给定计算的数据)将被称为“大数据”。
考虑到与传统数据库相比,为“大数据”系统开发软件的额外成本,对于某些人来说,迁移到2TB的系统可能比重新设计其系统以分布在多个系统中更具成本效益,因此,根据您的需求,512 GB到2TB之间的任何数据都可能是您需要迁移到“大数据”系统的点。
我不会用“大数据”这个词来做任何技术决策。相反,制定您的实际需求,并确定现在需要哪些类型的技术来满足这些需求。考虑一下增长,但也要记住,系统的容量仍在增长;因此,不要试图过度规划。许多“大数据”系统可能很难使用和不灵活,所以如果您实际上不需要它们来将您的数据和计算分散到数十或数百个系统,那么它们可能会带来比其价值更大的麻烦。
https://stackoverflow.com/questions/14045056
复制相似问题