Hadoop主要用于处理非结构化或半结构化数据。我想使用Hadoop来处理大量的结构化数据。
虽然hadoop能够从数据库读取(通过DBInputFormat),但它不被认为是一种可伸缩的方法,因为数据库连接的数量将是有限的。
有人使用hadoop从RDBMS读取数据吗?表演是什么?它可以支持多少个节点?
谢谢
发布于 2011-12-03 02:53:14
您可以使用Sqoop将数据从关系型数据库导入Hadoop。
Hadoop在处理非结构化数据方面大放异彩,因为您将约束(创建结构化数据)推到了最后。这也允许创造性地放置什么结构,这将定义您可以提取的信息类型。
从来没有人说你不能处理结构化数据,但所获得的里程数很低。RDBMS可以高效地处理结构化数据。
https://stackoverflow.com/questions/8339491
复制相似问题