我开始了一个分析项目。用例是了解客户购买模式和数据源,如Web日志、关系数据库(包含产品主、客户主)。关系数据库团队和hadoop团队完全不同。在架构讨论期间,讨论了主数据(产品、客户)将是一次加载,增量更新将是从oracle到hdfs的每日sqoop,并使用Hive需要生成当前视图(包含所有最新的产品更改)。从产品详细信息开始。
根据我的理解,创建这样的小文件将是长期运行的名称节点上的一个负载。
如果有人遇到这样的解决方案,你是如何处理的?
发布于 2013-12-26 21:49:11
我还没发现什么问题。如果您从一个大文件开始,并且每天添加一个文件,那么一年后您将得到~1000个文件,这不是一个问题(至少对于name节点不是这样)。
尽管如此,在HDFS中保存小文件并不是最理想的,不管数量如何。
我建议您对此采取一种应用程序方法,并在经过足够时间之后合并文件,例如:
view中使用view组合这两个表,并创建一个加载过程,在可能的情况下将数据从HDFS加载到主表。如果您确实遇到了关于太多小文件的名称节点争用,您可以阅读解决“小文件问题”这里的方法。
https://stackoverflow.com/questions/20787129
复制相似问题