首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Hadoop预处理文本消息的最佳方法

使用Hadoop预处理文本消息的最佳方法
EN

Stack Overflow用户
提问于 2011-07-01 10:46:42
回答 3查看 523关注 0票数 0

我正在使用Hadoop处理文本消息(SMS)。但我不确定对这些数据进行预处理的最佳方法,以便进行有效的搜索。例如,在对数据进行预处理之后,如果有人搜索“NY”,我将能够显示包含单词“NY”的消息。建议将预处理后的数据写入xml文件而不是数据库。

注意:我在一个.csv文件中有大约200K的文本消息。

EN

回答 3

Stack Overflow用户

发布于 2011-07-01 14:01:19

我将预处理数据导入hdfs的方法是,首先将数据(在本例中为csv文件)导入到数据库中,然后创建一个表视图来根据需要对其进行微调。然后使用Sqoop将数据导入hdfs。有关sqoop的更多信息,请单击此处

http://www.cloudera.com/blog/2009/06/introducing-sqoop/

要从数据库执行sqoop导入,请看一下

http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_connecting_to_a_database_server

票数 0
EN

Stack Overflow用户

发布于 2011-07-06 09:38:57

您可能想要对文本消息进行索引,可能会使用Lucene之类的内容。

票数 0
EN

Stack Overflow用户

发布于 2012-01-20 20:15:26

Go for Solr (尤其用于文本挖掘)

  1. 功能强大的全文search
  2. Provides dynamic clustering
  3. Provides数据库集成
  4. 支持.csv、.xml、word、pdf。
  5. 高度可扩展的
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6543102

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档