我正在使用Hadoop处理文本消息(SMS)。但我不确定对这些数据进行预处理的最佳方法,以便进行有效的搜索。例如,在对数据进行预处理之后,如果有人搜索“NY”,我将能够显示包含单词“NY”的消息。建议将预处理后的数据写入xml文件而不是数据库。
注意:我在一个.csv文件中有大约200K的文本消息。
发布于 2011-07-01 14:01:19
我将预处理数据导入hdfs的方法是,首先将数据(在本例中为csv文件)导入到数据库中,然后创建一个表视图来根据需要对其进行微调。然后使用Sqoop将数据导入hdfs。有关sqoop的更多信息,请单击此处
http://www.cloudera.com/blog/2009/06/introducing-sqoop/
要从数据库执行sqoop导入,请看一下
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_connecting_to_a_database_server
发布于 2011-07-06 09:38:57
您可能想要对文本消息进行索引,可能会使用Lucene之类的内容。
发布于 2012-01-20 20:15:26
Go for Solr (尤其用于文本挖掘)
https://stackoverflow.com/questions/6543102
复制相似问题