关于数据挖掘,结构化文本和非结构化文本有什么区别?在选择/开发数据挖掘方法来分析这些不同的文本时,主要考虑因素是什么?
发布于 2011-05-05 03:07:39
在回答这些类型的问题时,我会先说明您正在处理的特定领域非常重要。在你的问题中添加一些上下文将允许更有帮助的回答。
一般而言,结构化文本和非结构化文本之间的主要区别在于,结构化文本具有易于消化的形式,而非结构化文本则不然。对于一些文本挖掘,这可能像词袋模型一样简单(每个单词出现多少次?),一直到极其复杂的NLP方法,这些方法试图提取更深层次的语言结构,如词性或实体检测/解析。结构化数据的日常示例可以是Twitter上的帖子的元数据(用户名/时间戳/转发信息/等等)。其中相关的非结构化数据将是帖子本身的文本。
在不确切知道您感兴趣的情况下,一个重要的考虑因素是一个简单的事实:对于简单的机器学习模型,结构化文本通常是一种方便的形式,而非结构化文本很少是,因为它不能轻易地被视为一组二进制/实值特征并放入您最喜欢的统计模型中。
希望这能在更高的层面上有所帮助--如果我的回复过于宽泛,请随时更新原始帖子的细节=)
https://stackoverflow.com/questions/5885762
复制相似问题