问结构化文本和非结构化文本
EN

Stack Overflow用户

提问于 2011-05-04 23:18:26

回答 1查看 2.3K关注 0票数 0

关于数据挖掘，结构化文本和非结构化文本有什么区别？在选择/开发数据挖掘方法来分析这些不同的文本时，主要考虑因素是什么？

data-mining

machine-learning

artificial-intelligence

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-05-05 03:07:39

在回答这些类型的问题时，我会先说明您正在处理的特定领域非常重要。在你的问题中添加一些上下文将允许更有帮助的回答。

一般而言，结构化文本和非结构化文本之间的主要区别在于，结构化文本具有易于消化的形式，而非结构化文本则不然。对于一些文本挖掘，这可能像词袋模型一样简单(每个单词出现多少次？)，一直到极其复杂的NLP方法，这些方法试图提取更深层次的语言结构，如词性或实体检测/解析。结构化数据的日常示例可以是Twitter上的帖子的元数据(用户名/时间戳/转发信息/等等)。其中相关的非结构化数据将是帖子本身的文本。

在不确切知道您感兴趣的情况下，一个重要的考虑因素是一个简单的事实:对于简单的机器学习模型，结构化文本通常是一种方便的形式，而非结构化文本很少是，因为它不能轻易地被视为一组二进制/实值特征并放入您最喜欢的统计模型中。

希望这能在更高的层面上有所帮助--如果我的回复过于宽泛，请随时更新原始帖子的细节=)

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5885762

复制

相似问题

问结构化文本和非结构化文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问结构化文本和非结构化文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问结构化文本和非结构化文本
EN