首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >结构化文本和非结构化文本

结构化文本和非结构化文本
EN

Stack Overflow用户
提问于 2011-05-04 23:18:26
回答 1查看 2.3K关注 0票数 0

关于数据挖掘,结构化文本和非结构化文本有什么区别?在选择/开发数据挖掘方法来分析这些不同的文本时,主要考虑因素是什么?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-05-05 03:07:39

在回答这些类型的问题时,我会先说明您正在处理的特定领域非常重要。在你的问题中添加一些上下文将允许更有帮助的回答。

一般而言,结构化文本和非结构化文本之间的主要区别在于,结构化文本具有易于消化的形式,而非结构化文本则不然。对于一些文本挖掘,这可能像词袋模型一样简单(每个单词出现多少次?),一直到极其复杂的NLP方法,这些方法试图提取更深层次的语言结构,如词性或实体检测/解析。结构化数据的日常示例可以是Twitter上的帖子的元数据(用户名/时间戳/转发信息/等等)。其中相关的非结构化数据将是帖子本身的文本。

在不确切知道您感兴趣的情况下,一个重要的考虑因素是一个简单的事实:对于简单的机器学习模型,结构化文本通常是一种方便的形式,而非结构化文本很少是,因为它不能轻易地被视为一组二进制/实值特征并放入您最喜欢的统计模型中。

希望这能在更高的层面上有所帮助--如果我的回复过于宽泛,请随时更新原始帖子的细节=)

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5885762

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档