首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >生成实时聊天记录的标记

生成实时聊天记录的标记
EN

Data Science用户
提问于 2015-01-15 01:57:38
回答 2查看 569关注 0票数 2

我想知道是否有一种方法可以自动生成一个没有领域知识的实时聊天记录的标签列表。我尝试过将NLP分块应用于聊天记录,并且只保留名词短语作为标记候选词。然而,这种方法会产生太多无用的名词短语。我可以用一些规则来删掉其中的一些规则,但是很难概括这些规则。

EN

回答 2

Data Science用户

发布于 2015-01-16 05:44:41

您可以尝试RAKE(快速自动关键字提取),并且有一个python实现这里。RAKE是一种面向文档的关键词提取算法,也是独立于语言的(理论上,由于RAKE使用生成的停止词列表来划分候选关键字,并且考虑到不同的语言,我们需要找到一种更好的生成停止词列表的方法。)然而,对于英语文档,RAKE可以以可接受的精度提取关键字(或标签)并进行回忆。RAKE也是有效的,因为为了使用它,我们不需要训练一个完整的语料库,RAKE可以通过计算单词的程度和频率来生成一个关键字列表,然后为每个候选关键字得到一个分数,然后选择最前面的N个单词。

希望这个答案能帮助你,或者为你的下一步调查指明方向。

票数 2
EN

Data Science用户

发布于 2015-01-16 04:44:23

如果你有适当标记的聊天记录,你可以试着把它当作一个有监督的学习问题。如果你是从白板开始的,那是行不通的。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/4880

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档