首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >NLP分析建议

NLP分析建议
EN

Stack Overflow用户
提问于 2022-06-01 13:14:41
回答 2查看 46关注 0票数 0

工作的NLP项目,并将真正受益于任何专家的帮助。

我希望缩小我的选择范围,并为我正在从事的项目选择最合适的分析方法和技术。我的问题与我所拥有的数据有关,我应该做些什么。任何帮助(对于新手)都是非常感谢的。

我的数据:打开文本,短字符串数据回应一个调查问题。我有多个调查回答,每项调查都有一个高数量的回答者(3K+),尽管回答这个问题的人数相对较少(通常每项调查50人)。答复很短(通常是一行/句子答复),但我有大约20项调查,所以有一个合理的语料库可以使用。

这里是我的计划(高层次):预处理和清理数据,对文本数据本身运行一些描述(弓,词频率,可能是tf-国防军,词云),然后尝试一些主题建模和可能的情感分析。

当我在这个庞大的学习过程中工作时,我的主要问题是:

这种类型的数据集是否需要任何特定的主题建模或情感分析技术?是否有任何明显或不太明显的限制或考虑,我应该记住,由于我已经得到的数据?是否有明确的一步一步的指南可以推荐?(我一直在学习和阅读很多课程,但任何类似的经验或例子都是无价的)。

我很感激这是一个有点繁重的文本,并要求很多,但任何帮助和支持将是真的很棒。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-07-06 16:01:10

我参加派对有点晚了,但在主题建模方面,最好的起点是LDA。它有很多实现(最好的实现是马勒),它相对容易理解。有很多主题模型是为简短的文本设计的,比如开放式的调查回复,包括我帮助设计的一些。我们的模型可以在python包GDTM中找到。请看一下NLDA,它是为短文本设计的,指南主题模型(,GTM)也是为短文本设计的,但是如果您已经知道了一些重要的主题,它允许您提供种子主题。玩得开心:)

票数 0
EN

Stack Overflow用户

发布于 2022-06-01 21:18:42

我像你一样在NLP中自我回复,所以我在我的项目中也遇到过类似的考虑。首先,听起来你拥有的语料库足以进行你想要进行的分析,但是最好的测试是应用一个主题模型,看看你得到什么样的结果。

对于主题建模,我发现使用Gensim非常方便和全面:建模/#topic=10&lambda=1&term= -提供了一个更舒适的LDA介绍,包括评估结果的方法,例如一致性值和灵敏度分析。

为了简单起见,Top2Vec提供了一种简单的嵌入主题模型的方法:https://github.com/ddangelov/Top2Vec - do注意到,这个语料库需要足够大来执行任何事情(更别提一些有用的东西了)。

希望这有帮助,祝你好运!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72462505

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档