工作的NLP项目,并将真正受益于任何专家的帮助。
我希望缩小我的选择范围,并为我正在从事的项目选择最合适的分析方法和技术。我的问题与我所拥有的数据有关,我应该做些什么。任何帮助(对于新手)都是非常感谢的。
我的数据:打开文本,短字符串数据回应一个调查问题。我有多个调查回答,每项调查都有一个高数量的回答者(3K+),尽管回答这个问题的人数相对较少(通常每项调查50人)。答复很短(通常是一行/句子答复),但我有大约20项调查,所以有一个合理的语料库可以使用。
这里是我的计划(高层次):预处理和清理数据,对文本数据本身运行一些描述(弓,词频率,可能是tf-国防军,词云),然后尝试一些主题建模和可能的情感分析。
当我在这个庞大的学习过程中工作时,我的主要问题是:
这种类型的数据集是否需要任何特定的主题建模或情感分析技术?是否有任何明显或不太明显的限制或考虑,我应该记住,由于我已经得到的数据?是否有明确的一步一步的指南可以推荐?(我一直在学习和阅读很多课程,但任何类似的经验或例子都是无价的)。
我很感激这是一个有点繁重的文本,并要求很多,但任何帮助和支持将是真的很棒。
发布于 2022-07-06 16:01:10
发布于 2022-06-01 21:18:42
我像你一样在NLP中自我回复,所以我在我的项目中也遇到过类似的考虑。首先,听起来你拥有的语料库足以进行你想要进行的分析,但是最好的测试是应用一个主题模型,看看你得到什么样的结果。
对于主题建模,我发现使用Gensim非常方便和全面:建模/#topic=10&lambda=1&term= -提供了一个更舒适的LDA介绍,包括评估结果的方法,例如一致性值和灵敏度分析。
为了简单起见,Top2Vec提供了一种简单的嵌入主题模型的方法:https://github.com/ddangelov/Top2Vec - do注意到,这个语料库需要足够大来执行任何事情(更别提一些有用的东西了)。
希望这有帮助,祝你好运!
https://stackoverflow.com/questions/72462505
复制相似问题