我是机器学习和NLP的初学者,我必须创建一个基于FAQ数据集的bot,每个FAQ数据集excel文件包含2列“问题”及其“答案”。
例如:excel文件中的记录(问题&答案)。
问题- What is RASA-NLU?
答案- Rasa NLU is trained to identify intent and entities. Better the training, better the identification...
我们有3K+ excel文件,其中有大约10K到20K这样的记录,每个excel。
要实现bot,我应该完全遵循使用这种FAQ机器人方法的RASA-NLU,但是在我的组织中不允许使用RASA、Chatterbot和微软的QnA maker。
Spacy为我完美地完成了NER extraction,所以我正在寻找一个使用Spacy创建机器人的方法。但我不知道在提取实体之后该怎么做。(IMHO,我将不得不预测数据集的确切问题(以及从knowlwdge base得到的答案),从用户查询到机器人)
我不知道要使用什么NLP算法/ ML进程,也不知道是否有任何最简单的方法来使用提取的值来创建FAQ。
发布于 2019-12-11 12:08:05
实现FAQ的一种方法是将问题转化为分类问题。你有问题,答案可以是“标签”。我想,你总是有多个训练问题,这些问题对应着相同的答案。您可以对每个答案进行编码以获得较小的标签(例如,您可以将答案的文本映射到id)。然后,您可以使用您的培训数据(问题)和标签(编码的答案),并提供一个分类器。经过训练,你的分类器可以预测未知问题的标签。当然,这是一个监督的方法,所以你需要从你的训练句子(问题)中提取特征。在这种情况下,您可以使用包字表示,甚至包括命名实体作为一个功能。如何在spacy中进行文本分类的示例可以在这里获得:https://www.dataquest.io/blog/tutorial-text-classification-in-python-using-spacy/
https://stackoverflow.com/questions/59285376
复制相似问题