首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >创建特定领域的问答系统

创建特定领域的问答系统
EN

Data Science用户
提问于 2016-06-16 05:56:16
回答 2查看 3.2K关注 0票数 5

我想要创建一个领域特定的QA系统。

我正在进行一个项目,为给定的教科书创建QA系统(在特定的领域并回答所有相关问题)。

我正在考虑的一种方法是创建一个本体/知识库,然后使用它进行答案检索。

为此:

  1. 如何从文档中提取数据并将其填充到KB中?
  2. 问题将在自然语言中,如何利用这个问题从知识库中进行查询?
  3. 这是最好的办法吗?因为这里需要域知识来创建本体。有n个区域。那么,我需要为每个域创建不同的本体吗?
  4. 一个QA模型可以用来覆盖不同的领域吗?还有其他机器学习和深度学习方法可以用于这一点吗?
EN

回答 2

Data Science用户

发布于 2016-07-07 19:06:41

这是一个广泛的问题,但这是总的办法。典型的QA系统涉及几个子问题,每个子问题都可以使用不同的方法解决:

  1. 问题分类-用户问的是什么类型的问题?这可以作为一个分类问题,假设你有标签。
  2. 解析问题-这里需要多个NLP技术。
  3. 将问题转换为规范形式--每个问题都将转换为规范或结构化格式(可用于查询)。这通常是这个过程中最困难的部分。这通常被称为语义解析。一种方法是获取短语的变体,然后使用某种相似性度量将其映射为单个规范形式。你可以从纸开始。

如果你能从一个自然语言文本变成一个规范形式,你基本上就完成了。存储数据和检索是琐碎的方面,可以通过多种方式完成。谈到领域问题,它总是在一个领域与一般QA系统(这太难破解)的准确性之间进行权衡。每个领域的单一模型很可能以额外的努力为代价给您带来更好的结果。

票数 1
EN

Data Science用户

发布于 2016-09-09 06:13:38

你应该检查一下卡格尔:https://www.kaggle.com/c/the-allen-ai-science-challenge的艾伦人工智能比赛。

简而言之,人们在这方面采取的典型做法与你所建议的相似:

  • 从特定领域的文章和/或维基百科建立知识库
  • 用lucene或其他IR系统索引这些文章
  • 对于每一个问题/答案对,检索大部分相关的文章并将它们用作特性。
  • 使用这些特性构建分类器,以便在答案正确或不正确的情况下进行分类。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12225

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档