当涉及到NLP时,我是一个新手,因为我刚刚开始学习它。因此,如果这个问题看起来过于简单,请耐心听我说:)
我有一堆PDF文件(很多),任务是:每当有人问一个问题,答案是在这些PDF中的一个可用,要么包含答案的部分被提取或该特定PDF的页码显示为答案。您可以将每个PDF视为某个产品的手册;总共有数百个PDF文件。
我知道使用PDF搜索引擎可以很容易地解决这个问题;但是从文本挖掘和AI/ML的角度来看,有什么潜在的方法可以解决这个问题吗?也许我可以在一些PDF上训练模型,它可以用于rest?
最近我一直在尝试做一些研究,到目前为止,我得到的结果是:每当有人提出问题时,我都可以使用nltk python (大量在线资源)从问题中提取关键字。但真正困扰我的是接下来的部分,pdf文本/信息开始发挥作用。
提前感谢:)
发布于 2018-06-06 15:29:06
如果我是你,我会从收集或创建训练机器所需的数据开始。
例如:
house timber nails。因此,您在文档中搜索这些关键字,然后向它们发送一个您希望获得反馈的house_timber.pdf
例如,要求客户对结果进行反馈。
或者,你也可以自己练习,并在最初的几百/上千次中自己训练它。
然后,我会将所有这些训练查询和结果存储在一个数据库中,这样每当有新的查询出现时,您就可以通过训练并得出最准确的答案。
然后再次请求反馈,并将新结果存储在数据库中。(继续这个反馈循环!)
通过运行测试,您可以自己训练它。
与给出关键字一样,检查这些关键字是否存在于.pdf中,然后根据结果将结果标记为yes [1]或no [0]。
我发现你训练得越多,它就越准确。只要你继续从反馈中训练它,那么你的结果就会继续提高准确性。
我还发现,如果你给它太多的训练数据,并让它多次运行变化。结果并没有太大的改善,只是需要更多的时间。因此,尝试找到合适的数据量和合适的训练迭代次数也很重要。(如果您正在尝试快速响应)。
开始使用机器学习来发现模式是一次很酷的冒险。玩得开心!
https://stackoverflow.com/questions/50714194
复制相似问题