我是信息检索方面的新手。目前我正在读一本名为克里斯托弗·曼宁( Christopher D. Manning )和普拉巴卡尔·拉加万( Prabhakar Raghavan )著的“信息撤退导论”的书。我试图实现一个基于人工智能的搜索工具,从一个私有数据集中搜索一些相关信息。(比方说一种化学或数学数据集,它喜欢更多的数词,没有构造的散乱的度量单位表示)
下面是JSON格式的dataset中的一行,其中键是coloumn,值是对应于它的值。
"ABC Project": {
"In/Out diameter": " Both in and out are 1” ",
"Design Pressure (barG)": {
"Max": "116 psiG (7.99 barG)",
"Minimum": "79.7 psiG (5.49 barG)",
"Design": "174 psiG (11.99 barG)"
},
"C02 %": "0.671",
"MW": "16.68 kg/kmol",
"TITLE": null,
"Mothiram": "There is very dense forest and their lived a king. The name of the king was Pandidhurai. He was very brave ",
"Thooval delivery material": "- thooval delivery material is panam patta 316/316L "将从我的数据集中提取上述行的示例搜索查询如下
“分子鬼魂近16公斤/公斤,Thooval输送材料panam patta 316 L的项目,莫蒂拉姆是潘迪胡莱国王。”
我所做的一切。
预处理
将表中的每一行(例如T)读入R_{i},搜索查询作为Q执行以下预处理
我面临的
发布于 2020-02-04 14:32:56
以下是关于您的项目的一些一般想法:
据我所知,您正在尝试使用自由形式的自然语言查询从半结构化数据库中提取非常具体的信息,对吗?如果是的话,重要的是你要意识到这是一个相当雄心勃勃的项目,达到一个体面的质量阶段可能需要大量的工作,而且性能不太可能是完美的。
显然,数值和单位是匹配查询的重要信息。在这种情况下,您可能应该为这些操作实现一个特殊的过程,因为标准的文本处理不能很好地工作。
https://datascience.stackexchange.com/questions/67460
复制相似问题