我正在处理一个NLP问题,在这个问题上我完全被困在了某个点上。我对这些问题并不熟悉,所以如果这个问题是愚蠢的,请原谅。我有一个完全非结构化的文本,比方说:"a person named x y is travelling to country ab, he spent xyz (alpha/currency/beta/gamma), ate a b c d e f food items and many more.“,现在我必须提取
|name of person| country's name | amount spent and the currency | food items he ate | place of
stay|对此的限制是,文本包含一些错误信息,例如:在特定国家找不到食物b和c,因此不应该提取它们。I有一个嵌套字典,看起来如下:
{country_name: {place 1: {name of hotels:[hotel1, hotel2, hotel3....],
eatables: [food1, food2, food3, food4.....],
currency_accepted: [c1, c2, c3, c4.......],
}
}
} --我想在非结构化文本中使用这个字典,这样我就可以解析数据,并提取数据中不同列中相关的实体。我已经看到了基于NER的方法,但我想它需要对单词进行标记,而且我有大量的数据。
--我尝试过基于正则表达式的模式匹配方法,但这并没有给出所有的结果,而且我还试图匹配存储在列表中的所有实体,但是这就产生了许多错误实体被提取的问题,并且在这里准确性是非常重要的。
我正在寻找更多改进的基于解析的方法,而且如果有任何方法对此字典进行特定的模型训练,那么只有在非结构化文本中找到键时,它才会查找嵌套字典的值。
发布于 2022-03-06 04:02:32
在开始机器学习之前,您可以尝试使用乌兹。我在工作中也遇到了类似的问题,通过调整比率属性,我获得了很高的精度。因此,对于每个提取的实体,您必须通过fuzzywuzzy和您的字典来运行它。
关于…的问题
但是这造成了许多假实体被提取的问题。
我将实现一个过滤器:如果提取和匹配的实体不在列表中,则将提取的实体排除在外,否则,继续逻辑。
https://stackoverflow.com/questions/71327407
复制相似问题