首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从非结构化数据中提取重要实体

从非结构化数据中提取重要实体
EN

Stack Overflow用户
提问于 2022-03-02 18:18:30
回答 1查看 315关注 0票数 1

我正在处理一个NLP问题,在这个问题上我完全被困在了某个点上。我对这些问题并不熟悉,所以如果这个问题是愚蠢的,请原谅。我有一个完全非结构化的文本,比方说:"a person named x y is travelling to country ab, he spent xyz (alpha/currency/beta/gamma), ate a b c d e f food items and many more.“,现在我必须提取

代码语言:javascript
复制
|name of person| country's name | amount spent and the currency | food items he ate | place of              
stay|

对此的限制是,文本包含一些错误信息,例如:在特定国家找不到食物b和c,因此不应该提取它们。I有一个嵌套字典,看起来如下:

代码语言:javascript
复制
{country_name: {place 1: {name of hotels:[hotel1, hotel2, hotel3....],
                          eatables: [food1, food2, food3, food4.....],
                          currency_accepted: [c1, c2, c3, c4.......],
                          }
                }
} 

--我想在非结构化文本中使用这个字典,这样我就可以解析数据,并提取数据中不同列中相关的实体。我已经看到了基于NER的方法,但我想它需要对单词进行标记,而且我有大量的数据。

--我尝试过基于正则表达式的模式匹配方法,但这并没有给出所有的结果,而且我还试图匹配存储在列表中的所有实体,但是这就产生了许多错误实体被提取的问题,并且在这里准确性是非常重要的。

我正在寻找更多改进的基于解析的方法,而且如果有任何方法对此字典进行特定的模型训练,那么只有在非结构化文本中找到键时,它才会查找嵌套字典的值。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-03-06 04:02:32

在开始机器学习之前,您可以尝试使用乌兹。我在工作中也遇到了类似的问题,通过调整比率属性,我获得了很高的精度。因此,对于每个提取的实体,您必须通过fuzzywuzzy和您的字典来运行它。

关于…的问题

但是这造成了许多假实体被提取的问题。

我将实现一个过滤器:如果提取和匹配的实体不在列表中,则将提取的实体排除在外,否则,继续逻辑。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71327407

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档