文章/答案/技术大牛

发布

社区首页 >问答首页 >从非结构化数据中提取重要实体

问从非结构化数据中提取重要实体
EN

Stack Overflow用户

提问于 2022-03-02 18:18:30

回答 1查看 315关注 0票数 1

我正在处理一个NLP问题，在这个问题上我完全被困在了某个点上。我对这些问题并不熟悉，所以如果这个问题是愚蠢的，请原谅。我有一个完全非结构化的文本，比方说："a person named x y is travelling to country ab, he spent xyz (alpha/currency/beta/gamma), ate a b c d e f food items and many more.“，现在我必须提取

|name of person| country's name | amount spent and the currency | food items he ate | place of              
stay|

对此的限制是，文本包含一些错误信息，例如:在特定国家找不到食物b和c，因此不应该提取它们。I有一个嵌套字典，看起来如下：

{country_name: {place 1: {name of hotels:[hotel1, hotel2, hotel3....],
                          eatables: [food1, food2, food3, food4.....],
                          currency_accepted: [c1, c2, c3, c4.......],
                          }
                }
}

--我想在非结构化文本中使用这个字典，这样我就可以解析数据，并提取数据中不同列中相关的实体。我已经看到了基于NER的方法，但我想它需要对单词进行标记，而且我有大量的数据。

--我尝试过基于正则表达式的模式匹配方法，但这并没有给出所有的结果，而且我还试图匹配存储在列表中的所有实体，但是这就产生了许多错误实体被提取的问题，并且在这里准确性是非常重要的。

我正在寻找更多改进的基于解析的方法，而且如果有任何方法对此字典进行特定的模型训练，那么只有在非结构化文本中找到键时，它才会查找嵌套字典的值。

python

parsing

nlp

named-entity-recognition

text-extraction

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-03-06 04:02:32

在开始机器学习之前，您可以尝试使用乌兹。我在工作中也遇到了类似的问题，通过调整比率属性，我获得了很高的精度。因此，对于每个提取的实体，您必须通过fuzzywuzzy和您的字典来运行它。

关于…的问题

但是这造成了许多假实体被提取的问题。

我将实现一个过滤器:如果提取和匹配的实体不在列表中，则将提取的实体排除在外，否则，继续逻辑。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71327407

复制

相似问题

问从非结构化数据中提取重要实体
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从非结构化数据中提取重要实体EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从非结构化数据中提取重要实体
EN