首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何用RASA NLU提取不相邻词的实体

如何用RASA NLU提取不相邻词的实体
EN

Stack Overflow用户
提问于 2018-10-15 14:30:02
回答 1查看 1.4K关注 0票数 2

nlu/issues/1468#issue-370187480

Rasa NLU版本:0.13.6

操作系统 (windows,osx,.):windows

模型配置文件内容:yml

代码语言:javascript
复制
language: "en"

pipeline:
- name: tokenizer_whitespace
- name: intent_entity_featurizer_regex
- name: ner_crf
- name: ner_synonyms
- name: intent_featurizer_count_vectors
- name: intent_classifier_tensorflow_embedding
  intent_tokenization_flag: true
  intent_split_symbol: "+"
path: ./models/nlu
data: ./data/training_nlu.json

问题

如何提取实体。它们不是相邻的词。以下是一个例子:

我需要训练我的NLU去理解公众的不满,比如街灯熄灭,街道上的坑洞,白天的路灯

我的实体价值是路灯熄灭,这意味着一个人想要报告一个路灯不工作。他/她将以以下格式完成这一工作。

街灯毗邻博士Vasanth‘s诊所,WH布局,乌尔索路,班加罗尔42已经融合从一周以来。

街灯本身并不是一个实体,或者只有融合的不是我的实体。街灯融合是同义词。有没有可能,训练NLU从这句话中提取融合的路灯。如果是的话。

如果不是,拆分街灯和融合为不同的实体是唯一的解决方案吗?但是,从上述句子中提取路灯融合了可能是可能的,因为它可以提取其中多个单词的实体,而tokenizer_whitespace只是在一个空白处中断。

请建议有更好的方法来获得我的实体,而不是分裂成多个实体。

这里有关于相同问题的更多例子:

示例1:

垃圾从过去10天没有捡到,需要立即予以清理。

在这里,我可以选择垃圾,而不是。我可以训练我的NLU使用下面的训练片段ner_crf来提取这个命名实体

示例2:

一个垃圾 10 main附近的垃圾桶是从过去10天里没有捡到的,需要立即采取行动。

不同的公民报告同样的问题,但不同的判决。

我可以使用ner_crf提取没有从示例2中提取的垃圾吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-15 21:29:08

我将提出两种替代方法,两种方法都依赖于意图。我相信你提供的唯一的内容就是地址信息。

因此,你可以把你的每个例子训练成完全不同的意图(不包括用于躯体化的实体):

代码语言:javascript
复制
## intent:streetLightOut
- The Street light adjacent to Dr Vasanth Shetty's Clinic , WH Hanumanthappa     Layout, Ulsoor Road, Bangalore 42 is out.
- I'd like to report a street light that is burnt out
- street light out

## intent:streetLightAlwaysOn
- The Street light adjacent to Dr Vasanth Shetty's Clinic , WH Hanumanthappa     Layout, Ulsoor Road, Bangalore 42 is always on.
- I'd like to report a street light that never turns off
- street light on constantly

## intent:potholeInStreet
- There's a pothole at the intersection of 10th and main
- pothole
- pothole on 11th street near Wal-Mart

或者,由于您使用张量流,您可以使用传家宝意图:

代码语言:javascript
复制
## intent:streetLight+out
- The Street light adjacent to Dr Vasanth Shetty's Clinic , WH Hanumanthappa Layout, Ulsoor Road, Bangalore 42 is out.
- I'd like to report a street light that is burnt out
- street light out

## intent:streetLight+alwaysOn
- The Street light adjacent to Dr Vasanth Shetty's Clinic , WH Hanumanthappa     Layout, Ulsoor Road, Bangalore 42 is always on.
- I'd like to report a street light that never turns off
- street light on constantly

## intent:potHole
- There's a pothole at the intersection of 10th and main
- pothole
- pothole on 11th street near Wal-Mart

我提出这些方法的主要原因是,Rasa中的实体位置很高,很少重视单词(而不包含单词向量)。由于路灯的所有问题都可能包括这些词或类似的词,所以这个词本身似乎最有价值。

这篇博文有一些关于TensforFlow和层次结构意图的信息:https://medium.com/rasa-blog/supervised-word-vectors-from-scratch-in-rasa-nlu-6daf794efcd8

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52819048

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档