我希望使用命名实体识别算法从文本中提取名称和位置,而不使用任何库。
示例:
美国航空公司表示将开通一架直飞孟加拉的航班。
答案:
Entity: American Airlines
Location: Bengaluru命名实体的最佳实践是什么?这是否就像在CSV文件中存储所有的名称和位置,并与句子进行比较?
发布于 2020-11-18 09:55:27
正如曼珠尔所说,现在最好的选择是深入学习。最常见的是BERT,深双向变压器的预培训,用于语言理解和变体.这些是变形金刚编码器的变体,它比解码器更适合提取信息,比如GPT。
这些模型对像NER这样的任务使用微调。事实上,它们已经是本地化和人员的精简版。例如,您可以在Spacy中找到实现。但是,如果您希望获得更高的精度,并且您有使用py手电或tensorflow (预处理)的经验,并且您可以使用标记数据(它们也只存在于这些实体的数据集),那么您可以自己微调它。
锂离子线:https://medium.com/@b.terryjack/nlp-pretrained-named-entity-recognition-7caa5cd28d7b#:~:text=
不同的方法和SOTA:https://primer.ai/blog/a-new-state-of-the-art-for-named-entity-recognition/
使用CSV (它来自Kaggle,所以您也可以下载数据集)使用BERT的整个实现:https://www.kaggle.com/abhishek/entity-extraction-model-using-bert-pytorch
发布于 2020-03-21 08:02:50
您可以通过多种方式实现命名实体识别:
Long Short Term Memory (LSTM)起着重要的作用。任何类型的LSTM都不会产生最好的效果。我们需要使用Bi-Directional LSTM,因为标准LSTM使用文本序列中的过去信息进行预测。对于NER来说,由于上下文在一个序列中涵盖了过去和未来的标签,我们需要同时考虑过去和未来的信息。Bi-Directional LSTM是两个LSTM的组合,一个从向左运行,另一个从向左向后运行到right.。
https://stackoverflow.com/questions/60785113
复制相似问题