他们有一个多语种的NER模型，训练了40种语言，包括西里尔语(如俄语)。这是一个微调版本的RoBERTa，所以准确性似乎是非常好的。请参阅这里的详细信息：https://huggingface.co/jplu/tf-xlm-r-ner-40-lang
他们还拥有一个多语言的DistilBERT模型，用于基于GitHub台风语料库的错误检测。语料库似乎包括15种不同语言的排印，包括俄语。请参阅这里的详细信息：https://huggingface.co/mrm8488/distilbert-base-multi-cased-finetuned-typo-detection

下面是对用例略有修改的文档中的一些示例代码：

from transformers import pipeline

typo_checker = pipeline("ner", model="mrm8488/distilbert-base-multi-cased-finetuned-typo-detection",
                        tokenizer="mrm8488/distilbert-base-multi-cased-finetuned-typo-detection")

result = typo_checker("я живу в Мосве")
result[1:-1]

 #[{'word': 'я', 'score': 0.7886862754821777, 'entity': 'ok', 'index': 1},
 #{'word': 'жив', 'score': 0.6303715705871582, 'entity': 'ok', 'index': 2},
 #{'word': '##у', 'score': 0.7259598970413208, 'entity': 'ok', 'index': 3},
 #{'word': 'в', 'score': 0.7102937698364258, 'entity': 'ok', 'index': 4},
 #{'word': 'М', 'score': 0.5045614242553711, 'entity': 'ok', 'index': 5},
 #{'word': '##ос', 'score': 0.560469925403595, 'entity': 'typo', 'index': 6},
 #{'word': '##ве', 'score': 0.8228507041931152, 'entity': 'ok', 'index': 7}]

result = typo_checker("I live in Moskkow")
result[1:-1]

 #[{'word': 'I', 'score': 0.7598089575767517, 'entity': 'ok', 'index': 1},
 #{'word': 'live', 'score': 0.8173692226409912, 'entity': 'ok', 'index': 2},
 #{'word': 'in', 'score': 0.8289134502410889, 'entity': 'ok', 'index': 3},
 #{'word': 'Mo', 'score': 0.7344270944595337, 'entity': 'ok', 'index': 4},
 #{'word': '##sk', 'score': 0.6559176445007324, 'entity': 'ok', 'index': 5},
 #{'word': '##kow', 'score': 0.8762879967689514, 'entity': 'ok', 'index': 6}]

不幸的是，它似乎并不总是有效，但也许它对您的用例来说已经足够了。

另一种选择是SpaCy。对于不同的语言，他们没有那么多的模型，但是使用斯派西氏EntityRuler，很容易手动定义新的实体，即“扩展实体识别数据库”。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44763499

复制

相似问题

问扩展NLP实体提取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问扩展NLP实体提取EN