我正在从事一个名为实体识别()的项目,在这个项目中,我得到了大量的文本,这意味着阅读或浏览的内容太多了。因此,我希望通过提取命名实体(位置、名称、时间、可能的主题)并创建类索引(实体、页面/行列表)来创建提到的内容的概述。我已经通过斯坦福大学NLP讲座,(部分)艾森斯坦的https://mitpress.mit.edu/books/introduction-natural-language-processing的书找到了一些文献和系统的英语文本。由于我的语料库是德语,我想问一下我如何处理这个问题。此外,这也是我的第一个NLP项目,所以我不知道我是否能够解决这个挑战,即使文本是英语。
作为第一步
我的项目的进一步路线图是:
NUL/UNK令牌?这是相关的,因为也有一些具有历史意义的段落使用不再使用的词或遵循旧的正字法。我认为相关术语是tokenisation或词干。一个主要的挑战是,对于我的语料库,没有带注释的数据集,我只能手动注释其中的一小部分。因此,我很乐意得到关于德国注释数据集的提示,我可以将这些数据集合并到我的项目中。
预先感谢你们的投入和富有成果的讨论。
发布于 2022-07-15 15:57:53
大多数好的NLP工具包可以用德语执行NER:
关键是要理解的是,使用像上面这样的NER软件意味着使用预先训练过的模型,即以前在一些标准语料库上训练过的带有标准注释实体的模型。
顺便说一句,您通常可以通过查看文档找到原始的带注释的数据集。一元语料库在这里。
这是方便的,可能适合你的目标,但有时它并不完全收集每一个你希望它收集,特别是如果你的语料库来自一个非常特定的领域。如果您需要更具体的NER,您必须训练您自己的模型,这需要获得一些带注释的数据(即手动注释或付钱给某人来完成)。
即使在这种情况下,一个NER模型也是统计的,它不可避免地会犯一些错误,不要期望得到完美的结果。
关于拼写错误或罕见名称: NER模型并不关心(或不太关心)实际实体,因为它主要不是基于实体中的单词。它基于周围文字中的暗示,例如在“XYZ先生宣布该事件将在7月份发生”这句话中,NER模式应该将“XYZ先生”作为“由”宣布的人,而“7月份”作为一个日期,因为“发生在”。但是,如果语料库中使用的语言与模型所用的训练数据有很大的不同,那么它的性能就会很差。
https://stackoverflow.com/questions/72992743
复制相似问题