背景:维基百科序列比对页面上说,DNA序列比对算法也可以用于自然语言处理。
问题:,因为命名实体识别器和DNA序列库都进行近似字符串匹配--使用DNA测序库(如保龄球)并构建NER是实用的吗?
不使用现有的NER开源,而是使用DNA测序库来构建NER的原因之一是希望在我的NER中自动获得“拼写错误更正”。
如果我以上的假设是有意义的
发布于 2015-12-23 07:17:02
DNA测序也使用了编辑距离算法--在NER过程中,你会使用同样的算法来检测误剥现象。但是DNA测序开放源码通常被编程为只对少数几个用于表示DNA序列的字符进行操作。他们不操作正常的a-zA-Z0-9范围的ASCII字符.引文:https://groups.google.com/forum/#!category-topic/nvbio-users/how-do-i--/ITjD6KPlEsc
因此,正如Vihari所建议的--它最好使用一些编辑的距离,也是最好的方法。但是,我真的希望NLP爱好者在未来的时间里探索这样的DNA序列开放源码,并进化它们来利用这些DNA序列开放源的“大数据容量”来为NLP社区带来这一点。
https://stackoverflow.com/questions/34365621
复制相似问题