我有多语言文本,其中包含一条被翻译成几种语言的消息。例如:
English message
Russian message
Ukrainian message命令不准确。我想设计一种有监督/无监督的学习算法来自动进行分割,并提取每个翻译,以建立一个并行的数据语料库。
你能提出一些文件/方法吗?我无法获得适当的关键字谷歌。
发布于 2014-04-11 10:04:41
解决问题的最基本方法是从文档中生成一袋袋话。总而言之,一袋单词是一个矩阵,其中每一行都是文档中的一行,每一列都是一个不同的术语。
例如,如果您的文档是这样的:
hello world
привет мир
привіт світ您将得到以下矩阵:
hello | world | привет | мир | привіт | світ
l1 | 1 | 1 | 0 | 0 | 0 | 0
l2 | 0 | 0 | 1 | 1 | 0 | 0
l3 | 0 | 0 | 0 | 0 | 1 | 1然后,您可以根据需要应用分类算法(如k-均值或svms)。
关于更多的细节,我建议阅读本论文,它提供了一个很好的技术总结。
关于谷歌搜索的关键字,我认为text analysis、text mining或information retrieval是一个好的开始。
发布于 2014-04-11 12:18:53
你为什么不试试语言识别软件呢?他们报告的准确率超过90%:
https://stackoverflow.com/questions/23007052
复制相似问题