文章/答案/技术大牛

发布

问分段多语言并行文本
EN

Stack Overflow用户

提问于 2014-04-11 08:12:20

回答 2查看 66关注 0票数 1

我有多语言文本，其中包含一条被翻译成几种语言的消息。例如：

English message
Russian message
Ukrainian message

命令不准确。我想设计一种有监督/无监督的学习算法来自动进行分割，并提取每个翻译，以建立一个并行的数据语料库。

你能提出一些文件/方法吗？我无法获得适当的关键字谷歌。

algorithm

machine-learning

nlp

supervised-learning

unsupervised-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-04-11 10:04:41

解决问题的最基本方法是从文档中生成一袋袋话。总而言之，一袋单词是一个矩阵，其中每一行都是文档中的一行，每一列都是一个不同的术语。

例如，如果您的文档是这样的：

hello world
привет мир
привіт світ

您将得到以下矩阵：

     hello | world | привет | мир | привіт | світ
l1 | 1     |    1  |   0    | 0   |   0    | 0
l2 | 0     |    0  |   1    | 1   |   0    | 0
l3 | 0     |    0  |   0    | 0   |   1    | 1

然后，您可以根据需要应用分类算法(如k-均值或svms)。

关于更多的细节，我建议阅读本论文，它提供了一个很好的技术总结。

关于谷歌搜索的关键字，我认为text analysis、text mining或information retrieval是一个好的开始。

票数 2

Stack Overflow用户

发布于 2014-04-11 12:18:53

你为什么不试试语言识别软件呢？他们报告的准确率超过90%：

langid.py https://github.com/saffsd/langid.py
TextCat http://odur.let.rug.nl/~vannoord/TextCat/
语言P 71/index.html

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23007052

复制

相似问题

问分段多语言并行文本
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分段多语言并行文本EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分段多语言并行文本
EN