首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python翻译API错误:如何翻译大量数据

Python翻译API错误:如何翻译大量数据
EN

Stack Overflow用户
提问于 2018-10-31 01:59:37
回答 1查看 4.7K关注 0票数 6

我的问题

我想为NLP使用一种数据增强方法,它由反翻译数据集组成。

基本上,我有一个大型数据集(SNLI),包含110万个英语句子。我需要做的是:用一种语言翻译这些句子,并把它翻译回英语。

为了几种语言,我可能不得不这样做。所以我有很多翻译要做的

我需要一个免费的解决方案。

我至今所做的一切

我尝试了几个python模块进行翻译,但由于最近的变化,其中大多数都无法工作。如果我们应用这个谷歌-反式解决方案似乎是有效的。

但是,它不适用于大型数据集。谷歌有一个15K字符的限制(正如指出的那样)。第一个链接显示了一个假定的解决方案。

我被堵住了

即使我应用了周旋 (每次迭代初始化翻译器),它也不起作用,我得到了以下错误:

代码语言:javascript
复制
json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

我尝试使用代理和其他谷歌翻译URL:

代码语言:javascript
复制
URLS = ['translate.google.com', 'translate.google.co.kr', 'translate.google.ac', 'translate.google.ad', 'translate.google.ae', ...]

proxies = {    'http': '1.243.64.63:48730',   'https': '59.11.98.253:42645', }

t = Translator(service_urls=URLS, proxies=proxies)

但这并没有改变什么。

备注

我的问题可能来自这样一个事实:我正在使用多线程: 100名工作人员来翻译整个数据集。如果它们并行工作,也许它们一起使用超过15k个字符。

但我应该用多线程。如果我不这么做,需要几周的时间来翻译整个数据集.

我的问题

如何纠正这个错误,以便翻译所有的句子?

如果不可能的话,有什么免费的选择吗?对于这样一个大的数据集?,是否可以获得机器翻译(而不是强制使用Google翻译)?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-26 18:33:42

一百万个字符几乎是要翻译的文本。

目前,Google V3提供了一个您可能想要使用的自由等级配额 (每月免费提供15万个字符)。由于它似乎还不够您的用例,您可能需要创建多个账单帐户或等待一个月来翻译更多的文本。

检查此链接,了解如何使用python执行文本翻译。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53075240

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档