文章/答案/技术大牛

发布

社区首页 >问答首页 >如何将翻译语料库放入不同的文件中

问如何将翻译语料库放入不同的文件中
EN

Stack Overflow用户

提问于 2017-03-28 16:46:39

回答 1查看 22关注 0票数 0

我想处理一个单行翻译语料库。

JST_JC_ENVI-abst-06A0281759-par1-sen1连C&D管理施設の高度化_ENVI管理设施的高度化JST_JC_ENVI-abst-06A0281759-par1-Sen2连メーンのポートランドはRiversideリサイクリング施設(RRF)を所有しているが，建設及び解体(C&D)ごみの埋立地に立地している。缅因州的波特兰拥有Riverside循环使用设施，但其却位置选定于建设及解体(C&D)垃圾的填埋地.JST_JC_ENVI-abst-06A0281759-par1-sen3-sen3连この施設はかさばる廃棄物，住民の出す葉やC&Dごみを受け入れているが，その最近の作業状況を紹介した。该设施接受体积大的废弃物、居民投弃的叶子或C&D垃圾，本文介绍了该设施最近的作业情况.

中文和日文以前缀JST_JC_ENVI-abstXXXXXXXX字符串开头，由|||拆分。

那么，我的问题是，如何删除所有相同的前缀"JST_JC_ENVI-abstXXXXXXXX“字符串，并将中文输出到chinese.txt中的行，将日语输出到japanese.txt中的行？

谢谢。

python

corpus

回答 1

Stack Overflow用户

发布于 2017-03-29 07:38:48

首先，处理线条和分裂的空间。

# -*- coding: utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

infile=open('dev.txt','r')
outfile1 =open('dev-mid.txt','w')
lines = infile.read()
i = lines.split()
for e in i:
    outfile1.write(e+'\n')

然后，使用WORD删除dev-mid.txt中的空格和相同的前缀字符串。

最后，

    import os


    infile=open('dev-mid.txt','r')
    outfile1 =open('dev-in.txt','w')
    outfile2 =open('dev-out.txt','w')

    i=1

    for line in infile.readlines():
        if i%2==1:
    ##        print(line)
            outfile1.write(line)
            i+=1
        else:
            i+=1
    ##        print(line)
            outfile2.write(line)
    infile.close()
    outfile1.close()
    outfile2.close()

处理奇数行。dev- is .dev是日语，dev-out.txt是中文：-D。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43075344

复制

相似问题

问如何将翻译语料库放入不同的文件中
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将翻译语料库放入不同的文件中EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将翻译语料库放入不同的文件中
EN