我想处理一个单行翻译语料库。
JST_JC_ENVI-abst-06A0281759-par1-sen1连C&D管理施設の高度化_ENVI管理设施的高度化JST_JC_ENVI-abst-06A0281759-par1-Sen2连メーンのポートランドはRiversideリサイクリング施設(RRF)を所有しているが,建設及び解体(C&D)ごみの埋立地に立地している。缅因州的波特兰拥有Riverside循环使用设施,但其却位置选定于建设及解体(C&D)垃圾的填埋地.JST_JC_ENVI-abst-06A0281759-par1-sen3-sen3连この施設はかさばる廃棄物,住民の出す葉やC&Dごみを受け入れているが,その最近の作業状況を紹介した。该设施接受体积大的废弃物、居民投弃的叶子或C&D垃圾,本文介绍了该设施最近的作业情况.
中文和日文以前缀JST_JC_ENVI-abstXXXXXXXX字符串开头,由|||拆分。
那么,我的问题是,如何删除所有相同的前缀"JST_JC_ENVI-abstXXXXXXXX“字符串,并将中文输出到chinese.txt中的行,将日语输出到japanese.txt中的行?
谢谢。
发布于 2017-03-29 07:38:48
首先,处理线条和分裂的空间。
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
infile=open('dev.txt','r')
outfile1 =open('dev-mid.txt','w')
lines = infile.read()
i = lines.split()
for e in i:
outfile1.write(e+'\n')然后,使用WORD删除dev-mid.txt中的空格和相同的前缀字符串。
最后,
import os
infile=open('dev-mid.txt','r')
outfile1 =open('dev-in.txt','w')
outfile2 =open('dev-out.txt','w')
i=1
for line in infile.readlines():
if i%2==1:
## print(line)
outfile1.write(line)
i+=1
else:
i+=1
## print(line)
outfile2.write(line)
infile.close()
outfile1.close()
outfile2.close()处理奇数行。dev- is .dev是日语,dev-out.txt是中文:-D。
https://stackoverflow.com/questions/43075344
复制相似问题