我有一个带有句子和标签的文件样本。怎样才能把它分成句子和标签?
一部非常、非常、非常缓慢、漫无目的的电影,讲的是一个忧愁的、漂泊不定的年轻人。0
不知道是谁更迷失了方向--平庸的角色还是观众,其中将近一半的人走了出去。0
试图与黑白和聪明的相机角度的艺术,电影失望-变得更加荒谬-因为演技很差,情节和线条几乎不存在。0
很少的音乐或任何东西。0
输出
句子列表:
“一部非常、非常、非常缓慢、漫无目的的电影,讲述的是一个忧愁的、漂泊不定的年轻人”,“不知道谁更迷失了--平庸的角色还是观众,其中几乎有一半人离开了。”
相应标签:
'0','0‘
发布于 2017-11-24 05:55:35
假设最后一个“.”(点)后面的数字是标签
对于给定的示例,当存储在文件“yourdata.txt”中时,下面的代码应该生成2个列表sentence_list和label_list。您可以将这些列表中的数据分别写入文件,然后根据您的请求。
fmov=open('yourdata.txt','r')
sentence_list=[]
label_list=[]
for f in fmov.readlines():
lineinfo=f.split('.')
sentenceline=".".join(lineinfo[0:-1])
sentence_list.append(sentenceline)
label_list.append(str(lineinfo[-1]).replace('\n',''))
print(sentence_list)
print(label_list)
OUT:
['A very, very, very slow-moving, aimless movie about a distressed, drifting young man', 'Not sure who was more lost - the flat characters or the audience, nearly half of whom walked out', 'Attempting artiness with black & white and clever camera angles, the movie disappointed - became even more ridiculous - as the acting was poor and the plot and lines almost non-existent', 'Very little music or anything to speak of']
[' 0', ' 0', ' 0', ' 0']发布于 2017-11-24 05:49:22
“0”是标签吗?如果只有一个句子,您可以使用句点作为分隔符来执行string.split('.')。不过,如果你有一个类似于“先生”的句子,这可能会发现一些错误。或者“夫人”因此,您可能需要添加一些if语句来处理这些问题。
https://stackoverflow.com/questions/47466917
复制相似问题