首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Google Colab段落删除

Google Colab段落删除
EN

Stack Overflow用户
提问于 2020-08-25 22:35:09
回答 2查看 54关注 0票数 2

我需要帮助从这个文本文件(https://www.gutenberg.org/files/768/768.txt)删除谷歌Colab的段落。我需要的文本文件开始后“ccx074@pglaf.org”,并结束前“项目古腾堡电子书呼啸山庄的结束,以便有一个准确的总数的字数。下面列出了我到目前为止所拥有的代码。

代码语言:javascript
复制
# download and installing pyspark in colab
!pip install -q pyspark

# download Wuthering Heights, by Emily Bronte
!wget -q https://www.gutenberg.org/files/768/768.txt

import os.path
baseDir = os.path.join('data')
inputPath = os.path.join('/content/768.txt')
fileName = os.path.join(baseDir, inputPath)
with open('/content/768.txt','r') as f:
print(f.read())
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-08-25 22:42:26

只需在找到要查找的文本的位置对字符串进行分割即可。

代码语言:javascript
复制
!wget -q https://www.gutenberg.org/files/768/768.txt
import os.path
baseDir = os.path.join('data')
inputPath = os.path.join('768.txt')
fileName = os.path.join(baseDir, inputPath)
with open('768.txt','r') as f:
    text = f.read()
    
#GET START LOC
start_loc = text.find("ccx074@pglaf.org") + len("ccx074@pglaf.org")
#GET END LOC
end_loc = text[start_loc:].find("***")
#SLICE THE TEXT STRING AND THE INDEXES 
text[start_loc:start_loc+end_loc].replace("\n","")
票数 1
EN

Stack Overflow用户

发布于 2020-08-25 22:53:38

您可以使用正则表达式提取两个字符串之间的文本:

代码语言:javascript
复制
import re
text = open('768.txt','r').read()

start = "ccx074@pglaf.org"
end = "END OF THE PROJECT GUTENBERG EBOOK WUTHERING HEIGHTS"

m = re.search(f'{start}(?s)(.*){end}', text)
print(m.group(1))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63581223

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档