首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >获取文本的标题

获取文本的标题
EN

Stack Overflow用户
提问于 2015-11-23 23:01:34
回答 1查看 63关注 0票数 1

我试图用下面的代码来获得一些文本的标题:

代码语言:javascript
复制
for line in content:
    title = re.search('^Title:(.*)$',line)
    if title:
        return(title.group(1))

对于这些文本

DOCA.TXT:

标题:布朗语料库:A部分

但/抄送铁/nn射击/nn/pps使用/vbd/接近/vb/在绿色/nn偏离/vbd进入/在一个/在掩体/nn和/cc/vbd在/jj抑郁症/nn ./。

结束

DOCB.TXT:

标题:棕色语料库

今天美国英语的布朗大学标准语料库(或者仅仅是布朗语料库)是被编成的.

有些方法我只能得到DOCB.TXT的标题,而不是DOCA.TXT (它显示了“无”)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-11-23 23:08:58

下面的内容适用于我,也许您需要在十六进制编辑器中查看您的文件--可能是行尾问题或unicode字节顺序标记,如果您没有告诉Python如何打开该文件来处理的话。

代码语言:javascript
复制
#!python3.4
import re

for fn in ('a.txt','b.txt'):
    with open(fn) as fin:
        for line in fin.readlines():
            title = re.search('^Title:(.*)$',line)
            if title:
                print(title.group(1))

要用BOM文件打开UTF-16,可以使用以下内容:open(fn,encoding='utf-16')

当然,这不适用于asciiiso8859-1utf-8编码的文件,因此您需要确保所有文本文件都在相同的编码中,或者为每个文本文件选择正确的编码。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33882402

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档