首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从html文件中解析word

从html文件中解析word
EN

Stack Overflow用户
提问于 2013-12-03 05:12:46
回答 4查看 170关注 0票数 0

我在尝试从html文件中提取一个单词时遇到了很多问题。html文件中的行如下所示:

代码语言:javascript
复制
<span id="result">WORD</span>

我正试着把这个词说出来,但我弄不明白。到目前为止,我得到了:

代码语言:javascript
复制
 grep 'span id="result"' FILE 

这就是我的底线。我也尝试过:

代码语言:javascript
复制
sed -n '/<span id="result">/,/<\/span>/p' FILE

这也不管用。我知道这可能是一个非常简单的问题,但我才刚刚开始,所以我真的需要一些帮助。

EN

回答 4

Stack Overflow用户

发布于 2013-12-03 05:59:54

不要使用正则表达式来解析html。

使用html解析器。

我的Xidel对此有最短的语法:

代码语言:javascript
复制
xidel FILE -e "#result"
票数 2
EN

Stack Overflow用户

发布于 2013-12-03 15:00:26

这是awk的任务

我猜你在相同的文件中还有其他行,所以搜索span id是必须的。

代码语言:javascript
复制
echo "<span id="result">WORD</span>" | awk -F"[<>]" '/span id/ {print $3}'
WORD
票数 1
EN

Stack Overflow用户

发布于 2013-12-03 18:57:11

你可以试试

代码语言:javascript
复制
awk -f ext.awk input.html

其中input.html是您的输入html文件,而ext.awk

代码语言:javascript
复制
{
    line=line $0 RS
}

END {
    match (line,/<span id="result">([^<]*)<\/span>/,a)
    print a[1]
}

这将跨换行符提取内容。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/20337936

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档