文章/答案/技术大牛

发布

社区首页 >问答首页 >HTML中的文本过滤器和打印解析过滤器

问HTML中的文本过滤器和打印解析过滤器
EN

Stack Overflow用户

提问于 2011-11-05 05:18:48

回答 2查看 125关注 0票数 0

我有一个OPML文件，我想要解析链接和名称，以便创建一个HTML格式的列表。

<outline text="Wired Features" type="rss" xmlUrl="http://downloads.wired.com/podcasts/xml/features.xml?_kip_ipx=1854665749-1310493405" htmlUrl="http://www.wired.com" />
<outline text="ArcSight Podcasts" type="rss" xmlUrl="http://www.arcsight.com/podcasts/itunes/" htmlUrl="http://www.arcsight.com" />

使用SED或类似的东西，我希望打印相应的HTML输出中的项目，即

<a href="http://downloads.wired.com/podcasts/xml/features.xml?_kip_ipx=1854665749-1310493405" title="http://www.wired.com">Wired Features</a>

awk

regex

sed

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-11-05 05:34:10

perl -nle'
  ($text)  = /text="(.*?)"/   ;
  ($url)   = /xmlUrl=(".*?")/ ;
  ($title) = /htmlUrl=(".*?")/;
  /./ and printf "<a href=%s title=%s>%s</a>\n",
     $url, $title, $text; 
  ' infile

假设在感兴趣的部分中没有嵌入换行符。

使用XMLgawk

xgawk -lxml 'XMLSTARTELEM  {
  printf "<a href=%s title=>%s>%s</a>\n",
    q XMLATTR["xmlUrl"] q, q XMLATTR["htmlUrl"] q, XMLATTR["text"]
  }' q=\" infile

编辑: Perl解决方案可以用一个正则表达式重写：

perl -nle'
  /text="(.*?)".*xmlUrl=(".*?").*htmlUrl=(".*?")/
    and printf "<a href=%s title=%s>%s</a>\n",
     $2, $3, $1; 
  ' infile

票数 2

Stack Overflow用户

发布于 2011-11-05 06:57:43

这个sed解决方案可能会起作用：

sed 's/^<outline text="\([^"]*\)" type="rss" xmlUrl=\("[^"]*"\) htmlUrl=\("[^"]*"\) \/>/<a href=\2 title=\3>\1<\/a>/' input_file

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8015858

复制

相似问题

问HTML中的文本过滤器和打印解析过滤器
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HTML中的文本过滤器和打印解析过滤器EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HTML中的文本过滤器和打印解析过滤器
EN