文章/答案/技术大牛

发布

社区首页 >问答首页 >超链接和链接文本提取

问超链接和链接文本提取
EN

Stack Overflow用户

提问于 2022-09-21 16:39:09

回答 1查看 36关注 0票数 0

嗨，我正在尝试提取超链接和链接文本

HTML

<tr valign="top">
    <td class="beginner">
      B03&nbsp;&nbsp;
    </td>
    <td>
        <a href="http://www.drawspace.com/lessons/b03/simple-symmetry">Simple Symmetry</a>  </td>
</tr>

<tr valign="top">
  <td class="beginner">
    B04&nbsp;&nbsp;
  </td>
  <td>
      <a href="http://www.drawspace.com/lessons/b04/faces-and-a-vase">Faces and a Vase</a> </td>
</tr>

<tr valign="top">
    <td class="beginner">
      B05&nbsp;&nbsp;
    </td>
    <td>
      <a href="http://www.drawspace.com/lessons/b05/blind-contour-drawing">Blind Contour Drawing</a> </td>
</tr>

<tr valign="top">
    <td class="beginner">
        B06&nbsp;&nbsp;
    </td>
    <td>
      <a href="http://www.drawspace.com/lessons/b06/seeing-values">Seeing Values</a> </td>
</tr>

代码

sed -n 's/.*href="\([^"]*\).*/\1/p' file
http://www.drawspace.com/lessons/b03/simple-symmetry
http://www.drawspace.com/lessons/b04/faces-and-a-vase
http://www.drawspace.com/lessons/b05/blind-contour-drawing
http://www.drawspace.com/lessons/b06/seeing-values

所需

http://www.drawspace.com/lessons/b03/simple-symmetry Simple Symmetry
http://www.drawspace.com/lessons/b04/faces-and-a-vase Faces and a Vase
http://www.drawspace.com/lessons/b05/blind-contour-drawing Blind Contour Drawing
http://www.drawspace.com/lessons/b06/seeing-values Seeing Values

regex

sed

grep

回答 1

Stack Overflow用户

发布于 2022-09-21 16:46:54

第一种解决方案：和您的示例一起，请尝试遵循awk代码。用GNU awk编写和测试。简单的解释是将RS设置为<a href="[^"]*">[^<]* regex，并在主程序中检查RT是否为NULL，并使用split将其值拆分为>或"的删除器，如果满足所有条件，则根据需要输出数组arr的第2和第4值。

awk -v RS='<a href="[^"]*">[^<]*' '
RT && split(RT,arr,"[>\"]"){
  print arr[2],arr[4]
}
'  Input_file

第二个解决方案：使用sed和它的-E选项(为了启用ERE，扩展正则表达式)请尝试下面的代码。使用-n选项来停止sed对行的默认写入。然后在主程序中使用s选项进行替换操作。这里我提到的是[[:space:]]+<a href="([^"]*)">([^<]*).*正则表达式，它将创建两个捕获组，我们将从其中替换完全匹配的文本，然后根据需要使用p选项打印匹配的部分。

sed -E -n 's/[[:space:]]+<a href="([^"]*)">([^<]*).*/\1 \2/p' Input_file

第三种解决方案：使用GNU awk的match函数，其中提到regex并创建2个捕获组来获取所需的值。

awk '
match($0,/^[[:space:]]+<a href="([^"]*)">([^<]*)/,arr){
  print arr[1],arr[2]
}
'  Input_file

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73804286

复制

相似问题

问超链接和链接文本提取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问超链接和链接文本提取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问超链接和链接文本提取
EN