首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于升华文本的文本抽取

基于升华文本的文本抽取
EN

Stack Overflow用户
提问于 2014-04-12 03:15:32
回答 1查看 10K关注 0票数 2

假设我有一个包含以下片段的表单:

代码语言:javascript
复制
<div class="form-control-group">
  <label class="control-label" for="FirstName">First Name</label>
  <div class="controls">
    <input id="FirstName" name="FirstName" type="text" class="input-xlarge" required="">

  </div>
</div>

<div class="form-control-group">
  <label class="control-label" for="LastName">Last Name</label>
  <div class="controls">
    <input id="LastName" name="LastName" type="text" class="input-xlarge" required="">

  </div>
</div>

我想将字段名解压缩到一个文件中,这样我的文件看起来就像

代码语言:javascript
复制
FirstName
LastName

有没有办法用ST3做到这一点?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-04-12 05:24:47

尝试在html中使用正则表达式可能是一件很痛苦的事情--很多人一想到它就会退缩;有些人甚至会嘲笑你尝试了它,然后把你带到infamous question。然而,这并不是说它不能做到,因为它肯定可以做到。它真正需要的是努力理解为什么html是不可预测的,以及您如何才能驯服它。从事物的外观看,你甚至还没有触及表面,甚至可能还没有呼吸到它。幸运的是,今天当宇宙对齐的时候,我碰巧从html中提取了字段名,同时偶然发现了你的悲哀。

模式:

代码语言:javascript
复制
<.*>|\n.*\s.*\sid="(\w*)".*\n+|.*>\n|\n.+

替换:

代码语言:javascript
复制
$1

结果:

代码语言:javascript
复制
FirstName
LastName

除非您花时间理解这个有点简单的模式背后的全部复杂性,否则您可能永远不会理解为什么要学习它所做的事情。简而言之,该模式找到输入的名称并将其放入一个组($1)。它的其余部分处理了在html上使用正则表达式的所有不可预测性(查找<>、回车符\n、空格\s和其他你不想要的东西)。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23020856

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档