首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >删除HTML MarkUp

删除HTML MarkUp
EN

Stack Overflow用户
提问于 2015-03-15 02:41:51
回答 1查看 102关注 0票数 0

我正在自动化python类的标记过程。但是,当我在线下载提交的文件时,它们包含了学生可能无意中提交了解决方案的html标记,例如:

代码语言:javascript
复制
<!DOCTYPE html><html><head><meta charset="UTF-8"></head><body><p><span style="font-family:'courier new', courier, monospace;">print("Bob and Bill Tiling Solutions Inc.")</span></p>
<p><span style="font-family:'courier new', courier, monospace;">h=int(input("Height   (m):"))</span></p>
<p><span style="font-family:'courier new', courier, monospace;">w=int(input("Width    (m):"))</span></p>
<p><span style="font-family:'courier new', courier, monospace;">p=int(input("Cost ($/m^2):"))</span></p>
<p><span style="font-family:'courier new', courier, monospace;">print("The total cost for this job: $" + str(h*w*p+20))</span></p>
<p> </p></body></html>

我是否可以批量删除标记,这样剩下的就是:

代码语言:javascript
复制
print("Bob and Bill Tiling Solutions Inc.")
h=int(input("Height   (m):"))
w=int(input("Width    (m):"))
p=int(input("Cost ($/m^2):"))
print("The total cost for this job: $" + str(h*w*p+20))

如果有第三方实用程序这样做,我会很高兴下载它。

我尝试通过findstr使用正则表达式,但没有效果(我的搜索字符串是"<[^>]*>",但我不知道如何使用findstr删除文本文件中的所有结果)

欢迎任何建议。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-03-15 04:46:31

下面是一个SED脚本(我使用GNUSED),它是我从Eric的SED一行程序中改编的:

集束线

代码语言:javascript
复制
sed -f dehtml.sed yourfilename

文件dehtml.sed

代码语言:javascript
复制
:a
s/<[^>]*>//g;/</N;//ba
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29056666

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档