首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何用regex html去掉行空白转成纯文本?

如何用regex html去掉行空白转成纯文本?
EN

Stack Overflow用户
提问于 2016-01-31 12:31:06
回答 2查看 107关注 0票数 3

我使用正则表达式将html转换为纯文本。

你能帮我用正则表达式删除行空格吗?

我的html:

代码语言:javascript
复制
<div class="short-description">
<div class="short-description">
<div class="short-description">
<div class="short-description">
<div class="short-description">
<div class="short-description">
<div class="short-description">
<div class="short-description">
<div class="short-description">
<ul style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana; color: #000000; font-size: 13px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: 1; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: #ffffff;">
<li style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana !important;">Processor: Intel® Xeon® E5-2403 1.80GHz, 10M Cache, 6.4GT/s QPI, No Turbo, 4C, 80W, Max Mem 1066MHz</li>
<li style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana !important;">Memory:&nbsp; 8GB (4x2GB) 1333MHz, Single Ranked LV RDIMMs up to 16GB</li>
<li style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana !important;">Hard Drive: 1TB 7.2K RPM NL SAS 3.5-inch Hot Plug</li>
<li style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana !important;">Storage Controller: H310 raid controller Support RAID 0, 1, 5, 10</li>
<li style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana !important;">File Access Protocols: CIFS, NFS, FTP, SMB3.0, SMB Direct (RDMA)</li>
<li style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana !important;">Internal Drive Support: 4 x 3.5" hot-plug drive bays</li>
<li style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana !important;">Power: 1 x 550W Power Supply (redundant)</li>
<li style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana !important;">OS: Window Storage 2008 Workgroup R2 Edition</li>
<li style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana !important;">Form Factor 1U rack mount system</li>
<li style="margin: 0px; padding: 0px; font-family: Tahoma, Verdana !important;">Warranty: 3 Year ProSupport and NBD On-site Service</li>
</ul>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
                            </div>

和我的正则表达式:

代码语言:javascript
复制
Regex.Replace(Model.MetaDescription, @"<(.|\n)*?>","")

此结果(图像):Result regex.replace

如下图所示的Result regex.replace

EN

回答 2

Stack Overflow用户

发布于 2016-01-31 12:42:13

正如它提到的here,您可以使用免费的开源HtmlAgilityPack。检查sample

是一种将HTML转换为纯文本的方法。

var plainText = ConvertToPlainText(string html);

输入一个HTML字符串,如下所示

你好,世界!是我!!您将得到一个纯文本结果,如下所示:

你好,世界!是我!

票数 1
EN

Stack Overflow用户

发布于 2016-01-31 12:43:55

如果我理解这个问题,您想要删除尖括号<>之间的所有内容并删除换行符,然后尝试这个正则表达式

代码语言:javascript
复制
@"<[^>]*>|\n"

但是,正如Alex Jolig建议的那样,使用HTML Agility Pack。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35110358

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档