我一直在尝试使用正则表达式提取数据时遇到问题,而我的结果并不是我想要的结果,因为字符串中可能有一些换行符、空格、html标记等,但无论如何,调试器似乎只显示真正的文本。你是怎么处理这个问题的?
发布于 2010-02-18 14:42:57
如果字符串的内容是HTML,那么调试器会让您选择查看"HTML“或"Source”。源代码应该显示那里的任何HTML标记。
但是,如果您关心的是空白,这可能还不够。你唯一的选择就是在原始页面上“查看源代码”。
最好的做法是在您的regex中显式地处理这些可能性。例如,如果您认为目标字符串中可能出现空格,请在关键位置使用\s*模式。这将匹配零个或多个空格、制表符和新行(对于新行,您还必须在regex面板中选中"s“选项)。
但是,如果没有源文本和您正在使用的正则表达式的具体示例,建议只能是通用的。
发布于 2010-02-17 23:31:40
我所做的是使用正则表达式测试器(无论哪一个使用与您使用的相同的正则表达式引擎),并在其上测试我的模式。我试过使用文本编辑器来显示看不见的字符,但对我来说,它们只会增加混乱。
因此,我只是通过反复试验。例如,如果一行结束于:
</a>然后,我将在regex测试器上尝试以下模式,直到找到一个可以工作的模式:
</a>.
</a>..
</a>\s
</a>\s*
</a>\n
</a>\r
</a>\r\n等。
https://stackoverflow.com/questions/2281146
复制相似问题