首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何检测HTML页面中的不同数据类型?

如何检测HTML页面中的不同数据类型?
EN

Stack Overflow用户
提问于 2011-04-09 09:48:40
回答 2查看 203关注 0票数 1

使用Java工具DOM API、regexp等检测html页面中的数据类型的最佳方法是什么?我想要像skype插件一样检测电话/skype号码的类型,类似于地址,电子邮件,时间等。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-04-09 10:07:33

“类型”这个词不适合用来描述你所指的那种信息。DOM API或regex的选择取决于页面中的信息结构。

如果您了解其结构(例如,用于显示信息的表,您已经知道可以从哪个单元格查找电话号码和电子邮件地址),那么使用DOM是有意义的。

否则,您应该在纯HTML文本上使用regex,而不对其进行解析。

票数 2
EN

Stack Overflow用户

发布于 2011-04-09 12:20:06

我将按以下顺序使用正则表达式:

  1. 仅提取正文内容
  2. 移除所有标记以仅保留纯文本
  3. 匹配文本中的相关模式

当然,这假设标记不提供提示,并且您只是提取数据,而不是修改页面上下文。

希望这能帮上忙

菲尔·莱洛

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5602376

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档