使用Java工具DOM API、regexp等检测html页面中的数据类型的最佳方法是什么?我想要像skype插件一样检测电话/skype号码的类型,类似于地址,电子邮件,时间等。
发布于 2011-04-09 10:07:33
“类型”这个词不适合用来描述你所指的那种信息。DOM API或regex的选择取决于页面中的信息结构。
如果您了解其结构(例如,用于显示信息的表,您已经知道可以从哪个单元格查找电话号码和电子邮件地址),那么使用DOM是有意义的。
否则,您应该在纯HTML文本上使用regex,而不对其进行解析。
发布于 2011-04-09 12:20:06
我将按以下顺序使用正则表达式:
当然,这假设标记不提供提示,并且您只是提取数据,而不是修改页面上下文。
希望这能帮上忙
菲尔·莱洛
https://stackoverflow.com/questions/5602376
复制相似问题