我正试图通过R浏览心理治疗师的个人资料。
我的目标是获得治疗师的电子邮件,这是一个链接显示。页面的一个示例:http://academyofct.site-ym.com/members/?id=44410428
浏览器将这段代码显示为:
<a href="mailto:abonfil@cogbtherapy.com">abonfil@cogbtherapy.com</a>但是当我下载用于解析和获取电子邮件的页面(通过Ctrl+S)时,这部分代码将从html文件中消失。
谁能解释一下,有什么问题吗?我怎样才能得到一个完整的网页,以摘录电子邮件?
谢谢!
发布于 2017-06-20 21:35:18
该元素是从客户端JavaScript添加到DOM中的;请参见源代码的以下部分:
<script language="JavaScript"><!--
var strEmail = CharShiftDecrypt('ghutlor@iumhznkxgvE.ius', 6, 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ123456789');
document.write('<a href="mailto:'+ strEmail + '">'+ strEmail + '</a><br>');
//--></script>获得该内容的唯一方法是首先以浏览器的方式执行JavaScript。因此,除非您使用的是执行该JavaScript的处理器,否则您将无法擦除它。
您需要做的是要么使用Selenium和/或WebDriver,要么使用基于PhantomJS或类似的东西。这些都会导致运行无头浏览器引擎,该引擎执行JavaScript,并为您提供在浏览器中自己导航到站点时获得的相同DOM。
下面是一些关于一些可用选项的指南:
https://stackoverflow.com/questions/44660344
复制相似问题