摁F12或者鼠标右键选择Inspect in FirePath火狐浏览器会弹出查看元素界面: ? FirePath那个标签,上图已经看到账号栏的xPath了,只需要点击XPath后面那个小三角,就可以切换成css(就是css_selector)的定位方式了: ? 所以呢,以后再定位的时候基本上不用思考,直接用FirePath这个工具就可以了。
安装后重启,有一个小蜜蜂图标点,我经常拿它来定位页面元素(和ie、gc开发者工具定位一样的效果),这样可以清晰的看到某个元素的id,class等等(gc的开发者工具也可以看绝对路径,但是不方便)结合着firepath 下载地址:https://addons.mozilla.org/en-us/firefox/addon/firepath/ 安装后重启,再次打开,在firebug窗口下就能看到 2 WebDriver
1.1 XPath工具安装 为了提高抓取元素XPath的,我推荐在Firefox上安装一个firepath的插件,这个插件,可以帮我们快速获取网页元素的XPath表达式。 1. 重复步骤3和4,搜索和安装FirePath。 5. 安装好了之后,会在火狐浏览器右上角显示一个虫子的图标。 1.2 XPath工具简单使用 我们用定位百度首页的搜索输入框这个元素定位来演示。 右键鼠标,选Inspect in FirePath 4. 这里用火狐浏览器百度首页的一个单选按钮来举例; 火狐浏览器上firepath给出的推荐表达式是: 这里推荐的XPath是根据目标元素节点中id信息来定位的,这个通过id就能定位,当然好。 我们在本书的第一章中介绍的 Firebug 前端调试工具和 FirePath 插件可以方便的辅助 XPath 语法。
用Selenium的朋友一般都大量的需要使用Xpath、CSS定位器,一般的选择都是Firefox下的Firepath插件,该插件提供了提取和自己编写校验的功能,使用非常方便。 虽然提取出来的定位还是比较啰嗦,但是在Chrome上有这样一款可以提取&检查定位写法的工具,让我慢慢的就淡忘了FirePath了,也希望在做自动化的朋友和我一样沉浸在Chrome上的喜欢这款插件。
1.1 XPath工具安装 为了提高抓取元素XPath的,我推荐在Firefox上安装一个firepath的插件,这个插件,可以帮我们快速获取网页元素的XPath表达式。 1. 重复步骤3和4,搜索和安装FirePath。 5. 安装好了之后,会在火狐浏览器右上角显示一个虫子的图标。 1.2 XPath工具简单使用 我们用定位百度首页的搜索输入框这个元素定位来演示。 右键鼠标,选Inspect in FirePath 4. 这里用火狐浏览器百度首页的一个单选按钮来举例; 火狐浏览器上firepath给出的推荐表达式是: 这里推荐的XPath是根据目标元素节点中id信息来定位的,这个通过id就能定位,当然好。 我们在本书的第一章中介绍的 Firebug 前端调试工具和 FirePath 插件可以方便的辅助 XPath 语法。
需要加载两个插件:firebug、firePath。自己搜索一下,就能下载得到。 ? 右键:“使用Firebug查看元素”, 点击“FirePath” 点击原页面的“加载页面”,Xpath就会显示出来了。 ?
//tbody[contains(@id,'normalthread')]/tr/th/a[3] 如图所示:使用Firefox+FirePath进行调试定位。 //span[@id='fd_page_bottom']/div//a[not(@class)]//@href 如图所示:使用Firefox+FirePath进行调试定位。
使用FireFox中的Firepath或Chrome中的InspectElement(F12)检查定位元素; 检查代码中使用的值与Firepath中元素的值是否相同; 有些元素的属性动态的;如果发现值不同
下面的代码可以帮助我们获得每一个课程div scrapy 支持使用Xpath网页元素定位器 想抓取哪个数据,可以用xpath定位它的位置,下面介绍几个实用的插件: 使用火狐浏览器,安装两个扩展插件Firebug和FirePath 接下来可以用FirePath 调试你的xpath表达式,方法是: 打开目标网页,在任意位置右键,选择“Inspect in FirePath ”,结果如下: ? 写好xpath表达式后,可以放到FirePath里调试,比如 response.xpath('. //div[@class="course-card-container"] xpath表达式copy放到FirePath里,按回车,结果如下: ? 这样我们就获取到了页面里面课程的标题~,这个xpath表达式就可以放到scprapy爬虫里面啦~ 其他的网页数据的定位也是类似操作:通过Firebug查看目标数据的源码,通过FirePath 调试xpath
例如使用Firefox的Firebug、FirePath插件查找定位元素。
选择附加组件,搜索下载FirePath和Firebug ?
selenium-standalone-server.jar文件,这里最新3.7.1版本 - 提前安装好火狐和谷歌浏览器,建议谷歌最新,火狐下载最新esr版本 - 火狐esr版本上安装firebug 和firepath
6.web自动化软件 火狐浏览器:FirefoxSetup 火狐浏览器插件:firepath-0.9.7-fx.xpi、firebug-2.0.19.xpi 谷歌浏览器:ChromeStandalone
---- 2.2 常用8种元素定位(Firebug和firepath) 前言:元素定位在firefox上可以安装Firebug和firepath辅助工具进行元素定位。 2.2.1 环境准备 1.浏览器选择:Firefox 2.安装插件:Firebug和FirePath(设置》附加组件》搜索:输入插件名称》下载安装后重启浏览器) 3.安装完成后,页面右上角有个小爬虫图标 3.按照上图的步骤,在FirePath插件里copy对应的xpath地址。 ? 这里先学会如何用工具查看,后续的教程再深入讲解 2.打开FirePath插件选择css 3.定位到后如下图红色区域显示 ?
本篇手把手教大家如何爬取网站上的图片,并保存到本地电脑 一、目标网站 1.随便打开一个风景图的网站:http://699pic.com/sousuo-218808-13-1.html 2.用firebug定位,打开firepath
我们用箭头所指工具点击要查看的元素后,在FirePath选项卡下,方框所示的位置会有"iframe.editor"或者"iframe"的提示,这时候我们就可以确定——这是一个iframe。
打开Firefox后,开启FirePath,选择CSS对元素进行定位。 搜索框页面源代码: 脚本代码: #! XPath语法: 绝对路径写法(只有一种),写法如下: 引用页面上的form元素(即源码中的第3行):/html/body/form[1] 注意: 1.元素的XPath绝对路径可通过Firefox的FirePath 打开Firefox后,开启FirePath,选择XPath对元素进行定位。 搜索框页面源代码: 脚本代码: #!
如果,还不会通过火狐浏览器上插件firepath获取元素的表达式,请看上一篇文章。如果你没有安装Chrome,那就用Firefox。
driver.find_element_by_class_name("s_ipt").send_keys("3") 还有常用的就是通过标签的路径进行定位,常用的路径定位就是xpath ---- 浏览器的很多插件都可以提供xpath和css定位的方式 比如 常见的 firepath
例如: 这里要定位百度首页下更多产品里面的糯米span,默认firepath的提取很复杂,可以通过name属性来辅助定位 这样就可以把定位写的很简单,但是并不是所有时候都有name和id属性的,用xpath