首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >打开xml文件,在其中找到url,打开链接并搜索value - python lxml

打开xml文件,在其中找到url,打开链接并搜索value - python lxml
EN

Stack Overflow用户
提问于 2013-07-11 21:50:26
回答 2查看 783关注 0票数 0

我正在用lxml打开一个xml文件,并且在保存到一个新的xml文件之前已经做了很多编辑,所有这些都工作得很好。在我打开的xml中,我有一个链接到网页的url。在网页中有一些我想要记录并在我的开放xml中使用的值。我已经找过了,但找不到从哪里开始。

致以亲切的问候。

更新-

我正在使用下面的代码从我的xml中显示url,这是有效的。然后,我可以将所有页面读取到data变量中,它可以很好地打印:

代码语言:javascript
复制
url = tree.find("//video/products/product/read_only_info/read_only_value[@key='storeURL-GB']")
if url is not None:
    url = url.text
    data = urllib2.urlopen(url)
    data = data.read()
    print data

如何找到隐藏在网页中的特定字符串,下面是我想要获取的一段网页数据:

代码语言:javascript
复制
<div id="content">

  <div class="padder">

    <div id="title" class="intro">
      <div class="left">
        <h1>This is the title</h1>
        &nbsp;&nbsp;<span rating-system="bbfc" rating-id="37" class="content-rating">15</span>
        <h2>this is more text</h2>
      </div>
      <div class="right">
        <a href="https://rthuere.erwerwer.ghty4e.fdfsdf.com" class="view-more">View More In Sci-Fi &amp; Fantasy</a>

      </div>

我需要获取“在科幻和幻想中查看更多”的值或其他任何值。

致以亲切的问候。

EN

回答 2

Stack Overflow用户

发布于 2013-07-12 00:18:00

如果想要获取所有a节点的文本,可以使用Beautifulsoup

代码语言:javascript
复制
soup = BeautifulSoup(html_page)
for link in soup.findAll('a'):
    print link.text

这回答了你的问题吗?

票数 0
EN

Stack Overflow用户

发布于 2013-07-12 14:27:12

我正在使用下面的代码打开并搜索特定的文本,这是有效的。

代码语言:javascript
复制
data = urllib2.urlopen(url)
data = data.read()
primaryGenre = data

if "View More In Sci-Fi &amp; Fantasy" in data:
    then do something else

致以问候。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17595204

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档