首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >htmlagilitypack bug

htmlagilitypack bug
EN

Stack Overflow用户
提问于 2015-11-10 10:44:51
回答 1查看 277关注 0票数 0

我试图解析一个网站,并获得一些内容。这是我的密码:

代码语言:javascript
复制
doc.DocumentNode.SelectSingleNode("//div[@class='article-content']").InnerText

我只需要短信,但结果是这样的:一些短信.这个数组:

代码语言:javascript
复制
( [0] => 39 [1] => 6 [2] => 10 [3] => 9 [4] => 13 [5] => 5 [6] => 7 [7] => 12 [8] => 11 [9] => 8 [10] => 14 [11] => 82 ) [archtoday] => 0 [hour] => 09:00 [autoarchive] => 1 [autoarchivereset] => 1 [show_description] => 0 [num_desc_words] => 10 [show_description_image] => 0 [num_leading_articles] => 0

我试过:

代码语言:javascript
复制
HtmlEntity.DeEntitize(doc.DocumentNode.SelectSingleNode("//div[@class='article-content']").InnerText)

但是结果是相同的链接:http://www.interpressnews.ge/ge/politika/353565-barak-obamas-thanashemtse-rusethma-saqarthveloshi-gankhorcielebuli-intervenciis-dros-mighebuli-gakvethilebi-aithvisa.html

div:

代码语言:javascript
复制
<div class="article-content">
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-11-10 12:10:06

关于内部文本,需要注意的是,它将为您提供节点的文本内容,但不关心CSS或其他任何影响网页本身显示的内容。这意味着,如果有一个节点将display css属性设置为none,那么HTML解析器将不关心,它将向您显示该节点的文本。这正是这里正在发生的事情。

http://www.interpressnews.ge/ge/politika/353565-barak-obamas-thanashemtse-rusethma-saqarthveloshi-gankhorcielebuli-intervenciis-dros-mighebuli-gakvethilebi-aithvisa.html是您在评论中提到的页面。如果您查看页面的源代码(ctrl在chrome中,我认为firefox不确定IE中的快捷方式),那么在页面中查找article-content,您会发现文章中也有一个<div style="display:none;">,其中包含您正在看到的奇怪的文本。因此,这不是html敏捷性包中的一个bug。

您将需要分析页面并编写更复杂的代码,以便准确地从页面中提取出您想要提取的内容。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33628199

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档