首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有人知道你好世界的网站吗?

有人知道你好世界的网站吗?
EN

Stack Overflow用户
提问于 2016-04-26 14:47:25
回答 1查看 77关注 0票数 0

我正在学习一种叫做“网络抓取”的练习,使用python。到目前为止,我可以知道的是,发送一个请求,从服务器加载站点数据,将DOM html存储在一个变量中,然后基本上将s*从结果字符串中挖掘出来,直到您能够准确且只访问所需的信息为止。

好吧,我已经准备好开始修改语句,这些语句可能会帮助我进行实际的数据挖掘,但首先,我需要看到并理解字符串中的所有html。在我掌握了它的诀窍之后,我不会关心html是什么样子的,但是现在我需要能够引用它来正确地分析我的输出。到目前为止,我已经尝试过google、python.net、youtube、各种博客等等,但它们看起来都像“阿利亚尼”。

我只是在找典型的你知道的东西?

代码语言:javascript
复制
<html><head><meta><script src=""><style src=""><title></title></head><body><div class=""><img src=""></div><div><h1>my page</h1><li></li><li></li><li></li><li></li><li></li><li></li><p>click <a href="">here</a></p></div></body></html> 

你明白我的意思吗?只是个网站..。就像..。html。来呈现一些简单的结构化数据。

这挺不错的。我给了这个帖子一些标签,我发现了'simple-html-dom‘。所以我搜索了一下。显然,这是一种语言,可以让你以我想要的方式解析来自在线资源的html。稍后我可能会检查这一点,但我仍然想知道如何用python来完成这个任务。

编辑,实际上,类似于的东西会工作得很好,但它太大了。我更喜欢小一点的工作。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-04-26 14:59:09

虽然构建自己的网页供使用可能会很好,但您也可以尝试查找“为lynx优化”的页面。Lynx是一种只使用文本的浏览器,“简单”页面自然能最好地工作。

你会发现的大多数链接都已经死了,但我找到了这个列表,其中仍然有很多活跃的、同样简单的页面:http://www.put.com/dead.html (请忽略内容本身.没有什么特别的理由我选择这个例子,除了它可能对您的目的很好的工作!)

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36868388

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档