首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学(冷冻工厂)

    Python 爬虫数据抓取10):LXML

    接下来,我们将探讨在进行网页数据抓取时如何有效利用lxml库。 实战 首先,你需要创建一个文件夹,并在其中安装这个库。 resp = requests.get(url) print(resp) 现在,如果您运行它,您将获得 200 个代码,这意味着我们已经成功抓取了目标 URL。 当你打印这个树时,会看到类似于 <Element html at 0x1e18439ff10> 的输出。

    45810编辑于 2024-07-05
  • 来自专栏架构师之路

    Google-优秀移动站点设计10

    Google-优秀移动网站设计10招 1)添加一个醒目的搜索条:在移动终端上,人们希望能够快速找到自己需要的东西 2)把大表格拆分成小块:别搞一个长长的表格页面,上面包含各种输入框 3)允许用户匿名浏览 :用户感兴趣,他才会注册,甚至最好支持匿名购买 4)让用户便于回到主页:站点LOGO一定要支持回到主页功能 5)友好的表单填写:实时检查输入的合法性,而不是等到提交时才提示;日期输入请使用日历组件,而不是让用户切出来打开日历 APP 6)对于复杂任务,请预留拨打电话功能:用户不想在移动端填写复杂的表格,可以立刻拨打电话,接受人工服务 7)适配移动站点:不要让用户去放大和缩小网站 8)支持大图:有图有真相 9)让用户只留在一个浏览器 TAB:别和PC站点一样搞多个TAB弹出,手机上切换TAB是非常费事的 10)别动不动就收集用户的位置信息:即使要收集,请告诉用户为什么,让用户知道是“找附近”,分享位置的意愿才会大增

    74730发布于 2018-02-28
  • 来自专栏Java架构师必看

    Google-优秀移动站点设计10

    Google-优秀移动网站设计10招 1)添加一个醒目的搜索条:在移动终端上,人们希望能够快速找到自己需要的东西 2)把大表格拆分成小块:别搞一个长长的表格页面,上面包含各种输入框 3)允许用户匿名浏览 :用户感兴趣,他才会注册,甚至最好支持匿名购买 4)让用户便于回到主页:站点LOGO一定要支持回到主页功能 5)友好的表单填写:实时检查输入的合法性,而不是等到提交时才提示;日期输入请使用日历组件,而不是让用户切出来打开日历 APP 6)对于复杂任务,请预留拨打电话功能:用户不想在移动端填写复杂的表格,可以立刻拨打电话,接受人工服务 7)适配移动站点:不要让用户去放大和缩小网站 8)支持大图:有图有真相 9)让用户只留在一个浏览器 TAB:别和PC站点一样搞多个TAB弹出,手机上切换TAB是非常费事的 10)别动不动就收集用户的位置信息:即使要收集,请告诉用户为什么,让用户知道是“找附近”,分享位置的意愿才会大增 如果觉得文章还不错

    42821发布于 2021-09-23
  • 来自专栏前端技术研究和应用

    推荐10款好用的开源静态站点

    开源的静态站点可以帮助我们快速构建想要的应用,这里推荐10款好用的开源静态站点。 这些静态站点应用还有一个更优雅的名字:JAMStack 静态站点的主题汇总网站:https://jamstackthemes.dev/ JAMStack JAM:是 JavaScript、API 和 Markup star数:8.4k 官网:https://gridsome.org/ 开源地址:https://github.com/gridsome/gridsome dumi 介绍:为组件研发而生的静态站点框架

    4.7K30编辑于 2024-10-08
  • 来自专栏前端资源

    百度站长平台https站点提交sitemap显示“抓取失败”的解决方法

    网站设置好https协议后,去百度站长平台提交sitemap一直显示“抓取失败”。 ? 在网上搜了一下,还真有不少人遇到这个问题。搜集资料得知,需要在站长属性里面提交一下说明你的网站支持https。 提交成功后,会显示您已确认站点支持https协议,百度正在处理中,请耐心等待。审核通过后就可以正常提交了。 声明:本文由w3h5原创,转载请注明出处:《百度站长平台https站点提交sitemap显示“抓取失败”的解决方法》 https://www.w3h5.com/post/27.html

    2.1K00发布于 2019-11-13
  • 来自专栏python3

    Admin站点

    定义与使用Admin管理类 Django提供的Admin站点的展示效果可以通过自定义ModelAdmin类来进行控制。 通过设置short_description属性,可以设置在admin站点中显示的列名。 调整站点信息 Admin站点的名称信息也是可以自定义的。 上传图片 使用Admin站点保存图片,需要安装Python的图片操作包 pip install Pillow==4.1.0 a. 使用Admin站点上传图片 进入Admin站点的图书管理页面,选择一个图书,能发现多出来一个上传图片的字段 ?

    2.9K20发布于 2020-01-15
  • 来自专栏我的知识小屋

    10分钟做一个新闻问答web站点

    我们在第一步中首先创建一个首页。点击左侧组件栏中的页面组件,创建一个页面:

    77720编辑于 2022-01-06
  • 来自专栏运维猫

    Tomcat站点部署

    characterEncoding=utf8 ##第7行左右 spring.datasource.username=root 改为: spring.datasource.username=jspxcmsuser ##第10 8、Tomcat多实例站点部署 多实例作用运行不同的应用(类似虚拟主机)多实例运行相同的应用(实现负载均衡,支持高并发处理,session问题) 1.拷贝tomcat目录 [root@ansible local/tomcat9_1 [root@ansible local]# cp -a /usr/local/tomcat/ /usr/local/tomcat9_2 2.编辑配置文件,修改监听端口和站点家目录 name="localhost" appBase="/webapps/tomcat9_2" unpackWARs="true"autoDeploy="true"> 3.创建站点家目录 10、Tomcat多实例启动脚本 [root@ansible ~]# vim TomcatSys.sh #!/bin/bash #Desc:用于tomcat多实例部署启动脚本。

    2.1K10发布于 2019-11-20
  • 来自专栏全栈程序员必看

    Python抓取数据_python抓取游戏数据

    抓取策略 确定目标:确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。 分析目标:分析要抓取的url的格式,限定抓取范围。 分析要抓取的数据的格式,本实例中就要分析标题和简介这两个数据所在的标签的格式。分析要抓取的页面编码的格式,在网页解析器部分,要指定网页编码,然后才能进行正确的解析。 执行爬虫:进行数据抓取。 分析目标 1、url格式 进入百度百科python词条页面,页面中相关词条的链接比较统一,大都是/view/xxx.htm。 self.urls.add_new_urls(new_urls) self.outputer.collect_data(new_data) if count == 10

    2.8K30编辑于 2022-09-20
  • 来自专栏小狐狸说事

    蜘蛛抓取策略分析:防止重复抓取

    蜘蛛抓取策略分析:防止重复抓取 ---- 蜘蛛抓取策略分析:防止重复抓取 前言: 不重复抓取?有很多初学者可能会觉得。爬虫不是有深度优先和广度优先两种抓取策略吗? 也从而延伸出今天的这篇文章,不重复抓取策略,以说明在一定时间内的爬虫抓取是有这样规则的。 正文: 回归正题,不重复抓取,就需要去判断是否重复。 当然爬取(理解为发现链接)与抓取(理解为抓取网页)是同步进行 的。一个发现了就告诉了另外一个,然后前面的继续爬,后面的继续抓。 抓取完了就存起来,并标记上,如上图,我们发现第2条记录和第6条记录是重复的。那么 当爬虫抓取第二条后,又爬取到了第6条就发现这条信息已经抓取过了,那么就不再抓取了。爬虫不是尽可能抓更多的东西吗? 而本身搜索引擎的爬取和抓取都是需要执行 一段代码或一个函数。执行一次就代表着要耗费一丁点资源。如果抓取的重复量级达到百亿级别又会让爬虫做多少的无用功?耗费搜索引擎多大的成本?

    1.1K20编辑于 2022-11-17
  • 来自专栏超级码力

    简易数据分析 10 | Web Scraper 翻页——抓取「滚动加载」类型网页

    【这是简易数据分析系列的第 10 篇文章】 友情提示:这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍。 我们今天就是要讲讲,如何利用 Web Scraper 抓取滚动到底翻页的网页。 然后我们保存 container 这个节点,并在这个节点下选择要抓取的三个数据类型。 首先是标题,我们取名为 title,选择的元素名为 [itemprop='zhihu:question'] a: 然后是答题人名字 name 与 赞同数 like,选择的元素名分别为 #Popover10 所以在正式抓取数据前,经常要先做小规模的尝试,比如说先抓取 20 条,看看数据有没有问题。没问题后再加大规模正式抓取,这样做一定程度上可以减少返工时间。

    3.8K20发布于 2020-07-09
  • 来自专栏Hank’s Blog

    抓取模板

    import pandas as pd from lxml import etree import json,requests,random import os,time,shutil,traceback def get_data(url, headers): try: store_res = requests.get(url=url, headers=headers) if store_res.status_code == 200: jda

    88620发布于 2020-09-17
  • 来自专栏猿人谷

    网页抓取

    之前做聊天室时,由于在聊天室中提供了新闻阅读的功能,写了一个从网页中抓取信息(如最新的头条新闻,新闻的来源,标题,内容等)的类,本文将介绍如何使用这个类来抓取网页中需要的信息。 else { break; } } return tags; } 有了以上函数,就可以提取需要的HTML标志了,要实现抓取 response.CharacterSet).GetString(buffer.GetBuffer()); } catch { return String.Empty; } } 以下以抓取博客园首页的文章标题和链接为例 ,介绍如何使用HtmlTag类来抓取网页信息: class Program { static void Main(string[] args) { String html

    2.9K80发布于 2018-01-17
  • 来自专栏sktj

    python QA站点

    用flask + bootstrap +jquery 做的全文检索QA站点,把评论关联到了全文检索。 ? image.png ?

    1.1K10发布于 2019-11-21
  • 来自专栏centosDai

    LinuxHttps访问站点

    yum -y install /mnt/Packages httpd-* mod_ssl*

    94920发布于 2021-05-17
  • 来自专栏小孟开发笔记

    PHP登入网站抓取并且抓取数据

    有时候需要登入网站,然后去抓取一些有用的信息,人工做的话,太累了。有的人可以很快的做到登入,但是需要在登入后再去访问其他页面始终都访问不了,因为他们没有带Cookie进去而被当做是两次会话。

    2.3K30编辑于 2023-02-20
  • 来自专栏技术集锦

    站点 CDN 加速

    本篇主要叙述如何为站点配置 cdn 加速服务,供应商是**又拍云** 问题 当我配置完成后,我发现:为什么站点的打开速度还不如从前呢?不是 cdn 加速吗?这怎么还降速呢? IP 地址是网络上标识站点的数字地址,为了方便记忆,采用域名来代替 IP 地址标识站点地址。域名解析就是域名到 IP 地址的转换过程。域名的解析工作由 DNS 服务器完成。

    51.9K20编辑于 2022-02-17
  • 来自专栏java后端

    dreamweaver站点建立

    2.创建站点,左边选择站点,设置站点名字,站点一定是在www目录下的,设置完成之后不要点击保存,再选择右侧 服务器 选项 ? ? 3.新建一个与站点名字相同的文件夹,选中它 ? 6.再进行测试是否成功建立站点,勾选测试,点击保存 ? 7.随便写一个东西,测试一下可以在浏览器里打开不 ? 8.出现以下界面,说明站点建立成功 ?

    2.6K40发布于 2021-05-13
  • 来自专栏开源部署

    站点地图插件

    Dagon Design Sitemap Generator(站点地图插件) Dagon Design Sitemap Generator这个插件的用途就是生成站点的 Sitemap 也就是我们一般说的 “站点地图”,给访问你的博客用户提供一个便捷的浏览途径,增加用户的浏览体验。 – ddsitemapgen –> 注: 这句代码要在<html>编码方式下写,如果不在<html>格式下写,站点地图就无法显示出来。

    1.1K10编辑于 2022-06-11
  • 来自专栏Java架构师必看

    iis创建ftp站点_如何建立一个站点

    今天说一说iis创建ftp站点_如何建立一个站点,希望能够帮助大家进步!!! IIS上新建一个FTP站点: ---- 1.打开IIS管理器,右击‘网站’ 点击‘添加FTP站点…’ 2.填写站点名称 以及物理路径 3.绑定ip设置SSL 默认‘全部未分配’, ‘启用虚拟主机名

    7.5K20编辑于 2022-05-22
领券