搜索 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

来自专栏生信技能树
爬虫的10种思路
href="4_8.pptx">下载ppt）
第九章系统生物学（下载ppt）

第十章合成生物学（下载ppt）

第十一章分子进化与系统发育（下载ppt ：在R语言中，你可以使用download.file函数来下载文件。这样的写法相对于显式的for循环，更符合R语言的函数式编程风格。有时候确实需要写爬虫但是，因为这样的路径很容易被网站作者修改规则，所以仍然是建议写爬虫，就需要了解一下网页html源代码里面的dom结构。
30330编辑于 2023-11-20
来自专栏Python绿色通道
爬虫高手必须了解的10个爬虫工具
今天我就以日常爬虫流程，给大家介绍十款工具，相信大家掌握之后，必定能够在工作效率上，提升一个量级爬虫第一部做什么？当然是目标站点分析 1.Chrome ? 用了以上的工具，你基本可以解决大部分网站了，算是一个合格的初级爬虫工程师了。爬虫和反爬虫就是一场没有硝烟的拉锯战，你永远不知道对方会给你埋哪些坑，比如对Cookies动手脚。当我们已经确定能爬取之后，我们不应该着急动手写爬虫。而是应该着手设计爬虫的结构。按照业务的需求，我们可以做一下简单的爬取分析，这有助于我们之后开发的效率，所谓磨刀不误砍柴工就是这个道理。这个时候，我们安装这个插件后，就可以很方便的来查看Json数据啦 10.JSON Editor Online ?
3.2K40发布于 2019-05-24
来自专栏python3
Python-爬虫03：urllib.r
浏览器就是互联网世界上公认被允许的身份，如果我们希望我们的爬虫程序更像一个真实用户，那我们第一步就是需要伪装成一个被浏览器。
85020发布于 2020-01-19
来自专栏数据科学（冷冻工厂）
Python 爬虫数据抓取（10）：LXML
当你打印这个树时，会看到类似于 <Element html at 0x1e18439ff10> 的输出。
44610编辑于 2024-07-05
来自专栏机器学习养成记
R语言爬虫与文本分析
之前用python做过简单的爬虫与分析，今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料，然后进行了词云绘制、关键词提取的基本操作。代码实现 R语言中，有两种进行数据获取的方式。一种是RCurl包+XML包，过程与python中的urllib与bs4相似，先读取网页代码再对html代码进行解析。用wordcloud2绘制词云的方法在十九大讲话文本分析（R语言）中也有介绍，本次我们用自定义图片的方式设置词云形状，即设置figPath参数，注意，图片需要存放在wordcloud2中默认的文件夹下，
2.3K140发布于 2018-04-10
来自专栏python3
Python3网络爬虫实战-10、爬虫框
我们直接用 Requests、Selenium 等库写爬虫，如果爬取量不是太大，速度要求不高，是完全可以满足需求的。但是写多了会发现其内部许多代码和组件是可以复用的，如果我们把这些组件抽离出来，将各个功能模块化，就慢慢会形成一个框架雏形，久而久之，爬虫框架就诞生了。所以如果对爬虫有一定基础，上手框架是一种好的选择。本书主要介绍的爬虫框架有PySpider和Scrapy，本节我们来介绍一下 PySpider、Scrapy 以及它们的一些扩展库的安装方式。 PySpider的安装 PySpider 是国人 binux 编写的强大的网络爬虫框架，它带有强大的 WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器，同时它支持多种数据库后端、多种消息队列 python3.7/site-packages/pyspider/fetcher/tornado_fetcher.py 的81行、89行（两个）、95行、117行 Scrapy的安装 Scrapy 是一个十分强大的爬虫框架
1.6K10发布于 2020-01-03
来自专栏生信技能树生信入门马拉松
R语言基础-Day10
富集结果解释：衡量每个通路里的基因在差异基因里是否足够多富集不到的补救秘籍1.调整10gFC、pvalue阈值，以改动差异基因数量2.不使用默认的padi(富集的)，而是用原始p值，在文章里说清楚即可。
30710编辑于 2024-05-09
来自专栏机器学习AI算法工程
python爬虫+R数据可视化实例
Python 和 r语言这对黄金搭档，在数据获取，分析和可视化展示方面，各具特色，相互配合，当之无愧成为数据分析领域的两把利剑。该项目分为两个模块： 1，数据准备阶段采用python网络爬虫，实现所需数据的抓取； 2，数据处理和数据可视化，采用r语言作为分析工具并作可视化展示。 login_url = post_url 以下即可采用正则表达式，提取今日发帖数，会员人数，在线人数代码如下： #正则获取列表页 user_num,topic_num,online_num 这种广度搜索爬虫都会涉及到需要补全链接的坑第二，数据处理和数据可视化主要采用r语言读取数据，进行频数统计和图表展示简单贴几段代码：读取剪切板数据并采用table()函数求频数 data3<-read.table("clipboard r语言版 ?
1.9K40发布于 2018-03-14
来自专栏深度学习之tensorflow实战篇
网页爬虫-R语言实现基本函数
#*************网页爬虫-R语言实现，函数库文件*******# #****作者：H***************************************# #****版本：v0.1
80140发布于 2019-02-14
来自专栏菜鸟学数据分析之R语言
【R语言】文本挖掘| 网页爬虫新闻内容
图4 网页爬虫结果
2K10发布于 2021-01-28
来自专栏二爷记
【源码】10 个 Python 爬虫入门实例！
带伙伴们学习python爬虫，准备了几个简单的入门实例，分享给大家。爬取强大的BD页面，打印页面信息 # 第一个爬虫示例,爬取百度页面 import requests #导入爬虫的库，不然调用不了爬虫的函数 response = requests.get("http:/ 常用方法之get方法实例，下面还有传参实例 # 第二个get方法实例 import requests #先导入爬虫的库，不然调用不了爬虫的函数 response = requests.get("http 常用方法之post方法实例，下面还有传参实例 # 第三个 post方法实例 import requests #先导入爬虫的库，不然调用不了爬虫的函数 response = requests.post(" encoding="utf") #打开一个文件，w是文件不存在则新建一个文件，这里不用wb是因为不用保存成二进制 file.write( response.text ) file.close() 10
1.1K21编辑于 2023-02-25
来自专栏技术大杂烩
【爬虫】（二）windows10download.com
前言因为毕设是基于机器学习的，所以需要大量的样本来训练模型和检验成果，因此，通过爬虫，在合法合规的情况下，爬取自己所需要的资源，在此进行记录；本次爬取的网站是 www.windows10download.com 通过点击就能直接下载文件了；分析大致浏览之后，接下来就是进行分析以及分步操作了； 1、先请求一下网页，看看是否能请求成功； 2、接下来先获取一个分类类别下的页数， # 获取页数 obj = re.compile(r" it.group().split('(')[-1].split('&')[0] break 3、获取每个软件的详情页的 URL， # 获取当前页的每个软件的 url obj = re.compile(r' /thundersoft-gemplayer/download.html' obj = re.compile(r'http(|s)%253A%252F%252[^\s]*" rel="nofollow for it in res] effective_urls = {} for href in hrefs: new_url = f"https://www.windows10download.com
38330编辑于 2023-08-31
来自专栏深度学习之tensorflow实战篇
网页爬虫-R语言实现基本函数
#*************网页爬虫-R语言实现，函数库文件*******# #****作者：H***************************************# #****版本：v0.1
94970发布于 2018-03-16
来自专栏嘘、小点声
python网络爬虫（10）分布式爬虫爬取静态数据
目的意义爬虫应该能够快速高效的完成数据爬取和分析任务。使用多个进程协同完成一个任务，提高了数据爬取的效率。以百度百科的一条为起点，抓取百度百科2000左右词条数据。作者说是简单的分布式爬虫（hh），在书中有详细的说明和注解。这里只是补漏和梳理。因为进程传递参数的问题，搞了几天还是放弃了在WIndows上跑，换用了Linux。 requests.get(url,headers=headers) if r.status_code is 200: r.encoding=chardet.detect (r.content)['encoding'] return r.text return None HtmlParser.py import re from urllib ;i++)) do python3 spider/SpiderWork.py &>log/spider$i.log & done 启动主节点，然后启动10个从节点。
75440发布于 2019-07-31
来自专栏分布式爬虫
10、web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l 查看scrapy创建爬虫文件可用的母版 Available templates:母版说明　　basic 　　　　创建基础爬虫文件　　crawl　　　　创建自动爬虫文件　　csvfeed　　创建爬取csv数据爬虫文件　　xmlfeed　　　创建爬取xml数据爬虫文件创建一个基础母版爬虫，其他同理 scrapy genspider -t 母版名称爬虫文件名称要爬取的域名创建一个基础母版爬虫，其他同理如：scrapy genspider -t basic pach baidu.com [image] scrapy check 爬虫文件名称测试一个爬虫文件是否合规如：scrapy check pach [image] scrapy crawl 爬虫名称执行爬虫文件，显示日志【重点】 scrapy crawl 爬虫名称 --nolog 执行爬虫文件，不显示日志【重点】【转载自：http://www.lqkweb.com】
67200发布于 2019-07-06
来自专栏数据魔术师
10分钟教你Python爬虫（上）-- HTML和爬虫基础
这次给大家带来的是爬虫系列的第一课---HTML和爬虫基础。在最开始的时候，我们需要先了解一下什么是爬虫。简单地来说呢，爬虫就是一个可以自动登陆网页获取网页信息的程序。总的来说，爬虫能用来进行数据监控，数据收集，信息整合，资源采集。介绍完了这个，我们来研究研究爬虫的策略，主要分为两个： 1. 因为本篇推文我们的关注点是爬虫，所以我们更多的是关注前端。那么了解完了这些知识，下一期我们就会正式进入爬虫的实战环节啦。期待下一次推文~ 祝各位看客老爷新年快乐！也希望武汉尽快好起来！ ?
1.1K30发布于 2020-02-19
来自专栏小徐学爬虫
告别低效：构建健壮R爬虫的工程思维
这些教训让我明白，熟练不等于精通，R爬虫的艺术不在于写出能跑的代码，而在于构建健壮、高效且礼貌的工程。今天，我想分享这些用教训换来的经验，希望你无需重蹈我的覆辙。 R语言爬虫老手，尤其是在从其他语言（如Python）转过来，或者习惯了小规模、一次性脚本的数据分析师，常常会陷入一些特定的思维定式和误区。这些误区会导致代码脆弱、效率低下，甚至引发法律风险。以下是一些R语言爬虫老手都会犯的误区及其详细的解决方案：误区一：过度依赖 rvest + SelectorGadget 的“万能”组合表现：认为所有网站都可以用 rvest::html_nodes() 根源：低估了反爬虫机制的敏感性。默认的R User-Agent（例如 libcurl/... 或 r-curl/...）非常显眼。解决方案：模拟真实浏览器：总是设置合理的HTTP请求头。回顾这些坎坷，我的核心领悟是：强大的R爬虫绝非一堆函数调用，而是一个精心设计的系统。它需要我用侦探的眼光去发现隐藏API，用工程师的思维去处理错误与重试，用外交官的姿态去管理会话与延迟。
22310编辑于 2025-09-08
来自专栏R语言交流中心
R语言网络爬虫之Pubmed API的使用
今天我来给大家介绍一下Pubmed API是如何在R语言中运用自如的。 1. 我们需要安装R语言实现网络爬虫的两个关键包： XML，RCurl。安装R包大家都熟悉了： install.packages('XML'); install.packages('RCurl'); 或者你如果觉得写代码麻烦，你也可以通过R语言菜单实现： ? 2. R包安装成功后，在进行网络爬虫时需要加载这两个包：XML，RCurl。 R代码： library(XML) library(RCurl) 完成R包的加载。 3. R语言调用Pubmed API代码实例（获取基因SI和cancer相关的文献）： path='https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi ' web=getForm(path,db='pubmed',term='SI[gene]+AND+cancer',usehistory='y',RetMax='10',RetStart='1') doc
7K40发布于 2019-07-31
来自专栏机器学习AI算法工程
R语言爬虫初尝试-基于RVEST包学习
在学完coursera的getting and Cleaning data后，继续学习用R弄爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖。。。言归正传，拿了几个网页练手。 a")%>%html_text() company<-list_lagou %>% html_nodes("div.hot_pos_r div.mb10 a")%>%html_text 然后这网上目前没有什么高级岗位开出来（工作5-10年的岗位很少），反而是有些公司搞错分类，放了一堆数据录入的到数据分析栏目。。。 ? 受张丹老师的两条均线与R语言)鼓舞好大！我觉得学R嘛，用到实处才是重要的！玩爬虫玩的太开心都没跟JHU的课了。。。。以后可以尝试按照自己和老爸的看股票习惯开发出类似的选股模型来~~
1.9K30发布于 2018-03-12
来自专栏小徐学爬虫
R语言初学者爬虫简单模板
习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题以下是一个适合初学者的R语言爬虫通用模板，使用rvest和httr包实现。 537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10 ，常见的还是python爬虫，因为起特性可能经常遇到一些问题，例如：乱码问题、动态内容、登录验证、分页爬取，分别总结了对应的处理方法，如有更多问题可以留言咨询我。
26610编辑于 2025-07-03

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多