首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏小徐学爬虫

    RCurl库做爬虫效率怎么样

    RCurl库是一个非常强大的网络爬虫工具,它提供了许多功能,例如从服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等等。 使用RCurl库进行网络爬虫可以方便地获取网站上的数据,并进行数据分析和挖掘。在使用RCurl库进行网络爬虫时,需要注意一些法律和道德问题,例如不要爬取私人信息、不要过度频繁地访问网站等等。 以下是一个使用RCurl库下载yun.baidu视频的程序,代码中使用了proxy_host: duoip和proxy_port: 8000这两个设置。 # 导入RCurl库 library(RCurl) # 设置爬虫ip服务器 proxy <- list("proxy" = paste0("http://", proxy_host, ":" , proxy_port )) # 使用RCurl的getURL函数下载视频 video_url <- "yun.baidu/" video_data <- getURL(video_url, proxy = proxy)

    35930编辑于 2023-11-01
  • 来自专栏技术一点点成长

    R语言之RCurl实现文件批量下载

    前言:    RCurl工具包的作者是由Duncan Temple Lang现任加州大学 U.C. Davis分校副教授。他曾致力于借助统计整合进行信息技术的探索。 使用者通过RCurl可以轻易访问网页,进行相关数据的抓取以及下载,为数据分析提供原始素材。近年RCurl在数据分析业界中使用也越来越流行。 Step1:安装RCurl install.packages('RCurl') Step2:代码实现 =========================== 1 #利用RCurl包批量下载(抓取)文件 2 3 library('RCurl') 4 5 html=getURL("http://rfunction.com/code/1202/") 6 7 #查看网页源码,之后确定抓取信息的 :2)] #剔除特定元素 24 25 26 27 #---------------- 28 29 #设置下载目录,循环遍历 30 31 setwd('G:\\R_Project\\RCurl

    2.2K10编辑于 2022-08-09
  • 来自专栏PPV课数据科学社区

    RCurl爬虫和Shiny包在游戏行业的应用(附PDF下载)

    PDF链接:http://www.ppvke.com/Answer/file/download/file_name-UkN1cmzniKzomavlkoxTaGlueeWMheWcqOa4uOaIj+ihjOS4mueahOW6lOeUqC5wZGY=__url-aHR0cDovL3d3dy5wcHZrZS5jb20vQW5zd2VyL3VwbG9hZHMvcXVlc3Rpb25zLzIwMTUwNDI3Lzk4OWJl

    76850发布于 2018-04-23
  • 来自专栏数据小魔方

    R语言数据抓取实战——RCurl+XML组合与XPath解析

    加载扩展包: #加载包: library("XML") library("stringr") library("RCurl") library("dplyr") library("rvest") #提供目标网址链接

    2.8K80发布于 2018-04-11
  • 来自专栏数据小魔方

    RCurl中这么多get函数,是不是一直傻傻分不清!!!

    你想知道R语言中的RCurl包中一共有几个get开头的函数嘛,今天我特意数了一下,大约有十四五个那么多(保守估计)! 使用getURL发送一个完整的请求一般形式是这样的: library("RCurl") library("XML") debugInfo <- debugGatherer() #错误信息收集函数 好了,到这里,RCurl的几个重要get函数几乎都已经讲完了,接下来会抽时间整理一下RCurl的中postForm函数的四种常见参数提交方式,以及curl句柄函数配置参数的权限类型,RCurl这个包经过这些时间的梳理 ,已经扒的差不多了,以后若是时间允许,可以探索一下RCurl中的并发与异步请求实现方式。 其实除了RCurl之外,rvest包也有很多好玩的东西,最近的探索发现,rvest本身并不神奇,它作为一个底层请求器httr以及解析器selectr包、xml2包的封装,整合了这些包的优点,在解析方面大有可为

    3.1K50发布于 2018-04-11
  • 来自专栏深度学习之tensorflow实战篇

    关于R安装中文分词包安装不上的问题install.packages(\"tm\")

    install.packages("rJava")  install.packages("~/Downloads/Rwordseg_0.2-1.tar", repos=NULL, type="source")Rweibo依赖于RCurl 这四个依赖包同样不能直接安装,需要先从科大源下载源码:(按包名搜索RCurl、XML、rjson、digest),然后再安装。 1234567 install.packages("bitops") #RCurl的依赖  install.packages("~/Downloads/RCurl_1.95-4.1.tar", repos 的依赖  install.packages("~/Downloads/RCurl_1.95-4.1.tar", repos=NULL, type="source")  install.packages( 的依赖  install.packages("~/Downloads/RCurl_1.95-4.1.tar", repos=NULL, type="source")  install.packages(

    1K20发布于 2019-02-13
  • 来自专栏2022【生信零基础入门】

    R 语言 安装DESeq2,dplyr 包遇到报错的彻底解决方案

    for ‘GenomeInfoDb’ in loadNamespace(j <- i[1L], c(lib.loc, .libPaths()), versionCheck = vI[j]): 不存在叫‘RCurl GenomeInfoDb’ in loadNamespace(j <- i[[1L]], c(lib.loc, .libPaths()), versionCheck = vI[[j]]): 不存在叫‘RCurl 是用R版本4.1.2 来建造的 我现在使用的是笔记本电脑,我的台式电脑安装就没有遇到问题,不知道为什么,于是开始搜索了一下教程,发现大家安装 DESeq2, dplyr 的时侯都会遇到**不存在叫 RCurl rpart, spatial, survival Warning message: In install.packages(...) : installation of package ‘RCurl ** 两行代码解决: install.packages("XML",type="binary") install.packages("RCurl",type="binary") 参考文献: R包安装遇到

    2.9K00编辑于 2022-10-04
  • 来自专栏数据小魔方

    R语言网络数据抓取的又一个难题,终于攻破了!

    RCurl包的POST函数中,只针对第一种、第三种做了显式的参数声明 style=httppost、post,但是第二种、第四种style参数中没有列举到。 包的POST方法不支持上传json参数(可是RCurl是直接对接liburl这个通用的爬虫C语言库的,urllib也是,httr底层是用了RCurl的,httr能做到的RCurl自然不在话下)。 验证了之前的想法,可能RCurl刚出道的时候,json还没有成主流吧,所以json传参没有明显的放在style这个POST方法的参数里。 ,把利用RCurl包构造POST请求,以及提交json字符串参数的案例及代码分享给大家。 RCurl库与httr相比,偏底层,函数多且繁琐,httr更灵巧、轻便、简洁。这种关系,像极了Python中的urllib和request。

    3.5K30发布于 2018-04-11
  • 来自专栏深度学习之tensorflow实战篇

    R语言中文分词工具

    ("rJava") install.packages("~/Downloads/Rwordseg_0.2-1.tar", repos=NULL, type="source") Rweibo依赖于RCurl 这四个依赖包同样不能直接安装,需要先从科大源下载源码:(按包名搜索RCurl、XML、rjson、digest),然后再安装。 1 2 3 4 5 6 7 install.packages("bitops") #RCurl的依赖 install.packages("~/Downloads/RCurl_1.95-4.1.tar

    95730发布于 2018-03-16
  • 来自专栏深度学习之tensorflow实战篇

    关于R安装中文分词包安装不上的问题install.packages(\"tm\")

    install.packages("rJava") install.packages("~/Downloads/Rwordseg_0.2-1.tar", repos=NULL, type="source") Rweibo依赖于RCurl 这四个依赖包同样不能直接安装,需要先从科大源下载源码:(按包名搜索RCurl、XML、rjson、digest),然后再安装。 install.packages("bitops") #RCurl的依赖 install.packages("~/Downloads/RCurl_1.95-4.1.tar", repos=NULL,

    1.4K70发布于 2018-03-19
  • 来自专栏R语言交流中心

    R语言网络爬虫之Pubmed API的使用

    我们需要安装R语言实现网络爬虫的两个关键包: XML,RCurl。 安装R包大家都熟悉了: install.packages('XML'); install.packages('RCurl'); 或者你如果觉得写代码麻烦,你也可以通过R语言菜单实现: ? 2. R包安装成功后,在进行网络爬虫时需要加载这两个包:XML,RCurl。 R代码: library(XML) library(RCurl) 完成R包的加载。 3. 使用中注意的问题: 如果出现以下几面,重新运行,library(‘RCurl’) ? 查看我们是否获取了Pubmed ID 的列表,如图 ? 查看我们获取的所有的文献的摘要: ?

    7K40发布于 2019-07-31
  • 来自专栏育种数据分析之放飞自我

    光阴易逝,所以批量管理包{pacman}

    对比演示 比如,你想安装几个包,在安装之前,你想要看一下你的电脑中有无这些包,你写的代码是这样的: packs <- c("XML", "devtools", "RCurl", "fakePackage 罗列你想要的R包 2,判断你的电脑中是否有这些包 3,如果没有这些包,安装之 4,载入这些包 用pacman解决,一行代码搞定:判断--安装--载入 pacman::p_load(XML, devtools, RCurl , fakePackage, SPSSemulate) 如果你只想安装,用p_install函数即可: pacman::p_install(XML, devtools, RCurl, fakePackage

    85730编辑于 2022-05-19
  • 来自专栏Chris生命科学小站五年归档

    【R语言】额外的年终奖到手我却笑不起来,XML包和RCurl包的安装问题及解决过程

    报错:安装失败,还有警告 此外,小编在安装RCurl包的时候也是遇到相同的问题,因此暗下决心必须攻克~ 解决过程 尝试一: 使用多种安装方法,包括 BiocManager::install("XML 同理,进行RCurl包安装,也顺利安装成功,见下图 安装成功后,与树神交流了下,说这个complication有时候点‘是’可以,有时候又不可以~,不过具体原因,本君还没探究,其他大神看到也可以讲解下 总结 到此,XML包和RCurl包均已安装成功,这个问题原来在其他电脑上没遇到过,在新电脑上首次遇到,但是这两个包却很重要,绕不过去,他们是R语言爬虫相关的两大利器,也是许多包的依赖包,如RTCGA、TCGAbiolinks

    88220编辑于 2023-02-28
  • 来自专栏yw的数据分析

    R语言从小木虫网页批量提取考研调剂信息

    一、从URL读取并返回html树 1.1 Rcurl包 使用Rcurl包可以方便的向服务器发出请求,捕获URI,get 和 post 表单。 以下是全部代码内容 library(RCurl) library(XML) download <- function(strURL){ h <- basicTextGatherer()# 查看服务器返回的头信息 参考资料: Rcurl包 :https://cran.r-project.org/web/packages/RCurl/RCurl.pdf XML包:https://cran.r-project.org

    89930编辑于 2022-03-10
  • 来自专栏数据小魔方

    左手用R右手Python系列——模拟登陆教务系统

    在分享这篇文章之前,只想感慨一声,虽然Python拥有更为完善的爬虫生态和多如牛毛的爬虫分享课程,但是貌似这些大部分内容,使用R语言中的RCurl+httr都可以做到,但是可惜的利用R语言学习爬虫的爱好者与 R library("RCurl") library("XML") library("dplyr") library("ggplot2") library("ggimage") 使用爬虫登录教务系统,最大的困难是验证码识别 opener.open(geturl) print(response.read().decode('gbk')) 本文参考文献: https://cran.r-project.org/web/packages/RCurl / RCurl.pdfhttp://blog.csdn.net/sinat_26917383/article/details/51123164 https://cran.r-project.org/web

    1.7K80发布于 2018-04-11
  • 来自专栏数据科学(冷冻工厂)

    单细胞系列教程:环境搭建(三)

    Console 中输入下面命令# 建议复制,因为大小写敏感install.packages("tidyverse")install.packages("Matrix")install.packages("RCurl install.packages("metap")加载 包# 加载前,请确保上面包安装过程是成功的library(Seurat)library(tidyverse)library(Matrix)library(RCurl

    87701编辑于 2023-01-25
  • 来自专栏数据小魔方

    这个包绝对值得你用心体验一次!

    比如今天,我找到了一个自带请求器的解析包,而且还是嵌入的pantomjs无头浏览器,这样就不用你再傻乎乎的再去装个selenium驱动,也不用借助任何请求器(RCurl或者httr)包就可以自动解析带有 使用RCurl包请求! rdom后台调用了plantomjs浏览器渲染了整个html目标文档(包含里面的所有script标签里面的js动态脚本),所以readHTMLTable函数才有机会提取里面的表格(而这个过程,普通请求器比如RCurl

    2.7K60发布于 2018-04-12
  • 来自专栏数据科学(冷冻工厂)

    单细胞分析环境搭建(三)

    Console 中输入下面命令 # 建议复制,因为大小写敏感 install.packages("tidyverse") install.packages("Matrix") install.packages("RCurl install.packages("metap") 加载 包 # 加载前,请确保上面包安装过程是成功的 library(Seurat) library(tidyverse) library(Matrix) library(RCurl

    86330编辑于 2023-02-27
  • 来自专栏小徐学爬虫

    用R语言的XML库写一个采集图片的爬虫程序

    该程序能够从指定网页抓取图片链接并下载保存到本地:# 加载必要的库library(XML)library(RCurl) # 用于处理URL和下载文件​# 创建图片保存目录dir.create("downloaded_images 请查看 downloaded_images 目录\n")代码说明:依赖库:XML:用于解析HTML文档RCurl:用于处理HTTP请求和URL操作主要功能:自动创建保存图片的目录模拟浏览器请求头(User-Agent

    27410编辑于 2025-03-06
  • 来自专栏数据小魔方

    经历过绝望之后,选择去知乎爬了几张图~

    之前分享过知乎爬图的代码,当时利用的Rvest爬的,今天换RCurl+XML包来爬,也算是新知识点了。 https://www.zhihu.com/question/31785374/answer/150310292 代码一共没几行,很好理解,可以作为学习的案例: #加载包: library("RCurl

    1.1K40发布于 2018-04-11
领券