首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏刷题笔记

    7-5 字符串循环左移

    点这里 7-5 字符串循环左移 输入一个字符串和一个非负整数N,要求将字符串循环左移N次。 输入格式: 输入在第1行中给出一个不超过100个字符长度的、以回车结束的非空字符串;第2行给出非负整数N。

    1.1K20发布于 2019-11-08
  • 来自专栏freesan44

    PTA 7-5 买地攻略 (25 分)

    数码城市有土地出售。待售的土地被划分成若干块,每一块标有一个价格。这里假设每块土地只有两块相邻的土地,除了开头和结尾的两块是只有一块邻居的。每位客户可以购买多块连续相邻的土地。

    19800发布于 2021-09-11
  • 来自专栏刷题笔记

    7-5 小字辈 (25 分)

    点这里 7-5 小字辈 (25 分) 本题给定一个庞大家族的家谱,要请你给出最小一辈的名单。

    88610发布于 2019-11-08
  • 来自专栏python3

    Python-爬虫03:urllib.r

    浏览器 就是互联网世界上公认被允许的身份,如果我们希望我们的爬虫程序更像一个真实用户,那我们第一步就是需要伪装成一个被浏览器。

    85120发布于 2020-01-19
  • 来自专栏机器学习养成记

    R语言爬虫与文本分析

    之前用python做过简单的爬虫与分析,今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料,然后进行了词云绘制、关键词提取的基本操作。 代码实现 R语言中,有两种进行数据获取的方式。一种是RCurl包+XML包,过程与python中的urllib与bs4相似,先读取网页代码再对html代码进行解析。 用wordcloud2绘制词云的方法在十九大讲话文本分析(R语言)中也有介绍,本次我们用自定义图片的方式设置词云形状,即设置figPath参数,注意,图片需要存放在wordcloud2中默认的文件夹下,

    2.3K140发布于 2018-04-10
  • 来自专栏freesan44

    PTA 7-5 买地攻略 (25 分)

    数码城市有土地出售。待售的土地被划分成若干块,每一块标有一个价格。这里假设每块土地只有两块相邻的土地,除了开头和结尾的两块是只有一块邻居的。每位客户可以购买多块连续相邻的土地。

    32320编辑于 2021-12-06
  • 来自专栏机器学习AI算法工程

    python爬虫+R数据可视化 实例

    Python 和 r语言这对黄金搭档,在数据获取,分析和可视化展示方面,各具特色,相互配合,当之无愧成为数据分析领域的两把利剑。 该项目分为两个模块: 1,数据准备阶段 采用python网络爬虫,实现所需数据的抓取; 2,数据处理和数据可视化,采用r语言作为分析工具并作可视化展示。 login_url = post_url 以下即可采用正则表达式,提取 今日发帖数,会员人数,在线人数 代码如下: #正则获取列表页 user_num,topic_num,online_num 这种广度搜索爬虫都会涉及到需要补全链接的坑 第二,数据处理和数据可视化 主要采用r语言读取数据,进行频数统计和图表展示 简单贴几段代码: 读取剪切板数据 并采用table()函数求频数 data3<-read.table("clipboard r语言版 ?

    1.9K40发布于 2018-03-14
  • 来自专栏菜鸟学数据分析之R语言

    R语言】文本挖掘| 网页爬虫新闻内容

    图4 网页爬虫结果

    2K10发布于 2021-01-28
  • 来自专栏深度学习之tensorflow实战篇

    网页爬虫-R语言实现基本函数

    #*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1

    80240发布于 2019-02-14
  • 来自专栏深度学习之tensorflow实战篇

    网页爬虫-R语言实现基本函数

    #*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1

    95270发布于 2018-03-16
  • 来自专栏以终为始

    7-5 堆中的路径 (25 分)

    7-5 堆中的路径 (25 分) 将一系列给定数字插入一个初始为空的小顶堆H[]。随后对任意给定的下标i,打印从H[i]到根结点的路径。

    20720编辑于 2023-03-09
  • 来自专栏小徐学爬虫

    告别低效:构建健壮R爬虫的工程思维

    这些教训让我明白,熟练不等于精通,R爬虫的艺术不在于写出能跑的代码,而在于构建健壮、高效且礼貌的工程。今天,我想分享这些用教训换来的经验,希望你无需重蹈我的覆辙。 R语言爬虫老手,尤其是在从其他语言(如Python)转过来,或者习惯了小规模、一次性脚本的数据分析师,常常会陷入一些特定的思维定式和误区。这些误区会导致代码脆弱、效率低下,甚至引发法律风险。 以下是一些R语言爬虫老手都会犯的误区及其详细的解决方案:误区一:过度依赖 rvest + SelectorGadget 的“万能”组合表现: 认为所有网站都可以用 rvest::html_nodes() 根源: 低估了反爬虫机制的敏感性。默认的R User-Agent(例如 libcurl/... 或 r-curl/...)非常显眼。解决方案:模拟真实浏览器: 总是设置合理的HTTP请求头。 回顾这些坎坷,我的核心领悟是:强大的R爬虫绝非一堆函数调用,而是一个精心设计的系统。它需要我用侦探的眼光去发现隐藏API,用工程师的思维去处理错误与重试,用外交官的姿态去管理会话与延迟。

    22710编辑于 2025-09-08
  • 来自专栏R语言交流中心

    R语言网络爬虫之Pubmed API的使用

    今天我来给大家介绍一下Pubmed API是如何在R语言中运用自如的。 1. 我们需要安装R语言实现网络爬虫的两个关键包: XML,RCurl。 安装R包大家都熟悉了: install.packages('XML'); install.packages('RCurl'); 或者你如果觉得写代码麻烦,你也可以通过R语言菜单实现: ? 2. R包安装成功后,在进行网络爬虫时需要加载这两个包:XML,RCurl。 R代码: library(XML) library(RCurl) 完成R包的加载。 3. R语言调用Pubmed API代码实例(获取基因SI和cancer相关的文献): path='https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi

    7K40发布于 2019-07-31
  • 来自专栏机器学习AI算法工程

    R语言爬虫初尝试-基于RVEST包学习

    在学完coursera的getting and Cleaning data后,继续学习用R爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。 再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖。。。 言归正传,拿了几个网页练手。 包括对拉勾网爬了一下虫,还尝试了对国外某黄页爬虫,对ebay用户评价爬虫分析其卖家卖的东西主要在哪个价格段(我查的那个卖家,卖8.99和39.99最多,鞋子类),做了一下文本挖掘,还有爬了一下股票数据, 不过这个研究让我深刻体会到了爬虫的有效性!好玩!实用! 受张丹老师的两条均线与R语言)鼓舞好大!我觉得学R嘛,用到实处才是重要的!玩爬虫玩的太开心都没跟JHU的课了。。。。 以后可以尝试按照自己和老爸的看股票习惯开发出类似的选股模型来~~

    1.9K30发布于 2018-03-12
  • 来自专栏小徐学爬虫

    R语言初学者爬虫简单模板

    习惯使用python做爬虫的,反过来使用R语言可能有点不太习惯,正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。 对于入门学者来说,R语言使用rvest+httr组合,几行代码就能完成简单爬取(比Python的Scrapy简单得多),R语言数据处理优势明显,爬取后可直接用dplyr/tidyr清洗,小打小闹用R语言完全没问题 以下是一个适合初学者的R语言爬虫通用模板,使用rvest和httr包实现。 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0")​# ======================# 核心爬虫函数 ,常见的还是python爬虫,因为起特性可能经常遇到一些问题,例如:乱码问题、动态内容、登录验证、分页爬取,分别总结了对应的处理方法,如有更多问题可以留言咨询我。

    26810编辑于 2025-07-03
  • 来自专栏freesan44

    PTA 7-5 实验室使用排期 (25 分)

    受新冠疫情影响,当前大家的活动都必须注意保持充分的社交距离,国家实验室的使用也同样受到了严格的限制。假设规定任何一个时间点上,实验室内最多只能有 1 个人,且每个人都必须提前申请实验室的使用,只有申请被批准后才能进入。现给定一批第二天的实验室使用申请,你需要写个程序自动审批,使得能够被批准的申请数量最大化。

    61900发布于 2021-09-10
  • 来自专栏freesan44

    PTA 7-5 子串与子列 (25 分)

    子串是一个字符串中连续的一部分,而子列是字符串中保持字符顺序的一个子集,可以连续也可以不连续。例如给定字符串 atpaaabpabtt,pabt是一个子串,而 pat 就是一个子列。

    39510编辑于 2021-12-06
  • 来自专栏freesan44

    PTA 7-5 子串与子列 (25 分)

    子串是一个字符串中连续的一部分,而子列是字符串中保持字符顺序的一个子集,可以连续也可以不连续。例如给定字符串 atpaaabpabtt,pabt是一个子串,而 pat 就是一个子列。

    45740发布于 2021-09-10
  • 来自专栏小徐学爬虫

    R语言爬虫程序自动爬取图片并下载

    R语言本身并不适合用来爬取数据,它更适合进行统计分析和数据可视化。而Python的requests,BeautifulSoup,Scrapy等库则更适合用来爬取网页数据。 如果你想要在R中获取网页内容,你可以使用rvest包。 另外,使用爬虫ip是爬虫的常见做法,以避免被目标网站封IP。 在Python中,你可以使用requests.get(url, proxies={‘duoip_proxy_host:your_proxy_port’})来设置爬虫ip。 在R中,我不清楚是否可以直接设置爬虫ip,但你可以在requests库的文档中查找相关信息。

    46110编辑于 2023-11-14
  • 来自专栏freesan44

    PTA 7-5 实验室使用排期 (25 分)

    受新冠疫情影响,当前大家的活动都必须注意保持充分的社交距离,国家实验室的使用也同样受到了严格的限制。假设规定任何一个时间点上,实验室内最多只能有 1 个人,且每个人都必须提前申请实验室的使用,只有申请被批准后才能进入。现给定一批第二天的实验室使用申请,你需要写个程序自动审批,使得能够被批准的申请数量最大化。

    47510编辑于 2021-12-06
领券