首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏刷题笔记

    7-4 悄悄关注 (25 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/97864803 7-4 悄悄关注 (25 分) 新浪微博上有个“悄悄关注”,一个用户悄悄关注的人

    1.1K10发布于 2019-11-08
  • 来自专栏刷题笔记

    7-4 字符串排序

    点这里 7-4 字符串排序 本题要求编写程序,读入5个字符串,按由小到大的顺序输出。 输入格式: 输入为由空格分隔的5个非空字符串,每个字符串不包括空格、制表符、换行符等空白字符,长度小于80。

    89410发布于 2019-11-08
  • 来自专栏刷题笔记

    7-4 树的遍历 (20 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/102924283 7-4 树的遍历 (20 分) 给定一棵二叉树的后序遍历和中序遍历,请你输出其层序遍历的序列

    72510发布于 2019-11-07
  • 来自专栏python3

    Python-爬虫03:urllib.r

    浏览器 就是互联网世界上公认被允许的身份,如果我们希望我们的爬虫程序更像一个真实用户,那我们第一步就是需要伪装成一个被浏览器。

    85120发布于 2020-01-19
  • 来自专栏机器学习养成记

    R语言爬虫与文本分析

    之前用python做过简单的爬虫与分析,今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料,然后进行了词云绘制、关键词提取的基本操作。 代码实现 R语言中,有两种进行数据获取的方式。一种是RCurl包+XML包,过程与python中的urllib与bs4相似,先读取网页代码再对html代码进行解析。 用wordcloud2绘制词云的方法在十九大讲话文本分析(R语言)中也有介绍,本次我们用自定义图片的方式设置词云形状,即设置figPath参数,注意,图片需要存放在wordcloud2中默认的文件夹下,

    2.3K140发布于 2018-04-10
  • 来自专栏刷题笔记

    7-4 括号匹配 (25 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/101472923 7-4 括号匹配 (25 分) 给定一串字符,不超过100个字符,可能包括括号

    96930发布于 2019-11-08
  • 来自专栏数据结构和算法

    7-4 学生成绩排序 (15分)

    7-4 学生成绩排序 (15分) 输入格式: 输入一个正整数n(n<50),下面n行输入n个学生的信息,包括:学号、姓名、三门课程成绩(整数)。

    38110编辑于 2023-11-30
  • 来自专栏机器学习AI算法工程

    python爬虫+R数据可视化 实例

    Python 和 r语言这对黄金搭档,在数据获取,分析和可视化展示方面,各具特色,相互配合,当之无愧成为数据分析领域的两把利剑。 该项目分为两个模块: 1,数据准备阶段 采用python网络爬虫,实现所需数据的抓取; 2,数据处理和数据可视化,采用r语言作为分析工具并作可视化展示。 login_url = post_url 以下即可采用正则表达式,提取 今日发帖数,会员人数,在线人数 代码如下: #正则获取列表页 user_num,topic_num,online_num 这种广度搜索爬虫都会涉及到需要补全链接的坑 第二,数据处理和数据可视化 主要采用r语言读取数据,进行频数统计和图表展示 简单贴几段代码: 读取剪切板数据 并采用table()函数求频数 data3<-read.table("clipboard r语言版 ?

    1.9K40发布于 2018-03-14
  • 来自专栏菜鸟学数据分析之R语言

    R语言】文本挖掘| 网页爬虫新闻内容

    图4 网页爬虫结果

    2K10发布于 2021-01-28
  • 来自专栏深度学习之tensorflow实战篇

    网页爬虫-R语言实现基本函数

    #*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1

    80240发布于 2019-02-14
  • 来自专栏算法与数据结构

    PTA 7-4 排座位(25 分)

    7-4 排座位(25 分) 布置宴席最微妙的事情,就是给前来参宴的各位宾客安排座位。无论如何,总不能把两个死对头排到同一张宴会桌旁!

    1.6K90发布于 2017-12-29
  • 来自专栏深度学习之tensorflow实战篇

    网页爬虫-R语言实现基本函数

    #*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1

    95270发布于 2018-03-16
  • 来自专栏freesan44

    PTA 7-4 素数等差数列 (20 分)

    2004 年,陶哲轩(Terence Tao)和本·格林(Ben Green)证明了:对于任意大的 n,均存在 n 项全由素数组成的等差数列。例如 { 7,37,67,97,127,157 } 是 n=6 的解。本题就请你对给定的 n 在指定范围内找出一组最大的解。

    35500发布于 2021-09-10
  • 来自专栏小徐学爬虫

    告别低效:构建健壮R爬虫的工程思维

    这些教训让我明白,熟练不等于精通,R爬虫的艺术不在于写出能跑的代码,而在于构建健壮、高效且礼貌的工程。今天,我想分享这些用教训换来的经验,希望你无需重蹈我的覆辙。 R语言爬虫老手,尤其是在从其他语言(如Python)转过来,或者习惯了小规模、一次性脚本的数据分析师,常常会陷入一些特定的思维定式和误区。这些误区会导致代码脆弱、效率低下,甚至引发法律风险。 以下是一些R语言爬虫老手都会犯的误区及其详细的解决方案:误区一:过度依赖 rvest + SelectorGadget 的“万能”组合表现: 认为所有网站都可以用 rvest::html_nodes() 根源: 低估了反爬虫机制的敏感性。默认的R User-Agent(例如 libcurl/... 或 r-curl/...)非常显眼。解决方案:模拟真实浏览器: 总是设置合理的HTTP请求头。 回顾这些坎坷,我的核心领悟是:强大的R爬虫绝非一堆函数调用,而是一个精心设计的系统。它需要我用侦探的眼光去发现隐藏API,用工程师的思维去处理错误与重试,用外交官的姿态去管理会话与延迟。

    22510编辑于 2025-09-08
  • 来自专栏R语言交流中心

    R语言网络爬虫之Pubmed API的使用

    今天我来给大家介绍一下Pubmed API是如何在R语言中运用自如的。 1. 我们需要安装R语言实现网络爬虫的两个关键包: XML,RCurl。 安装R包大家都熟悉了: install.packages('XML'); install.packages('RCurl'); 或者你如果觉得写代码麻烦,你也可以通过R语言菜单实现: ? 2. R包安装成功后,在进行网络爬虫时需要加载这两个包:XML,RCurl。 R代码: library(XML) library(RCurl) 完成R包的加载。 3. R语言调用Pubmed API代码实例(获取基因SI和cancer相关的文献): path='https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi

    7K40发布于 2019-07-31
  • 来自专栏机器学习AI算法工程

    R语言爬虫初尝试-基于RVEST包学习

    在学完coursera的getting and Cleaning data后,继续学习用R爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。 再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖。。。 言归正传,拿了几个网页练手。 包括对拉勾网爬了一下虫,还尝试了对国外某黄页爬虫,对ebay用户评价爬虫分析其卖家卖的东西主要在哪个价格段(我查的那个卖家,卖8.99和39.99最多,鞋子类),做了一下文本挖掘,还有爬了一下股票数据, 不过这个研究让我深刻体会到了爬虫的有效性!好玩!实用! 受张丹老师的两条均线与R语言)鼓舞好大!我觉得学R嘛,用到实处才是重要的!玩爬虫玩的太开心都没跟JHU的课了。。。。 以后可以尝试按照自己和老爸的看股票习惯开发出类似的选股模型来~~

    1.9K30发布于 2018-03-12
  • 来自专栏小徐学爬虫

    R语言初学者爬虫简单模板

    习惯使用python做爬虫的,反过来使用R语言可能有点不太习惯,正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。 对于入门学者来说,R语言使用rvest+httr组合,几行代码就能完成简单爬取(比Python的Scrapy简单得多),R语言数据处理优势明显,爬取后可直接用dplyr/tidyr清洗,小打小闹用R语言完全没问题 以下是一个适合初学者的R语言爬虫通用模板,使用rvest和httr包实现。 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0")​# ======================# 核心爬虫函数 ,常见的还是python爬虫,因为起特性可能经常遇到一些问题,例如:乱码问题、动态内容、登录验证、分页爬取,分别总结了对应的处理方法,如有更多问题可以留言咨询我。

    26810编辑于 2025-07-03
  • 来自专栏小徐学爬虫

    R语言爬虫程序自动爬取图片并下载

    R语言本身并不适合用来爬取数据,它更适合进行统计分析和数据可视化。而Python的requests,BeautifulSoup,Scrapy等库则更适合用来爬取网页数据。 如果你想要在R中获取网页内容,你可以使用rvest包。 另外,使用爬虫ip是爬虫的常见做法,以避免被目标网站封IP。 在Python中,你可以使用requests.get(url, proxies={‘duoip_proxy_host:your_proxy_port’})来设置爬虫ip。 在R中,我不清楚是否可以直接设置爬虫ip,但你可以在requests库的文档中查找相关信息。

    46110编辑于 2023-11-14
  • 来自专栏freesan44

    PTA 7-4 最近的斐波那契数 (20 分)

    =1。所谓与给定的整数 N 最近的斐波那契数是指与 N 的差之绝对值最小的斐波那契数。

    43210发布于 2021-09-10
  • 来自专栏刷题笔记

    【2020HBU天梯赛训练】7-4 稳赢

    7-4 稳赢 大家应该都会玩“锤子剪刀布”的游戏:两人同时给出手势,胜负规则如图所示: ? 现要求你编写一个稳赢不输的程序,根据对方的出招,给出对应的赢招。但是!

    48010发布于 2020-06-23
领券