首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏以终为始

    7-8 Left-pad (20 分)

    7-8 Left-pad (20 分) 根据新浪微博上的消息,有一位开发者不满NPM(Node Package Manager)的做法,收回了自己的开源代码,其中包括一个叫left-pad的模块,就是这个模块把

    49610编辑于 2023-03-09
  • 来自专栏python3

    Python-爬虫03:urllib.r

    浏览器 就是互联网世界上公认被允许的身份,如果我们希望我们的爬虫程序更像一个真实用户,那我们第一步就是需要伪装成一个被浏览器。

    85120发布于 2020-01-19
  • 来自专栏机器学习养成记

    R语言爬虫与文本分析

    之前用python做过简单的爬虫与分析,今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料,然后进行了词云绘制、关键词提取的基本操作。 代码实现 R语言中,有两种进行数据获取的方式。一种是RCurl包+XML包,过程与python中的urllib与bs4相似,先读取网页代码再对html代码进行解析。 用wordcloud2绘制词云的方法在十九大讲话文本分析(R语言)中也有介绍,本次我们用自定义图片的方式设置词云形状,即设置figPath参数,注意,图片需要存放在wordcloud2中默认的文件夹下,

    2.3K140发布于 2018-04-10
  • day 7-8 GEO数据挖掘

    数据整理-差异分析(芯片和转录组统计学原理和工具不同)- WGCNA(加权共表达网络)-富集分析(给差异基因找归宿 GO/DO/ KEGG/ GSEA msigdb)-PPI(蛋白蛋白互作网络,不需要R语言 )-预后分析(影响生存的疾病) 下载包的经验:1/换镜像 2/换网络 3/确认包的来源途径(CRAN/Biocondutor···) 批量安装包的代码在pipeline-00_pre_install.R R语言软件版本可能和镜像有关联,注意及时升级R 不鼓励官网下载包手动安装的方式 1.3 常见的图 1、热图:有聚类和基因上调下调的信息 2、散点图和箱线图: 箱线图是散点图的精华 箱线图输入数据是一个连续型数据和一个有重复值的离散值向量 4.2 用途:用于“预试验”,简单查看组间差别 刚得知小洁老师2018年才学R语言,现在如此精通,不过老师做笔记的习惯真的非常好,已经产生超级多笔记了。 (第二列),没搜到就是没有R包,再看方法2。

    46110编辑于 2025-08-15
  • 来自专栏刷题笔记

    7-8 阅览室 (20 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/99688636 7-8 阅览室 (20 分) 天梯图书阅览室请你编写一个简单的图书借阅统计程序

    66410发布于 2019-11-08
  • 来自专栏机器学习AI算法工程

    python爬虫+R数据可视化 实例

    Python 和 r语言这对黄金搭档,在数据获取,分析和可视化展示方面,各具特色,相互配合,当之无愧成为数据分析领域的两把利剑。 该项目分为两个模块: 1,数据准备阶段 采用python网络爬虫,实现所需数据的抓取; 2,数据处理和数据可视化,采用r语言作为分析工具并作可视化展示。 login_url = post_url 以下即可采用正则表达式,提取 今日发帖数,会员人数,在线人数 代码如下: #正则获取列表页 user_num,topic_num,online_num 这种广度搜索爬虫都会涉及到需要补全链接的坑 第二,数据处理和数据可视化 主要采用r语言读取数据,进行频数统计和图表展示 简单贴几段代码: 读取剪切板数据 并采用table()函数求频数 data3<-read.table("clipboard r语言版 ?

    1.9K40发布于 2018-03-14
  • 来自专栏菜鸟学数据分析之R语言

    R语言】文本挖掘| 网页爬虫新闻内容

    图4 网页爬虫结果

    2K10发布于 2021-01-28
  • 来自专栏深度学习之tensorflow实战篇

    网页爬虫-R语言实现基本函数

    #*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1

    80240发布于 2019-02-14
  • 来自专栏萌海无涯

    centos 7-8重置root密码

    引导至GRUB菜单并进入编辑模式。使用箭头导航至通常从中引导 Centos 7 Linux系统的菜单项。按下e以开始编辑所选菜单项。

    1.8K10发布于 2021-02-24
  • 来自专栏深度学习之tensorflow实战篇

    网页爬虫-R语言实现基本函数

    #*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1

    95270发布于 2018-03-16
  • 来自专栏刷题笔记

    7-8 堆栈模拟队列 (25 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/97869472 7-8 堆栈模拟队列 (25 分) 设已知有两个堆栈S1和S2,请用这两个堆栈模拟出一个队列

    1.2K20发布于 2019-11-08
  • 来自专栏R语言交流中心

    R语言网络爬虫之Pubmed API的使用

    今天我来给大家介绍一下Pubmed API是如何在R语言中运用自如的。 1. 我们需要安装R语言实现网络爬虫的两个关键包: XML,RCurl。 安装R包大家都熟悉了: install.packages('XML'); install.packages('RCurl'); 或者你如果觉得写代码麻烦,你也可以通过R语言菜单实现: ? 2. R包安装成功后,在进行网络爬虫时需要加载这两个包:XML,RCurl。 R代码: library(XML) library(RCurl) 完成R包的加载。 3. R语言调用Pubmed API代码实例(获取基因SI和cancer相关的文献): path='https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi

    7K40发布于 2019-07-31
  • 来自专栏小徐学爬虫

    告别低效:构建健壮R爬虫的工程思维

    这些教训让我明白,熟练不等于精通,R爬虫的艺术不在于写出能跑的代码,而在于构建健壮、高效且礼貌的工程。今天,我想分享这些用教训换来的经验,希望你无需重蹈我的覆辙。 R语言爬虫老手,尤其是在从其他语言(如Python)转过来,或者习惯了小规模、一次性脚本的数据分析师,常常会陷入一些特定的思维定式和误区。这些误区会导致代码脆弱、效率低下,甚至引发法律风险。 以下是一些R语言爬虫老手都会犯的误区及其详细的解决方案:误区一:过度依赖 rvest + SelectorGadget 的“万能”组合表现: 认为所有网站都可以用 rvest::html_nodes() 根源: 低估了反爬虫机制的敏感性。默认的R User-Agent(例如 libcurl/... 或 r-curl/...)非常显眼。解决方案:模拟真实浏览器: 总是设置合理的HTTP请求头。 回顾这些坎坷,我的核心领悟是:强大的R爬虫绝非一堆函数调用,而是一个精心设计的系统。它需要我用侦探的眼光去发现隐藏API,用工程师的思维去处理错误与重试,用外交官的姿态去管理会话与延迟。

    22710编辑于 2025-09-08
  • 来自专栏机器学习AI算法工程

    R语言爬虫初尝试-基于RVEST包学习

    在学完coursera的getting and Cleaning data后,继续学习用R爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。 再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖。。。 言归正传,拿了几个网页练手。 包括对拉勾网爬了一下虫,还尝试了对国外某黄页爬虫,对ebay用户评价爬虫分析其卖家卖的东西主要在哪个价格段(我查的那个卖家,卖8.99和39.99最多,鞋子类),做了一下文本挖掘,还有爬了一下股票数据, 不过这个研究让我深刻体会到了爬虫的有效性!好玩!实用! 受张丹老师的两条均线与R语言)鼓舞好大!我觉得学R嘛,用到实处才是重要的!玩爬虫玩的太开心都没跟JHU的课了。。。。 以后可以尝试按照自己和老爸的看股票习惯开发出类似的选股模型来~~

    1.9K30发布于 2018-03-12
  • 来自专栏小徐学爬虫

    R语言初学者爬虫简单模板

    习惯使用python做爬虫的,反过来使用R语言可能有点不太习惯,正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。 对于入门学者来说,R语言使用rvest+httr组合,几行代码就能完成简单爬取(比Python的Scrapy简单得多),R语言数据处理优势明显,爬取后可直接用dplyr/tidyr清洗,小打小闹用R语言完全没问题 以下是一个适合初学者的R语言爬虫通用模板,使用rvest和httr包实现。 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0")​# ======================# 核心爬虫函数 ,常见的还是python爬虫,因为起特性可能经常遇到一些问题,例如:乱码问题、动态内容、登录验证、分页爬取,分别总结了对应的处理方法,如有更多问题可以留言咨询我。

    26810编辑于 2025-07-03
  • 来自专栏ReganYue's Blog

    【PTA】7-8 到底有多二 (15分)

    一个整数“犯二的程度”定义为该数字中包含2的个数与其位数的比值。如果这个数是负数,则程度增加0.5倍;如果还是个偶数,则再增加1倍。例如数字-13142223336是个11位数,其中有3个2,并且是负数,也是偶数,则它的犯二程度计算为:3/11×1.5×2×100%,约为81.82%。本题就请你计算一个给定整数到底有多二。

    74430发布于 2021-09-16
  • 来自专栏小徐学爬虫

    R语言爬虫程序自动爬取图片并下载

    R语言本身并不适合用来爬取数据,它更适合进行统计分析和数据可视化。而Python的requests,BeautifulSoup,Scrapy等库则更适合用来爬取网页数据。 如果你想要在R中获取网页内容,你可以使用rvest包。 另外,使用爬虫ip是爬虫的常见做法,以避免被目标网站封IP。 在Python中,你可以使用requests.get(url, proxies={‘duoip_proxy_host:your_proxy_port’})来设置爬虫ip。 在R中,我不清楚是否可以直接设置爬虫ip,但你可以在requests库的文档中查找相关信息。

    46110编辑于 2023-11-14
  • 来自专栏刷题笔记

    【未完成】7-8 最长有效括号串 (20 分)13分

    本文链接:https://blog.csdn.net/shiliang97/article/details/101473397 7-8 最长有效括号串 (20 分) 给定一个只含左右小括号的括号串序列

    46330发布于 2019-11-08
  • 来自专栏ReganYue's Blog

    【PTA】7-8 显示菱形 (10point(s))

    请编写函数,输入菱形的行数和组成菱形的字符,输出对应的菱形图像。 输入样例 5 $ 输出样例 $ $$$ $$$$$ $$$ $ 要求:若行数小于等于 0,则输出 None;若行数是偶数,则输出Error。 #include int main() { int n; char c; scanf("%d %c",&n,&c); if(n<=0) printf("None"); else if(n%2==0) printf("Error"); else { int m=n/2+1;

    36320发布于 2021-09-16
  • 来自专栏刷题笔记

    7-8 汉诺塔的非递归实现

    点这里 7-8 汉诺塔的非递归实现 借助堆栈以非递归(循环)方式求解汉诺塔的问题(n, a, b, c),即将N个盘子从起始柱(标记为“a”)通过借助柱(标记为“b”)移动到目标柱(标记为“c”),并保证每个移动符合汉诺塔问题的要求

    1.1K10发布于 2019-11-08
领券