搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏R语言 / Linux
R基础-3
3.1 数据框来源（1）用代码新建（2）由已有数据转换或处理得到（3）读取表格文件（4）R语言内置数据 3.2 新建数据框（数据框是以列为单位组织的） 3.2.1 用代码新建 data.frame -2,-4)) 可以R中跑一次上面的代码看看，gene change score是列的名字，后面的代码是形成列的内容的代码。 > df1[,-ncol(df1)] # - 有反选的意思 3.5 数据框修改 #改一个格 > df1[3,3]<-5 > df1 #改一整列 > df1$score<- c(12,23,50,2 ","r2","r3","r4") #修改全部行名 > colnames(df1)[2] <-"CHANGE" #改一个列名，比如修改第二列的列名，就是修改【列明这个向量】的第二个元素 > merge(test1,test3,by.x="name",by.y="NAME") #但是要注意，一定要对应，test1是x，test3是y。
1.4K50编辑于 2023-03-13
来自专栏python3
【Python3爬虫】拉勾网爬虫
一、思路分析：在之前写拉勾网的爬虫的时候，总是得到下面这个结果（真是头疼），当你看到下面这个结果的时候，也就意味着被反爬了，因为一些网站会有相应的反爬虫措施，例如很多网站会检测某一段时间某个IP的访问次数要想我们的爬虫不被检测出来，我们可以使用代理IP，而网上有很多提供免费代理的网站，比如西刺代理、快代理、89免费代理等等，我们可以爬取一些免费的代理然后搭建我们的代理池，使用的时候直接从里面进行调用就好了 self): 40 # 验证代理池中的IP是否可用 41 print("开始清洗代理池...") 42 with open("proxies.txt", 'r' import random 4 import requests 5 with open("具体路径\proxies.txt", 'r', encoding="utf-8" 11e8-a9f6-5254005c3644; JSESSIONID=ABAAABAAAGFABEFFF09D504261EB56E3CCC780FB4358A5E; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6
77320发布于 2020-01-06
来自专栏python3
Python-爬虫03：urllib.r
Python模块源代码： C:\Users\haoch\Anaconda3\Lib urllib.request源代码:C:\Users\haoch\Anaconda3\Lib\urllib\request.py https_handler = HTTPSHandler(context=context) # 知识点3： %d' % sys.version_info[:2]--->sys.version[:3] = 3.7 client_version = "Python-urllib/%s" % __version 浏览器就是互联网世界上公认被允许的身份，如果我们希望我们的爬虫程序更像一个真实用户，那我们第一步就是需要伪装成一个被浏览器。 ; __cfduid=d7aafabcd6ccc970c2d47e9e205fc3c851546334654; cflag=13%3A3; delPer=0; BD_HOME=0; H_PS_PSSID
84320发布于 2020-01-19
来自专栏机器学习养成记
R语言爬虫与文本分析
之前用python做过简单的爬虫与分析，今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料，然后进行了词云绘制、关键词提取的基本操作。代码实现 R语言中，有两种进行数据获取的方式。一种是RCurl包+XML包，过程与python中的urllib与bs4相似，先读取网页代码再对html代码进行解析。
的父标签，所以倒数3行可以写成如下更简单的模式： ? ? 变量comments_text就是短评的文本结果。用wordcloud2绘制词云的方法在十九大讲话文本分析（R语言）中也有介绍，本次我们用自定义图片的方式设置词云形状，即设置figPath参数，注意，图片需要存放在wordcloud2中默认的文件夹下，
2.3K140发布于 2018-04-10
来自专栏R语言&linux
3-R包
1.R包的安装图片option是设置图片1.R包安装和使用的逻辑：安装包-加载包-使用包里的函数2.用library()检查是否安装成功——唯一标准3.已经安装的包用::快速调用里面的函数4.常见疑问1 ）没有error就忽略2）package not available包名写错；命令写错；R语言版本和包要求版本不同；包过时被剔除图片3）是否更新：建议选n，除非一直报错；不想回答安装命令参数：update require(stringr))install.packages("stringr")6.R包如何使用-获取帮助1) 快速查看函数帮助文档? sd 2)找R包介绍页面3）browsevignettes('') 在线教程7.补充常见的R语言符号图片中括号前是数据框或者矩阵两个中括号前是列表library括号里的是包文件名称出现在代码里，必然在实际参数的位置上带引号
53900编辑于 2023-02-03
来自专栏生信矿工
R语言笔记-3
形式参数由函数作者指定，使用者输入实际参数时可省略实际参数函数的自定义 #自定义函数 cal = function(a,b,c = 2){(a+b)*c} #c=2为函数默认值 cal(1,2) cal(1,2,3) #函数默认值可更改输出结果： R包的安装 R包库：CRAN、Bioconductor CRAN：R包默认的安装库 Bioconductor：生信相关的R包库 #设置CRAN和Bioconductor mirrors.tuna.tsinghua.edu.cn/CRAN/")) options(BioC_mirror="http://mirrors.ustc.edu.cn/bioc/") #CRAN安装R包相当于library(BiocManager)和install() R包安装常见问题 package not available R包名输入错误安装命令使用错误 R语言版本与R包要求不符（极少情况） R包过时，被作者删除加载某一R包，报错提醒另一R包不存在安装所需的依赖包更新所有安装包 not writable / permission denied 权限问题，管理员方式打开Rstudio
64840编辑于 2023-05-20
来自专栏R语言数据分析
R语言基础3
}##a,b,m为形式参数；jimmy为函数名称；m的默认值为2;##大括号内为编写函数使用的代码；> jimmy(a = 1,b = 2)[1] 9> jimmy(1,2)[1] 9> jimmy(3,6 ,-2)[1] 0.01234568plot(iris[,1],col = iris[,5])plot(iris[,2],col = iris[,5])plot(iris[,3],col = iris[ #当一个代码需要复制粘贴三次，就应该写成函数或使用循环jimmy <- function(i){ plot(iris[,i],col=iris[,5])}jimmy(1)jimmy(2)jimmy(3) jimmy(4)安装R包多个函数打包存放包含函数，数据，帮助文档，描述文件等。找到R包的使用规律R包的位置：CRANinstall.packages("tidyr")R包的位置：bioconducterBiocManager::install("ggplot2")R包的位置：githubdevtools
32520编辑于 2023-09-13
来自专栏机器学习AI算法工程
python爬虫+R数据可视化实例
Python 和 r语言这对黄金搭档，在数据获取，分析和可视化展示方面，各具特色，相互配合，当之无愧成为数据分析领域的两把利剑。该项目分为两个模块： 1，数据准备阶段采用python网络爬虫，实现所需数据的抓取； 2，数据处理和数据可视化，采用r语言作为分析工具并作可视化展示。 login_url = post_url 以下即可采用正则表达式，提取今日发帖数，会员人数，在线人数代码如下： #正则获取列表页 user_num,topic_num,online_num 这种广度搜索爬虫都会涉及到需要补全链接的坑第二，数据处理和数据可视化主要采用r语言读取数据，进行频数统计和图表展示简单贴几段代码：读取剪切板数据并采用table()函数求频数 data3<-read.table("clipboard r语言版 ?
1.9K40发布于 2018-03-14
来自专栏python3
Python 爬虫（3）
【基于python3的版本】 rllib下载：当不知道urlretrieve方法，写法如下： from urllib import request url = "http://inews.gtimg.com 学习： urllib的cookie相关的类在python2中cookie的类叫做：import cookielib 在python3中cookie的类叫做：import http.cookiejar urllib.request.HTTPCookieProcessor(cookieh) #绑定请求，也就是说在一次请求中，只要你进行访问，他就会保存下来你的cookie信息 opener = urllib.request.build_opener(handler) r handler = urllib.request.HTTPCookieProcessor(cookieh) opener = urllib.request.build_opener(handler) r
91410发布于 2020-01-03
来自专栏python-爬虫
爬虫指纹 JA3
JA3 指纹里面，很大的一块就是 Cipher Suits，也就是加密算法。 :DH+3DES:RSA+AESGCM:RSA+AES:RSA+HIGH:RSA+3DES:! MD5 设计到代码 from requests.adapters import HTTPAdapter from requests.packages.urllib3.util.ssl_ import create_urllib3 :DH+3DES:RSA+AESGCM:RSA+AES:RSA+HIGH:RSA+3DES') class DESAdapter(HTTPAdapter): def __init__(self :DH+3DES:RSA+AESGCM:RSA+AES:RSA+HIGH:RSA+3DES:!
1.2K10编辑于 2022-05-09
来自专栏深度学习之tensorflow实战篇
网页爬虫-R语言实现基本函数
#*************网页爬虫-R语言实现，函数库文件*******# #****作者：H***************************************# #****版本：v0.1 } } i<-i+1 } result } #test #测试crawler1 #测试内容 url1<-"http://3c.taobao.com spm=872.217037.254698.6.deIiSJ&spuid=205341228&cat=1101" url2<-"http://3c.taobao.com/detail.htm? spm=872.217037.254698.11.deIiSJ&spuid=203228104&cat=1101" url3<-"http://item.taobao.com/item.htm? spm=1020.3.9.122.SCNhDn&id=15695321398&from=" url<-c(url1,url2,url<em>3</em>) xpath<-c("//div[@id='idetail']//
80140发布于 2019-02-14
来自专栏菜鸟学数据分析之R语言
【R语言】文本挖掘| 网页爬虫新闻内容
图3 link1数据特点从link1来看，并不完全是链接格式，接下来利用paste将 https://www.thepaper.cn/与link1中的进行连接得到link2 link2<-paste( for(i in 1:length(link2)) { news_date[i]<-(read_html(link2[i])%>%html_nodes('div p')%>%html_text())[3] 图4 网页爬虫结果
2K10发布于 2021-01-28
来自专栏深度学习之tensorflow实战篇
网页爬虫-R语言实现基本函数
#*************网页爬虫-R语言实现，函数库文件*******# #****作者：H***************************************# #****版本：v0.1 } } i<-i+1 } result } #test #测试crawler1 #测试内容 url1<-"http://3c.taobao.com spm=872.217037.254698.6.deIiSJ&spuid=205341228&cat=1101" url2<-"http://3c.taobao.com/detail.htm? spm=872.217037.254698.11.deIiSJ&spuid=203228104&cat=1101" url3<-"http://item.taobao.com/item.htm? spm=1020.3.9.122.SCNhDn&id=15695321398&from=" url<-c(url1,url2,url<em>3</em>) xpath<-c("//div[@id='idetail']//
94970发布于 2018-03-16
来自专栏AngelNI
python3爬虫urllib
urllib 库：Python 内置的 HTTP 请求库，无需额外安装即可使用；Python 2 中有 urllib 和 urllib2 两个库来实现请求的发送，Python 3 中统一为 urllib 官方文档：https://docs.python.org/3/library/urllib.html urllib所包含的常用模块 urllib.request：模拟发送请求； urllib.error urllib.robotparser 所包含的类 RobotFileParser：根据网站的 robots.txt 文件来判断一个爬取爬虫是否有权限来爬取这个网页 urllib.request urllib.request.urlopen wd=中国 urllib.robotparser 爬取权限判断 Robots 协议简介 Robots 协议即爬虫协议，用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。 robots.txt 基本格式： User-agent: Disallow: Allow: User-agent 为搜索爬虫的名称，设置为 * 则表示对任何爬虫皆有效； Disallow 指定了不允许抓取的目录
1.5K30发布于 2020-05-25
来自专栏python3
Python3 爬虫 requests
前提准备安装Python以及必要的模块（requests，bs4），不了解requests和bs4的同学可以去官网看个大概之后再回来看教程爬虫思路刚开始写爬虫的小白都有一个疑问，进行到什么时候爬虫还会结束呢答案是：爬虫是在模拟真人在操作，所以当页面中的next链接不存在的时候，就是爬虫结束的时候。 3.用os来写入txt文件具体代码需要把域名和爬取网站对应的ip 写入host文件中，这样可以跳过DNS解析，不这样的话，代码运行一段时间会卡住不动 ''' 抓取新笔趣阁https://www.xbiquge6 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36', } r = requests.get(url=url, headers=headers) r.encoding = 'utf-8' content = r.text
64810发布于 2020-01-02
R语言学习-3
（文中图片引用于生信技能树小洁老师PPT，仅用于自己学习，不用于商业目的，如有侵权，立即删除）Part3 数据框、矩阵和列表 vector向量一维 matrix 新建数据框从文件中读取3. 数据框的属性4. 数据框取子集 a. ＂$＂取列b. R包的介绍3. R包的镜像4. R包的来源和安装方式（1）CRAN网站（2）Bioconductor （3）github5. XX包怎么安6. R包的安装和使用逻辑 R包安装的唯一标准：library()没有error7. R包如何使用获取帮助
30500编辑于 2024-05-13
来自专栏生信补给站
编程之路_R(3)
Mat <- matrix(1:16,nrow=4) qr(Mat)$rank 22.用rbind和cbind合并数据或数据框 AB <- data.frame(A = c('a1','a2','a3' ),B=c('b1','b2','b3')) cbind(AB,AB); rbind(AB,AB) 23.重命名data.frame的行名 X <- mtcars head(X) rownames(X) ###A B是否相同 is.element(12,C) ###12是否在C中 all(C%in%A) ###集合A是否包含C 28.去除向量中NA值 (1)dt <- c(3,33 is.na(dt)] (3)a <- dt[-which(is.na(dt))] (4)b <- na.omit(dt) 29.开n次方 x <- 1000 n <- 5 x^(1/n) 30.查看当前工作目录下有那些变量 objects() 参考：R语言基础编程技巧
42520发布于 2020-08-06
来自专栏生信技能树学习打卡
Day 3 R语言代码
#行名，列名，两者合一，加列/行名dim()colnames()rownames()#加列名即为对向量进行赋值；修改单个列名，取子集即可m <- matrix(1:12,nrow = 3);mcolnames (m) <- c("a","b","c","d") colnames(m)[1] <- "hello";m#融合函数merge(test1,test3,by.x = "name",by.y = "NAME gene",1:4), change = rep(c("up","down"),each = 2), score = c(5,3,
21900编辑于 2024-03-07
来自专栏科技记者
高效使用R笔记3
一、 R启动文件每次R语言启动读入.Renviron和.Rprofile两个文件，前者主要是环境变量，程序位置和API密钥等；后者是启动进需要运行的几行R代码。启动时先找.Renviron，然后是.Rprofile，它们出现在3个目录中，安装目录（R_HOME，R.home())，家目录（HOME, Sys.getenv("HOME"))和当前工作目录（getwd ##D ## Example of setting R_DEFAULT_PACKAGES (from R CMD check) Startp> ##D R_DEFAULT_PACKAGES='utils /CRAN/" options(repos <- r) }) 3） fortunes包这只是为了好玩而已，有趣的灵魂呀！３）推荐的目录结构 Project\ - Readme.RMD # 项目描述 - setup.r # 必须的包 - R/ #代码 - input # 数据文件 - graphics/ #图 - output
1.1K40发布于 2021-05-20
来自专栏庄闪闪的R语言手册
R沟通｜Rmarkdown教程（3）
行内代码 `r sin(pi/2)` 有趣的案例： 1）自动更新日期 date: "`r Sys.Date()`" date: "`r format(Sys.time(), '%d %B, %Y')` ```{r echo=FALSE} print(1:5) ``` 结果为: ## [1] 1 2 3 4 5 collapse选项一个代码块的代码、输出通常被分解为多个原样文本块中，如果一个代码块希望所有的代码这里参考公众号[R友舍] 其他包 tables (Murdoch 2020[2]), pander (Daróczi and Tsegelskyi 2018[3]), tangram (Garbett >% kable_styling(x_html,bootstrap_options = "striped", full_width = F) 3. / [2] Murdoch 2020: https://bookdown.org/yihui/rmarkdown-cookbook/table-other.html#ref-R-tables [3] Daróczi
4K20发布于 2021-04-08

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

R基础-3

【Python3爬虫】拉勾网爬虫

Python-爬虫03：urllib.r

R语言爬虫与文本分析

3-R包

R语言笔记-3

R语言基础3

python爬虫+R数据可视化实例

Python 爬虫（3）

爬虫指纹 JA3

网页爬虫-R语言实现基本函数

【R语言】文本挖掘| 网页爬虫新闻内容

网页爬虫-R语言实现基本函数

python3爬虫urllib

Python3 爬虫 requests

R语言学习-3

编程之路_R(3)

Day 3 R语言代码

高效使用R笔记3

R沟通｜Rmarkdown教程（3）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

R基础-3

【Python3爬虫】拉勾网爬虫

Python-爬虫03：urllib.r

R语言爬虫与文本分析

3-R包

R语言笔记-3

R语言基础3

python爬虫+R数据可视化 实例

Python 爬虫（3）

爬虫指纹 JA3

网页爬虫-R语言实现基本函数

【R语言】文本挖掘| 网页爬虫新闻内容

网页爬虫-R语言实现基本函数

python3爬虫urllib

Python3 爬虫 requests

R语言学习-3

编程之路_R(3)

Day 3 R语言代码

高效使用R笔记3

R沟通｜Rmarkdown教程（3）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python爬虫+R数据可视化实例