搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏正则
python 爬虫2
一、认识爬虫 1.1、什么是爬虫？爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包) 网页解析器 r = requests.get('https://www.jianshu.com') 现在，我们有一个名字为：r的Response响应对象，也就是我们访问网站，网站肯定会给我们数据。一些参数如下： r.status_code # 查看访问状态码 200为ok 是成功的 200 然后获取网页源码 r.text # 就是整个网页的html代码有了html源码一般使用正则匹配数据，」最细致的讲解Python爬虫之Python爬虫入门（一）先到这里
1.1K40发布于 2021-09-07
来自专栏R语言 / Linux
R基础-2
1.2 向量及后续使用已准备好的Rproject（钉钉群里的R_01文件）脚本打开是乱码的解决方式 2 向量 2.1 向量的生成（向量是一串同一种数据类型组合成的整体）有4种办法（1）用c 练习题 1 #生成1到15之间所有偶数 >seq(from=2,to=15,by=2) [100分] 2 #生成向量，内容为："student2" "student4" "student6" "student8 这个非常重要，需要记住】 >x=c(1,3,5,1) >table(x) 【 #重复值统计】 >x=c(1,3,5,1) >sort(x) 【#排序，R语言按照自己的想法排，那么怎么看R语言自己的想法呢 >a=seq(from=2,to=15,by=2) >paste0(rep("student",times=length(a)),seq(from=2,to=15,by=2) ) R语言里函数思想：能用函数代替 >x == 8:12 >x[4] == 40 #改一个元素 >x >x[c(1,5)] == c(80,20) #改多个元素 R语言里的修改，都要赋值，没有赋值就没有发生过 2.6 简单的向量作图
74140编辑于 2023-03-13
来自专栏叶潭生信笔记
R语言2
2.2对单个向量进行操作（1）赋值（ <- alt+—，在R里操作）赋值，=随意的写法，是OK的=可以代替赋值号 <- ，反过来不行赋值+输出一起实现图片可用名，不建议使用已经占用的格式，如c，limma duplicated（x）此为常用使用形式table（X）#重复值统计，看重复几次，没有重复，返回为1，可以统计出现的次数sort（x）排序，默认从小到大，sort（x，decreasing=T)，排序则可改成从大到小R语言的默认思想英文 +函数名帮助文档paste0(rep("student",times=length(a)),seq(2,15,by=2))R语言函数思想：能用函数代替，就不要手动去数，除非代码只用一次2.3对两个向量的操作 [4]--11,x的第四个元素x[2:4]，x[c（1,5）]x[-4]去掉第四个x[-(2:4)]去掉2-4位，反选，是x的下标叹号是给逻辑值用的，-是给向量用的x[1,5]---代码错误，因为不能单独运行 g[seq(2,100,2)]，按位置，取出下标为偶数的基因# 6.向量g中有多少个元素在向量s中存在(要求用函数计算出具体个数)？
1.6K60编辑于 2023-02-01
来自专栏python3
Python-爬虫03：urllib.r
用urlopen来获取网络源代码 1.3. urllib.request.Request的使用 2. User-Ageng的使用-模拟浏览器发送请求 2.1) 为什么要用User-Agent? ", DeprecationWarning, 2) if context is not None: raise ValueError( 浏览器就是互联网世界上公认被允许的身份，如果我们希望我们的爬虫程序更像一个真实用户，那我们第一步就是需要伪装成一个被浏览器。 {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"} request = urllib2. print response.code #可以查看响应状态码 html = response.read() print html 随机添加/修改User-Agent import urllib2
84320发布于 2020-01-19
来自专栏生信补给站
R绘图-ggplot2 (2)
ggplot2提供了多种统计变换方式： stat_abline stat_contour stat_identity stat_summary stat_bin stat_density stat_qq stat_summary2d stat_bin2d stat_density2d stat_quantile require(ggplot2) f1data.frame(x=x,y=y) d -3*sqrt(33)/7,] return(d) } x1data.frame(x2=x2, y2=y2) p2data.frame(x3=x3, y3=y3) p3data.frame(x4=x4,y4=y4) p4data.frame(x5=x5,y5=y5) p5data.frame(x6=x6,y6 =y6) p6 #下面再以生物界中常用的柱状图+误差图为实例，展示ggplot2非常灵活的图层。
1.2K30发布于 2020-08-06
来自专栏机器学习养成记
R语言爬虫与文本分析
之前用python做过简单的爬虫与分析，今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料，然后进行了词云绘制、关键词提取的基本操作。代码实现 R语言中，有两种进行数据获取的方式。一种是RCurl包+XML包，过程与python中的urllib与bs4相似，先读取网页代码再对html代码进行解析。之后，我们用wordcloud2包进行词云绘制。用wordcloud2绘制词云的方法在十九大讲话文本分析（R语言）中也有介绍，本次我们用自定义图片的方式设置词云形状，即设置figPath参数，注意，图片需要存放在wordcloud2中默认的文件夹下，下载wordcloud2包时，可以从github下载，方法如下：devtools::install_github("lchiffon/wordcloud2")，直接从cran下载的，自定义图片运行后无法出来词云效果
2.3K140发布于 2018-04-10
来自专栏花落的技术专栏
R-ggplot2
to=https%3A%2F%2Fcrudata.uea.ac.uk%2Fcru%2Fdata%2Fdrought%2F)” 中的2018年12月的数据进行绘图示例。 dev.off() 图2 Viridis 色带展示 4. 图8 Wes Anderson色带组 df$DC2=cut(df$scpdsi,breaks=c(-Inf,-5,-4,-3,-2,Inf))df$DC2=factor(df$DC2,labels=c( ))+labs(x="ColorBand: BottleRocket2",y=NULL),p1+scale_fill_manual(values=wes_palette('Royal2'))+labs( x="ColorBand: Royal2",y=NULL),p1+scale_fill_manual(values=wes_palette('Darjeeling2'))+labs(x="ColorBand
66700编辑于 2021-12-05
来自专栏生信学习~~~
R2向量
title: "note2" output: html_document date: "2023-05-10" R Markdown向量 #脚本与ppt对应 #运行脚本：光标放在某一行,点”run”, = #2.判断函数is.number()，T,F,NA（缺失值），转换as.number()，转换优先顺序表格的行名和列名不属于表格内容，因此是4列 #注释1在R语言中，as.complex和as.numeric 1,6" "1,4" #注释2在R语言中，paste和paste0都是用于连接（concatenate）字符串的函数。 plot(k1) boxplot(k1~k2) #课后试着搜索boxplot表达什么意思引用生信技能书 This is an R Markdown document. For more details on using R Markdown see http://rmarkdown.rstudio.com.
1.7K00编辑于 2023-05-14
来自专栏快乐阿超
r2dbc
今天看了点R2DBC，官网：https://r2dbc.io/ Spring-Data-R2dbc：https://spring.io/projects/spring-data-r2dbc 学习文档：https ://docs.spring.io/spring-data/r2dbc/docs/current/reference/html/ 跑了下demo，感觉还不错：https://gitee.com/VampireAchao /simple-r2dbc.git
42520编辑于 2022-08-21
来自专栏R语言数据分析
R语言基础2
（3）读取表格文件（4）R语言内置数据> class(iris)[1] "data.frame"> class(volcano)[1] "matrix" "array"2.新建和读取数据框df1 < - c(0.01,0.02,0.07,0.05) df1#改行名和列名rownames(df1) <- c("r1","r2","r3","r4")#只修改某一行/列的名colnames(df1)[2] 矩阵m <- matrix(1:9, nrow = 3)colnames(m) <- c("a","b","c") #加列名mm[2,]m[,1]m[2,3]m[2:3,1:2]mt(m)###矩阵转置 = matrix(2:9, nrow = 2))x> x$m1 [,1] [,2] [,3][1,] 1 4 7[2,] 2 5 8[3,] 3 6 9$m2 [,1] [,2] [,3] [,4][1,] 2 4 6 8[2,] 3 5 7 9###取子集方法x[[1]]x$m1补充
47950编辑于 2023-09-11
来自专栏生信矿工
R语言笔记-2
#按坐标范围取多格，返回一个数据框输出结果：图片图片图片 #数据框的修改 df$score = c(2,3,4,5,3,2) #创建新的列即，给不存在的列赋值 df df[3,3] = 8 ,"3"),each = 3)) df2 = data.frame(GENES = paste0("gene",1:3),count = c(2,3,2)) df df1 df2 #数据框的连接 merge = matrix(1:8,ncol = 3) m1 m2 #矩阵不足行数或列数会自动补齐 colnames(m1) <- c("a","b","c") #添加列名 m1[2,] #矩阵取一行 m1[,1 ] #矩阵取一列 m1[2,3] #矩阵取一格 m1[2:3,1:2] #矩阵取多格 t(m1) as.data.frame(m1) #矩阵转为数据框输出结果：图片列表 #列表的构建 l = list (v = c(1,2,3),df = data.frame(num = c(1,2,3),score = c(2,4,6)),m = matrix(1:9,ncol = 3)) l #列表取子集 l[[
78300编辑于 2023-05-20
来自专栏数据科学与人工智能
【Python环境】Python爬虫入门（2）：爬虫基础了解
1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？ 2.浏览网页的过程在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 http://image.baidu.com/ ，我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过因此，用户看到的网页实质是由 HTML 代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。爬虫爬取数据时必须要有一个目标的URL才可以获取数据，因此，它是爬虫获取数据的基本依据，准确理解它的含义对爬虫学习有很大帮助。 4. 好的开发工具是前进的推进器，希望大家可以找到适合自己的IDE 下一节，我们就正式步入 Python 爬虫学习的殿堂了，小伙伴准备好了嘛？
1K90发布于 2018-02-27
来自专栏机器学习AI算法工程
python爬虫+R数据可视化实例
Python 和 r语言这对黄金搭档，在数据获取，分析和可视化展示方面，各具特色，相互配合，当之无愧成为数据分析领域的两把利剑。该项目分为两个模块： 1，数据准备阶段采用python网络爬虫，实现所需数据的抓取； 2，数据处理和数据可视化，采用r语言作为分析工具并作可视化展示。 filename = 'cookie_ob.txt' 模拟登录和生成cookie文件 cookie = cookielib.MozillaCookieJar(filename) opener = urllib2. login_url = post_url 以下即可采用正则表达式，提取今日发帖数，会员人数，在线人数代码如下： #正则获取列表页 user_num,topic_num,online_num 这种广度搜索爬虫都会涉及到需要补全链接的坑 r语言版 ?
1.9K40发布于 2018-03-14
来自专栏python3
Python 爬虫（2）
= s.get(url) print (r.cookies) for cook in r.cookies: print (cook.name) print (cook.value) ={'key1': 'value1', 'key2': 'value2'}) print(r.text) 结果： { "cookies": { "key1": "value1", () r = s.get(url=url) print (r.encoding) r.encoding = "gbk" print (r.text) 代理访问：采集时为避免被封IP，经常会使用代理。 : "world"} url = 'https://www.baidu.com/' r = requests.get(url=url) print(r.encoding) #ISO -8859-1默认使用的是这个 r.encoding = "utf-8" print(r.text) 这样就可以正常显示了总结： Requests给你提供的所有接口，在传输数据的时候，都可以以key：
54410发布于 2020-01-07
来自专栏CreateAMind
R2D2算法介绍
R2D2: Recurrent Replay Distributed DQN 1. R2D2 is most similar to Ape-X, built upon prioritized distributed replay and n-step double Q-learning We train the R2D2 agent with a single GPU-based learner, performing approximately 5 network updates per For R2D2, we use a single neural network architecture and a single set of hyper-parameters across all R2D2 buffer数据结构复现及应用： https://github.com/createamind/DRL/blob/master/spinup/algos/sac1_rnn/sac1_rnn.py
1.9K20发布于 2019-08-06
来自专栏深度学习之tensorflow实战篇
网页爬虫-R语言实现基本函数
#*************网页爬虫-R语言实现，函数库文件*******# #****作者：H***************************************# #****版本：v0.1 ,不知您要哪一个，我们会把该数据写为空值")) } } i<-i+1 } result } #****函数：(crawler2) #****概要：网络抓取的主要函数2，可以抓取n个网页的1个变量。 [[j]],content) #result[tmp,2]<-iconv(result[tmp,2],"UTF-8","gbk")#如果是乱码，可以打开此语句。 spm=872.217037.254698.6.deIiSJ&spuid=205341228&cat=1101" url2<-"http://3c.taobao.com/detail.htm?
80140发布于 2019-02-14
来自专栏菜鸟学数据分析之R语言
【R语言】文本挖掘| 网页爬虫新闻内容
图3 link1数据特点从link1来看，并不完全是链接格式，接下来利用paste将 https://www.thepaper.cn/与link1中的进行连接得到link2 link2<-paste( 图4 link4结构特点 05 新闻发布日期date、时间time、内容content获取 news_date<-c(1:length(link2)) date<-c(1:length(link2)) news_time<-c(1:length(link2)) news_link<-c(1:length(link2)) news_content<-c(1:length(link2)) for(i in 1:length(link2)) { news_date[i]<-(read_html(link2[i])%>%html_nodes('div p')%>%html_text())[3] date 图4 网页爬虫结果
2K10发布于 2021-01-28
来自专栏Hank’s Blog
2-2 R语言基础向量
#Vector 向量的三种创建方法，两个参数：类型，长度 > x <- vector("character",length=10) > x1 <- 1:4 > x2 <- c(1,2,3,4) > x3 <- c(TRUE,10,"a") #如果给向量赋值时元素类型不一致，R就会强制转换，将他们变为同一类型 > x4 <- c("a","b","c","d") > #强制转换的函数如下： > as.numeric
73010发布于 2020-09-16
来自专栏深度学习之tensorflow实战篇
网页爬虫-R语言实现基本函数
#*************网页爬虫-R语言实现，函数库文件*******# #****作者：H***************************************# #****版本：v0.1 ,不知您要哪一个，我们会把该数据写为空值")) } } i<-i+1 } result } #****函数：(crawler2) #****概要：网络抓取的主要函数2，可以抓取n个网页的1个变量。 [[j]],content) #result[tmp,2]<-iconv(result[tmp,2],"UTF-8","gbk")#如果是乱码，可以打开此语句。 spm=872.217037.254698.6.deIiSJ&spuid=205341228&cat=1101" url2<-"http://3c.taobao.com/detail.htm?
94970发布于 2018-03-16
来自专栏EpiHub
R数据科学-2（tidyr）
R数据科学-2 是用于清洗数据的工具，如dplyr一样，其中每一列都是变量，每一行都是观察值，并且每个单元格都包含一个值。 12 7 2 2 5 23 3 3 3 3 16 6 ## 1. long data df_a 2 2 Shanghai 5 3 3 Shanghai 3 4 1 Beijing 12 5 2 Beijing 23 6 3 Beijing 16 7 1 Guangdong 7 8 2 Guangdong 3 9 3 Guangdong 6 ## 2. wide 2个参数 df %>% spread(key, value) image.png 重复列变量有时候会碰到，需要新增一列是重复该变量的多少次，如上述例子中，上海id=1的有2个，然后重复shanghai2
1.3K20编辑于 2022-11-03

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

python 爬虫2

R基础-2

R语言2

Python-爬虫03：urllib.r

R绘图-ggplot2 (2)

R语言爬虫与文本分析

R-ggplot2

R2向量

r2dbc

R语言基础2

R语言笔记-2

【Python环境】Python爬虫入门（2）：爬虫基础了解

python爬虫+R数据可视化实例

Python 爬虫（2）

R2D2算法介绍

网页爬虫-R语言实现基本函数

【R语言】文本挖掘| 网页爬虫新闻内容

2-2 R语言基础向量

网页爬虫-R语言实现基本函数

R数据科学-2（tidyr）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python 爬虫2

R基础-2

R语言2

Python-爬虫03：urllib.r

R绘图-ggplot2 (2)

R语言爬虫与文本分析

R-ggplot2

R2向量

r2dbc

R语言基础2

R语言笔记-2

【Python环境】Python爬虫入门（2）：爬虫基础了解

python爬虫+R数据可视化 实例

Python 爬虫（2）

R2D2算法介绍

网页爬虫-R语言实现基本函数

【R语言】文本挖掘| 网页爬虫新闻内容

2-2 R语言基础 向量

网页爬虫-R语言实现基本函数

R数据科学-2（tidyr）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python爬虫+R数据可视化实例

2-2 R语言基础向量