首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏正则

    python 爬虫2

    一、认识爬虫 1.1、什么是爬虫爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。 网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)包括需要登录、代理、和cookie,requests(第三方包) 网页解析器 r = requests.get('https://www.jianshu.com') 现在,我们有一个名字为:r的Response响应对象,也就是我们访问网站,网站肯定会给我们数据。 一些参数如下: r.status_code # 查看访问状态码 200为ok 是成功的 200 然后获取网页源码 r.text # 就是整个网页的html代码 有了html源码一般使用正则匹配数据, 」最细致的讲解Python爬虫之Python爬虫入门(一)先到这里

    1.1K40发布于 2021-09-07
  • 来自专栏R语言 / Linux

    R基础-2

    1.2  向量及后续  使用已准备好的Rproject(钉钉群里的R_01文件) 脚本打开是乱码的解决方式 2 向量 2.1  向量的生成(向量是一串同一种数据类型组合成的整体) 有4种办法 (1)用c 练习题 1 #生成1到15之间所有偶数 >seq(from=2,to=15,by=2) [100分] 2 #生成向量,内容为:"student2" "student4" "student6" "student8 这个非常重要,需要记住】 >x=c(1,3,5,1) >table(x) 【 #重复值统计】 >x=c(1,3,5,1) >sort(x) 【#排序,R语言按照自己的想法排,那么怎么看R语言自己的想法呢 >a=seq(from=2,to=15,by=2) >paste0(rep("student",times=length(a)),seq(from=2,to=15,by=2) ) R语言里函数思想:能用函数代替 >x == 8:12 >x[4] == 40 #改一个元素 >x >x[c(1,5)] == c(80,20) #改多个元素 R语言里的修改,都要赋值,没有赋值就没有发生过 2.6 简单的向量作图

    74140编辑于 2023-03-13
  • 来自专栏叶潭生信笔记

    R语言2

    2.2对单个向量进行操作(1)赋值( <- alt+—,在R里操作)赋值,=随意的写法,是OK的=可以代替赋值号 <- ,反过来不行赋值+输出一起实现图片可用名,不建议使用已经占用的格式,如c,limma duplicated(x)此为常用使用形式table(X)#重复值统计,看重复几次,没有重复,返回为1,可以统计出现的次数sort(x)排序,默认从小到大,sort(x,decreasing=T),排序则可改成从大到小R语言的默认思想英文 +函数名帮助文档paste0(rep("student",times=length(a)),seq(2,15,by=2))R语言函数思想:能用函数代替,就不要手动去数,除非代码只用一次2.3对两个向量的操作 [4]--11,x的第四个元素x[2:4],x[c(1,5)]x[-4]去掉第四个x[-(2:4)]去掉2-4位,反选,是x的下标叹号是给逻辑值用的,-是给向量用的x[1,5]---代码错误,因为不能单独运行 g[seq(2,100,2)],按位置,取出下标为偶数的基因# 6.向量g中有多少个元素在向量s中存在(要求用函数计算出具体个数)?

    1.6K60编辑于 2023-02-01
  • 来自专栏python3

    Python-爬虫03:urllib.r

    用urlopen来获取网络源代码 1.3. urllib.request.Request的使用 2. User-Ageng的使用-模拟浏览器发送请求 2.1) 为什么要用User-Agent? ", DeprecationWarning, 2) if context is not None: raise ValueError( 浏览器 就是互联网世界上公认被允许的身份,如果我们希望我们的爬虫程序更像一个真实用户,那我们第一步就是需要伪装成一个被浏览器。 {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"} request = urllib2. print response.code #可以查看响应状态码 html = response.read() print html 随机添加/修改User-Agent import urllib2

    84320发布于 2020-01-19
  • 来自专栏生信补给站

    R绘图-ggplot2 (2)

    ggplot2提供了多种统计变换方式: stat_abline stat_contour stat_identity stat_summary stat_bin stat_density stat_qq stat_summary2d stat_bin2d stat_density2d stat_quantile require(ggplot2) f1data.frame(x=x,y=y) d -3*sqrt(33)/7,] return(d) } x1data.frame(x2=x2, y2=y2) p2data.frame(x3=x3, y3=y3) p3data.frame(x4=x4,y4=y4) p4data.frame(x5=x5,y5=y5) p5data.frame(x6=x6,y6 =y6) p6 #下面再以生物界中常用的柱状图+误差图为实例,展示ggplot2非常灵活的图层。

    1.2K30发布于 2020-08-06
  • 来自专栏机器学习养成记

    R语言爬虫与文本分析

    之前用python做过简单的爬虫与分析,今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料,然后进行了词云绘制、关键词提取的基本操作。 代码实现 R语言中,有两种进行数据获取的方式。一种是RCurl包+XML包,过程与python中的urllib与bs4相似,先读取网页代码再对html代码进行解析。 之后,我们用wordcloud2包进行词云绘制。 用wordcloud2绘制词云的方法在十九大讲话文本分析(R语言)中也有介绍,本次我们用自定义图片的方式设置词云形状,即设置figPath参数,注意,图片需要存放在wordcloud2中默认的文件夹下, 下载wordcloud2包时,可以从github下载,方法如下:devtools::install_github("lchiffon/wordcloud2"),直接从cran下载的,自定义图片运行后无法出来词云效果

    2.3K140发布于 2018-04-10
  • 来自专栏花落的技术专栏

    R-ggplot2

    to=https%3A%2F%2Fcrudata.uea.ac.uk%2Fcru%2Fdata%2Fdrought%2F)” 中的2018年12月的数据进行绘图示例。 dev.off() 图2 Viridis 色带展示 4. 图8 Wes Anderson色带组 df$DC2=cut(df$scpdsi,breaks=c(-Inf,-5,-4,-3,-2,Inf))df$DC2=factor(df$DC2,labels=c( ))+labs(x="ColorBand: BottleRocket2",y=NULL),p1+scale_fill_manual(values=wes_palette('Royal2'))+labs( x="ColorBand: Royal2",y=NULL),p1+scale_fill_manual(values=wes_palette('Darjeeling2'))+labs(x="ColorBand

    66700编辑于 2021-12-05
  • 来自专栏生信学习~~~

    R2向量

    title: "note2" output: html_document date: "2023-05-10" R Markdown向量 #脚本与ppt对应 #运行脚本:光标放在某一行,点”run”, = #2.判断函数is.number(),T,F,NA(缺失值),转换as.number(),转换优先顺序 表格的行名和列名不属于表格内容,因此是4列 #注释1在R语言中,as.complex和as.numeric 1,6" "1,4" #注释2R语言中,paste和paste0都是用于连接(concatenate)字符串的函数。 plot(k1) boxplot(k1~k2) #课后试着搜索boxplot表达什么意思 引用生信技能书 This is an R Markdown document. For more details on using R Markdown see http://rmarkdown.rstudio.com.

    1.7K00编辑于 2023-05-14
  • 来自专栏快乐阿超

    r2dbc

    今天看了点R2DBC,官网:https://r2dbc.io/ Spring-Data-R2dbc:https://spring.io/projects/spring-data-r2dbc 学习文档:https ://docs.spring.io/spring-data/r2dbc/docs/current/reference/html/ 跑了下demo,感觉还不错:https://gitee.com/VampireAchao /simple-r2dbc.git

    42520编辑于 2022-08-21
  • 来自专栏R语言数据分析

    R语言基础2

    (3)读取表格文件 (4)R语言内置数据> class(iris)[1] "data.frame"> class(volcano)[1] "matrix" "array"2.新建和读取数据框df1 < - c(0.01,0.02,0.07,0.05) df1#改行名和列名rownames(df1) <- c("r1","r2","r3","r4")#只修改某一行/列的名colnames(df1)[2] 矩阵m <- matrix(1:9, nrow = 3)colnames(m) <- c("a","b","c") #加列名mm[2,]m[,1]m[2,3]m[2:3,1:2]mt(m)###矩阵转置 = matrix(2:9, nrow = 2))x> x$m1 [,1] [,2] [,3][1,] 1 4 7[2,] 2 5 8[3,] 3 6 9$m2 [,1] [,2] [,3] [,4][1,] 2 4 6 8[2,] 3 5 7 9###取子集方法x[[1]]x$m1补充

    47950编辑于 2023-09-11
  • 来自专栏生信矿工

    R语言笔记-2

    #按坐标范围取多格,返回一个数据框 输出结果: 图片 图片 图片 #数据框的修改 df$score = c(2,3,4,5,3,2) #创建新的列即,给不存在的列赋值 df df[3,3] = 8 ,"3"),each = 3)) df2 = data.frame(GENES = paste0("gene",1:3),count = c(2,3,2)) df df1 df2 #数据框的连接 merge = matrix(1:8,ncol = 3) m1 m2 #矩阵不足行数或列数会自动补齐 colnames(m1) <- c("a","b","c") #添加列名 m1[2,] #矩阵取一行 m1[,1 ] #矩阵取一列 m1[2,3] #矩阵取一格 m1[2:3,1:2] #矩阵取多格 t(m1) as.data.frame(m1) #矩阵转为数据框 输出结果: 图片 列表 #列表的构建 l = list (v = c(1,2,3),df = data.frame(num = c(1,2,3),score = c(2,4,6)),m = matrix(1:9,ncol = 3)) l #列表取子集 l[[

    78300编辑于 2023-05-20
  • 来自专栏数据科学与人工智能

    【Python环境】Python爬虫入门(2):爬虫基础了解

    1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么? 2.浏览网页的过程 在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过 因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。 爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。 4. 好的开发工具是前进的推进器,希望大家可以找到适合自己的IDE 下一节,我们就正式步入 Python 爬虫学习的殿堂了,小伙伴准备好了嘛?

    1K90发布于 2018-02-27
  • 来自专栏机器学习AI算法工程

    python爬虫+R数据可视化 实例

    Python 和 r语言这对黄金搭档,在数据获取,分析和可视化展示方面,各具特色,相互配合,当之无愧成为数据分析领域的两把利剑。 该项目分为两个模块: 1,数据准备阶段 采用python网络爬虫,实现所需数据的抓取; 2,数据处理和数据可视化,采用r语言作为分析工具并作可视化展示。 filename = 'cookie_ob.txt' 模拟登录和生成cookie文件 cookie = cookielib.MozillaCookieJar(filename) opener = urllib2. login_url = post_url 以下即可采用正则表达式,提取 今日发帖数,会员人数,在线人数 代码如下: #正则获取列表页 user_num,topic_num,online_num 这种广度搜索爬虫都会涉及到需要补全链接的坑 r语言版 ?

    1.9K40发布于 2018-03-14
  • 来自专栏python3

    Python 爬虫2

    = s.get(url) print (r.cookies) for cook in r.cookies:     print (cook.name)     print (cook.value)      ={'key1': 'value1', 'key2': 'value2'}) print(r.text) 结果: {     "cookies": {     "key1": "value1",      () r = s.get(url=url) print (r.encoding) r.encoding = "gbk" print (r.text) 代理访问: 采集时为避免被封IP,经常会使用代理。 : "world"} url = 'https://www.baidu.com/' r = requests.get(url=url) print(r.encoding)              #ISO -8859-1默认使用的是这个 r.encoding = "utf-8" print(r.text) 这样就可以正常显示了 总结: Requests给你提供的所有接口,在传输数据的时候,都可以以key:

    54410发布于 2020-01-07
  • 来自专栏CreateAMind

    R2D2算法介绍

    R2D2: Recurrent Replay Distributed DQN 1. R2D2 is most similar to Ape-X, built upon prioritized distributed replay and n-step double Q-learning We train the R2D2 agent with a single GPU-based learner, performing approximately 5 network updates per For R2D2, we use a single neural network architecture and a single set of hyper-parameters across all R2D2 buffer数据结构复现及应用: https://github.com/createamind/DRL/blob/master/spinup/algos/sac1_rnn/sac1_rnn.py

    1.9K20发布于 2019-08-06
  • 来自专栏深度学习之tensorflow实战篇

    网页爬虫-R语言实现基本函数

    #*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1 ,不知您要哪一个,我们会把该数据写为空值"))             }         }         i<-i+1     }     result } #****函数:(crawler2) #****概要:网络抓取的主要函数2,可以抓取n个网页的1个变量。 [[j]],content)                     #result[tmp,2]<-iconv(result[tmp,2],"UTF-8","gbk")#如果是乱码,可以打开此语句。 spm=872.217037.254698.6.deIiSJ&spuid=205341228&cat=1101" url2<-"http://3c.taobao.com/detail.htm?

    80140发布于 2019-02-14
  • 来自专栏菜鸟学数据分析之R语言

    R语言】文本挖掘| 网页爬虫新闻内容

    图3 link1数据特点 从link1来看,并不完全是链接格式,接下来利用paste将 https://www.thepaper.cn/与link1中的进行连接得到link2 link2<-paste( 图4 link4结构特点 05 新闻发布日期date、时间time、内容content获取 news_date<-c(1:length(link2)) date<-c(1:length(link2)) news_time<-c(1:length(link2)) news_link<-c(1:length(link2)) news_content<-c(1:length(link2)) for(i in 1:length(link2)) { news_date[i]<-(read_html(link2[i])%>%html_nodes('div p')%>%html_text())[3] date 图4 网页爬虫结果

    2K10发布于 2021-01-28
  • 来自专栏Hank’s Blog

    2-2 R语言基础 向量

    #Vector 向量的三种创建方法,两个参数:类型,长度 > x <- vector("character",length=10) > x1 <- 1:4 > x2 <- c(1,2,3,4) > x3 <- c(TRUE,10,"a") #如果给向量赋值时元素类型不一致,R就会强制转换,将他们变为同一类型 > x4 <- c("a","b","c","d") > #强制转换的函数如下: > as.numeric

    73010发布于 2020-09-16
  • 来自专栏深度学习之tensorflow实战篇

    网页爬虫-R语言实现基本函数

    #*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1 ,不知您要哪一个,我们会把该数据写为空值"))             }         }         i<-i+1     }     result } #****函数:(crawler2) #****概要:网络抓取的主要函数2,可以抓取n个网页的1个变量。 [[j]],content)                     #result[tmp,2]<-iconv(result[tmp,2],"UTF-8","gbk")#如果是乱码,可以打开此语句。 spm=872.217037.254698.6.deIiSJ&spuid=205341228&cat=1101" url2<-"http://3c.taobao.com/detail.htm?

    94970发布于 2018-03-16
  • 来自专栏EpiHub

    R数据科学-2(tidyr)

    R数据科学-2 是用于清洗数据的工具,如dplyr一样,其中每一列都是变量,每一行都是观察值,并且每个单元格都包含一个值。 12 7 2 2 5 23 3 3 3 3 16 6 ## 1. long data df_a 2 2 Shanghai 5 3 3 Shanghai 3 4 1 Beijing 12 5 2 Beijing 23 6 3 Beijing 16 7 1 Guangdong 7 8 2 Guangdong 3 9 3 Guangdong 6 ## 2. wide 2个参数 df %>% spread(key, value) image.png 重复列变量 有时候会碰到,需要新增一列是重复该变量的多少次,如上述例子中, 上海id=1的有2个,然后重复shanghai2

    1.3K20编辑于 2022-11-03
领券