首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏R语言 / Linux

    R基础-3

    3.1 数据框来源 (1)用代码新建 (2)由已有数据转换或处理得到 (3)读取表格文件 (4)R语言内置数据 3.2 新建数据框(数据框是以列为单位组织的) 3.2.1  用代码新建 data.frame -2,-4)) 可以R中跑一次上面的代码看看,gene change score是列的名字,后面的代码是形成列的内容的代码。 > df1[,-ncol(df1)] # - 有反选的意思 3.5 数据框修改 #改一个格 > df1[3,3]<-5 > df1 #改一整列 > df1$score<- c(12,23,50,2 ","r2","r3","r4") #修改全部行名 > colnames(df1)[2] <-"CHANGE" #改一个列名,比如修改第二列的列名,就是修改【列明这个向量】的第二个元素 > merge(test1,test3,by.x="name",by.y="NAME") #但是要注意,一定要对应,test1是x,test3是y。

    1.4K50编辑于 2023-03-13
  • 来自专栏python3

    【Python3爬虫】拉勾网爬虫

    一、思路分析: 在之前写拉勾网的爬虫的时候,总是得到下面这个结果(真是头疼),当你看到下面这个结果的时候,也就意味着被反爬了,因为一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数 要想我们的爬虫不被检测出来,我们可以使用代理IP,而网上有很多提供免费代理的网站,比如西刺代理、快代理、89免费代理等等,我们可以爬取一些免费的代理然后搭建我们的代理池,使用的时候直接从里面进行调用就好了 self): 40 # 验证代理池中的IP是否可用 41 print("开始清洗代理池...") 42 with open("proxies.txt", 'r' import random 4 import requests 5 with open("具体路径\proxies.txt", 'r', encoding="utf-8" 11e8-a9f6-5254005c3644; JSESSIONID=ABAAABAAAGFABEFFF09D504261EB56E3CCC780FB4358A5E; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6

    77320发布于 2020-01-06
  • 来自专栏python3

    Python-爬虫03:urllib.r

    Python模块源代码: C:\Users\haoch\Anaconda3\Lib urllib.request源代码:C:\Users\haoch\Anaconda3\Lib\urllib\request.py https_handler = HTTPSHandler(context=context) # 知识点3: %d' % sys.version_info[:2]--->sys.version[:3] = 3.7 client_version = "Python-urllib/%s" % __version 浏览器 就是互联网世界上公认被允许的身份,如果我们希望我们的爬虫程序更像一个真实用户,那我们第一步就是需要伪装成一个被浏览器。 ; __cfduid=d7aafabcd6ccc970c2d47e9e205fc3c851546334654; cflag=13%3A3; delPer=0; BD_HOME=0; H_PS_PSSID

    84320发布于 2020-01-19
  • 来自专栏机器学习养成记

    R语言爬虫与文本分析

    之前用python做过简单的爬虫与分析,今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料,然后进行了词云绘制、关键词提取的基本操作。 代码实现 R语言中,有两种进行数据获取的方式。一种是RCurl包+XML包,过程与python中的urllib与bs4相似,先读取网页代码再对html代码进行解析。

    的父标签,所以倒数3行可以写成如下更简单的模式: ? ? 变量comments_text就是短评的文本结果。 用wordcloud2绘制词云的方法在十九大讲话文本分析(R语言)中也有介绍,本次我们用自定义图片的方式设置词云形状,即设置figPath参数,注意,图片需要存放在wordcloud2中默认的文件夹下,

    2.3K140发布于 2018-04-10
  • 来自专栏R语言&linux

    3-R

    1.R包的安装图片option是设置图片1.R包安装和使用的逻辑:安装包-加载包-使用包里的函数2.用library()检查是否安装成功——唯一标准3.已经安装的包用::快速调用里面的函数4.常见疑问1 )没有error就忽略2)package not available包名写错;命令写错;R语言版本和包要求版本不同;包过时被剔除图片3)是否更新:建议选n,除非一直报错;不想回答安装命令参数:update require(stringr))install.packages("stringr")6.R包如何使用-获取帮助1) 快速查看函数帮助文档? sd 2)找R包介绍页面3)browsevignettes('') 在线教程7.补充常见的R语言符号图片中括号前是数据框或者矩阵两个中括号前是列表library括号里的是包文件名称出现在代码里,必然在实际参数的位置上带引号

    53900编辑于 2023-02-03
  • 来自专栏生信矿工

    R语言笔记-3

    形式参数由函数作者指定,使用者输入实际参数时可省略实际参数 函数的自定义 #自定义函数 cal = function(a,b,c = 2){(a+b)*c} #c=2为函数默认值 cal(1,2) cal(1,2,3) #函数默认值可更改 输出结果: R包的安装 R包库:CRAN、Bioconductor CRAN:R包默认的安装库 Bioconductor:生信相关的R包库 #设置CRAN和Bioconductor mirrors.tuna.tsinghua.edu.cn/CRAN/")) options(BioC_mirror="http://mirrors.ustc.edu.cn/bioc/") #CRAN安装R包 相当于library(BiocManager)和install() R包安装常见问题 package not available R包名输入错误 安装命令使用错误 R语言版本与R包要求不符(极少情况) R包过时,被作者删除 加载某一R包,报错提醒另一R包不存在 安装所需的依赖包 更新所有安装包 not writable / permission denied 权限问题,管理员方式打开Rstudio

    64840编辑于 2023-05-20
  • 来自专栏R语言数据分析

    R语言基础3

    }##a,b,m为形式参数;jimmy为函数名称;m的默认值为2;##大括号内为编写函数使用的代码;> jimmy(a = 1,b = 2)[1] 9> jimmy(1,2)[1] 9> jimmy(3,6 ,-2)[1] 0.01234568plot(iris[,1],col = iris[,5])plot(iris[,2],col = iris[,5])plot(iris[,3],col = iris[ #当一个代码需要复制粘贴三次,就应该写成函数或使用循环jimmy <- function(i){ plot(iris[,i],col=iris[,5])}jimmy(1)jimmy(2)jimmy(3) jimmy(4)安装R包多个函数打包存放包含函数,数据,帮助文档,描述文件等。 找到R包的使用规律R包的位置:CRANinstall.packages("tidyr")R包的位置:bioconducterBiocManager::install("ggplot2")R包的位置:githubdevtools

    32520编辑于 2023-09-13
  • 来自专栏机器学习AI算法工程

    python爬虫+R数据可视化 实例

    Python 和 r语言这对黄金搭档,在数据获取,分析和可视化展示方面,各具特色,相互配合,当之无愧成为数据分析领域的两把利剑。 该项目分为两个模块: 1,数据准备阶段 采用python网络爬虫,实现所需数据的抓取; 2,数据处理和数据可视化,采用r语言作为分析工具并作可视化展示。 login_url = post_url 以下即可采用正则表达式,提取 今日发帖数,会员人数,在线人数 代码如下: #正则获取列表页 user_num,topic_num,online_num 这种广度搜索爬虫都会涉及到需要补全链接的坑 第二,数据处理和数据可视化 主要采用r语言读取数据,进行频数统计和图表展示 简单贴几段代码: 读取剪切板数据 并采用table()函数求频数 data3<-read.table("clipboard r语言版 ?

    1.9K40发布于 2018-03-14
  • 来自专栏python3

    Python 爬虫3

    【基于python3的版本】 rllib下载: 当不知道urlretrieve方法,写法如下: from urllib import request url = "http://inews.gtimg.com 学习: urllib的cookie相关的类 在python2中cookie的类叫做:import cookielib 在python3中cookie的类叫做:import http.cookiejar urllib.request.HTTPCookieProcessor(cookieh) #绑定请求,也就是说在一次请求中,只要你进行访问,他就会保存下来你的cookie信息 opener = urllib.request.build_opener(handler) r  handler = urllib.request.HTTPCookieProcessor(cookieh) opener = urllib.request.build_opener(handler) r 

    91410发布于 2020-01-03
  • 来自专栏python-爬虫

    爬虫指纹 JA3

    JA3 指纹里面,很大的一块就是 Cipher Suits,也就是加密算法。 :DH+3DES:RSA+AESGCM:RSA+AES:RSA+HIGH:RSA+3DES:! MD5 设计到代码 from requests.adapters import HTTPAdapter from requests.packages.urllib3.util.ssl_ import create_urllib3 :DH+3DES:RSA+AESGCM:RSA+AES:RSA+HIGH:RSA+3DES') class DESAdapter(HTTPAdapter): def __init__(self :DH+3DES:RSA+AESGCM:RSA+AES:RSA+HIGH:RSA+3DES:!

    1.2K10编辑于 2022-05-09
  • 来自专栏深度学习之tensorflow实战篇

    网页爬虫-R语言实现基本函数

    #*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1             }         }         i<-i+1     }     result } #test #测试crawler1 #测试内容 url1<-"http://3c.taobao.com spm=872.217037.254698.6.deIiSJ&spuid=205341228&cat=1101" url2<-"http://3c.taobao.com/detail.htm? spm=872.217037.254698.11.deIiSJ&spuid=203228104&cat=1101" url3<-"http://item.taobao.com/item.htm? spm=1020.3.9.122.SCNhDn&id=15695321398&from=" url<-c(url1,url2,url<em>3</em>) xpath<-c("//div[@id='idetail']//

    80140发布于 2019-02-14
  • 来自专栏菜鸟学数据分析之R语言

    R语言】文本挖掘| 网页爬虫新闻内容

    3 link1数据特点 从link1来看,并不完全是链接格式,接下来利用paste将 https://www.thepaper.cn/与link1中的进行连接得到link2 link2<-paste( for(i in 1:length(link2)) { news_date[i]<-(read_html(link2[i])%>%html_nodes('div p')%>%html_text())[3] 图4 网页爬虫结果

    2K10发布于 2021-01-28
  • 来自专栏深度学习之tensorflow实战篇

    网页爬虫-R语言实现基本函数

    #*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1             }         }         i<-i+1     }     result } #test #测试crawler1 #测试内容 url1<-"http://3c.taobao.com spm=872.217037.254698.6.deIiSJ&spuid=205341228&cat=1101" url2<-"http://3c.taobao.com/detail.htm? spm=872.217037.254698.11.deIiSJ&spuid=203228104&cat=1101" url3<-"http://item.taobao.com/item.htm? spm=1020.3.9.122.SCNhDn&id=15695321398&from=" url<-c(url1,url2,url<em>3</em>) xpath<-c("//div[@id='idetail']//

    94970发布于 2018-03-16
  • 来自专栏AngelNI

    python3爬虫urllib

    urllib 库:Python 内置的 HTTP 请求库,无需额外安装即可使用;Python 2 中有 urllib 和 urllib2 两个库来实现请求的发送,Python 3 中统一为 urllib 官方文档:https://docs.python.org/3/library/urllib.html urllib所包含的常用模块 urllib.request:模拟发送请求; urllib.error urllib.robotparser 所包含的类 RobotFileParser:根据网站的 robots.txt 文件来判断一个爬取爬虫是否有权限来爬取这个网页 urllib.request urllib.request.urlopen wd=中国 urllib.robotparser 爬取权限判断 Robots 协议简介 Robots 协议即爬虫协议,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。 robots.txt 基本格式: User-agent: Disallow: Allow: User-agent 为搜索爬虫的名称,设置为 * 则表示对任何爬虫皆有效; Disallow 指定了不允许抓取的目录

    1.5K30发布于 2020-05-25
  • 来自专栏python3

    Python3 爬虫 requests

    前提准备 安装Python以及必要的模块(requests,bs4),不了解requests和bs4的同学可以去官网看个大概之后再回来看教程 爬虫思路 刚开始写爬虫的小白都有一个疑问,进行到什么时候爬虫还会结束呢 答案是:爬虫是在模拟真人在操作,所以当页面中的next链接不存在的时候,就是爬虫结束的时候。 3.用os来写入txt文件 具体代码 需要把域名和爬取网站对应的ip 写入host文件中,这样可以跳过DNS解析,不这样的话,代码运行一段时间会卡住不动 ''' 抓取新笔趣阁https://www.xbiquge6 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36', } r = requests.get(url=url, headers=headers) r.encoding = 'utf-8' content = r.text

    64810发布于 2020-01-02
  • R语言学习-3

    (文中图片引用于生信技能树小洁老师PPT,仅用于自己学习,不用于商业目的,如有侵权,立即删除)Part3 数据框、矩阵和列表 vector向量 一维 matrix 新建数据框 从文件中读取3. 数据框的属性4. 数据框取子集 a. "$"取列b. R包的介绍3. R包的镜像4. R包的来源和安装方式 (1)CRAN网站 (2)Bioconductor (3)github5. XX包怎么安6. R包的安装和使用逻辑 R包安装的唯一标准:library()没有error7. R包如何使用获取帮助

    30500编辑于 2024-05-13
  • 来自专栏生信补给站

    编程之路_R(3)

    Mat <- matrix(1:16,nrow=4) qr(Mat)$rank 22.用rbind和cbind合并数据或数据框 AB <- data.frame(A = c('a1','a2','a3' ),B=c('b1','b2','b3')) cbind(AB,AB); rbind(AB,AB) 23.重命名data.frame的行名 X <- mtcars head(X) rownames(X) ###A B是否相同 is.element(12,C) ###12是否在C中 all(C%in%A) ###集合A是否包含C 28.去除向量中NA值 (1)dt <- c(3,33 is.na(dt)] (3)a <- dt[-which(is.na(dt))] (4)b <- na.omit(dt) 29.开n次方 x <- 1000 n <- 5 x^(1/n) 30.查看当前工作目录下有那些变量 objects() 参考:R语言基础编程技巧

    42520发布于 2020-08-06
  • 来自专栏生信技能树学习打卡

    Day 3 R语言代码

    #行名,列名,两者合一,加列/行名dim()colnames()rownames()#加列名即为对向量进行赋值;修改单个列名,取子集即可m <- matrix(1:12,nrow = 3);mcolnames (m) <- c("a","b","c","d") colnames(m)[1] <- "hello";m#融合函数merge(test1,test3,by.x = "name",by.y = "NAME gene",1:4), change = rep(c("up","down"),each = 2), score = c(5,3,

    21900编辑于 2024-03-07
  • 来自专栏科技记者

    高效使用R笔记3

    一、 R启动文件 每次R语言启动读入.Renviron和.Rprofile两个文件,前者主要是环境变量,程序位置和API密钥等;后者是启动进需要运行的几行R代码。 启动时先找.Renviron,然后是.Rprofile,它们出现在3个目录中,安装目录(R_HOME,R.home()),家目录(HOME, Sys.getenv("HOME"))和当前工作目录(getwd ##D ## Example of setting R_DEFAULT_PACKAGES (from R CMD check) Startp> ##D R_DEFAULT_PACKAGES='utils /CRAN/" options(repos <- r) }) 3) fortunes包 这只是为了好玩而已,有趣的灵魂呀! )推荐的目录结构 Project\ - Readme.RMD # 项目描述 - setup.r # 必须的包 - R/ #代码 - input # 数据文件 - graphics/ #图 - output

    1.1K40发布于 2021-05-20
  • 来自专栏庄闪闪的R语言手册

    R沟通|Rmarkdown教程(3

    行内代码 `r sin(pi/2)` 有趣的案例: 1)自动更新日期 date: "`r Sys.Date()`" date: "`r format(Sys.time(), '%d %B, %Y')` ```{r echo=FALSE} print(1:5) ``` 结果为: ## [1] 1 2 3 4 5 collapse选项 一个代码块的代码、输出通常被分解为多个原样文本块中, 如果一个代码块希望所有的代码 这里参考公众号[R友舍] 其他包 tables (Murdoch 2020[2]), pander (Daróczi and Tsegelskyi 2018[3]), tangram (Garbett >% kable_styling(x_html,bootstrap_options = "striped", full_width = F) 3. / [2] Murdoch 2020: https://bookdown.org/yihui/rmarkdown-cookbook/table-other.html#ref-R-tables [3] Daróczi

    4K20发布于 2021-04-08
领券