首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏PyStaData

    PythonforResearch | 2_数据处理

    ], 'col2': [5,6,7,8]} df = pd.DataFrame(data=d) df col1col2015126237348 d = [(1, 2 ,3 ,4), (5, 6, 7 , 8)] df = pd.DataFrame(data=d) df 01230123415678 由字典创建 d = {'row1': [1,2,3,4], 'row2': [5,6,7,8]} ,'col3','col4'] df col1col2col3col4row25678row311121314 df.rename(columns={'col1' : 'column1', 'col2 ' : 'column2'}) column1column2col3col4row25678row311121314 使用df.rename()是复制后修改,不会对原来的 df 覆盖。 df = df.rename(columns={'col1' : 'column1', 'col2' : 'column2'}) #or df.rename(columns={'col1' : 'column1

    4.5K30发布于 2020-08-17
  • 来自专栏生信小驿站

    数据处理神器tidyverse(2)ggplot2

    数据处理神器tidyverseggplot2 ? tidyverse包其中包含着一个重要的可视化包---ggplot2。 Ggplot2是由Hadley Wickham制作的数据可视化软件包,它基于一组称为图层的原则。 基本思想是ggplot2将数据的几何对象(圆圈,线条等),主题和比例放在上面。 在这里,你可以通过总结每年的预期寿命并将结果输入ggplot而不必定义任何中间变量来对dplyr操作与ggplot2进行一些巧妙的组合。 continent year avg_lifeExp ## <fct> <int> <dbl> ## 1 Africa 1952 39.1 ## 2 自定义ggplot2 虽然我们在这里保留了默认的ggplot2功能,但是你可以用ggplot2来做很多事情。 例如,通过练习,您将学习如何通过将多个层组合在一起来生成高度自定义的绘图。

    2.9K30发布于 2019-08-29
  • 来自专栏数据科学(冷冻工厂)

    单细胞Seurat - 数据处理 (2)

    默认情况下Seurat每个数据集返回 2,000 个特征。这些将用于下游分析,例如 PCA。 pbmc), 10) # plot variable features with and without labels plot1 <- VariableFeaturePlot(pbmc) plot2 <- LabelPoints(plot = plot1, points = top10, repel = TRUE) plot1 + plot2 缩放数据 接下来,我们应用线性变换(“缩放”),这是 ## PC_ 2 ## Positive: CD79A, MS4A1, TCL1A, HLA-DQA1, HLA-DQB1 ## Negative: NKG7, PRF1, CST7, GZMB GNLY ## Negative: LTB, IL7R, CKB, VIM, MS4A7 VizDimLoadings(pbmc, dims = 1:2, reduction = "pca")

    76910编辑于 2024-02-22
  • 来自专栏python3

    Python 数据处理2

    ("sheet5") sheet2 = excel.add_sheet("sheet2") sheet3 = excel.add_sheet("sheet3") sheet1.write(0,0,"hello  world") sheet2.write(1,0,"hello") sheet3.write(2,0,"test test") excel.save("hello1.xlsx") 执行结果: ? 合并多个pdf文件为一个pdf文件 安装pypdf2 # pip install pypdf2 import PyPDF2 import os # 建立一个装pdf文件的数组 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx )      os.chdir(r"C:\Users\Shinelon\PycharmProjects\Python3\datachuli\aminglinux") pdfWriter = PyPDF2. PdfFileWriter()  # 生成一个空白的pdf文件 for pdf in pdfFiles:     pdfReader = PyPDF2.PdfFileReader(open(pdf, 

    84920发布于 2020-01-10
  • 来自专栏编程

    Python数据处理2)-NumPy的ndarray

    2.基本属性:shape和dtype ndarray对象包括了两个最基本的属性,一个是shape(表示各维度大小),一个是dtype(表示数组数据类型)。

    1.1K50发布于 2018-02-02
  • 来自专栏气象学家

    Satpy基础系列教程(2)-TROPOMI L2数据处理

    y2 = np.meshgrid(np.arange(xmin,xmax+dx,dx)-dx/2. .pcolormesh(x2,y2,z) ax3.axis([x2.min(),x2.max(),y2.min(),y2.max()]) # using the boundaries gives correct plot ax4.set_title("Correct ticks") ax4.pcolormesh(x2,y2,z) ax4.axis([x2.min(),x2.max(),y2.min(),y2. Fig 2. = plt.subplot(2, 2, 2, projection=projection) add_province(ax2, provinces, west, east,

    2.8K32发布于 2020-02-26
  • 来自专栏AIUAI

    Caffe2 - (十八) 图片数据处理函数

    Caffe2 - 图片数据处理函数 Caffe2 提供了对图片进行加载、裁剪、缩放、去均值、batch 等处理的函数 - helper.py. ## @package helpers # Module caffe2.python.tutorials.helpers from __future__ import absolute_import from __future__ import division import skimage.transform def crop_center(img, cropx, cropy): y, x, c = img.shape startx = x // 2 - (cropx // 2) starty = y // 2 - (cropy // 2) return img[starty:starty + cropy, startx:startx .swapaxes(0, 1) return img def bgr(img): # switch to BGR img = img[(2, 1, 0), :, :]

    517100发布于 2019-02-18
  • 来自专栏Vincent-yuan

    java之struts2数据处理

    这里的数据处理,指的是页面上的数据与Action中的数据的处理。 struts2中有3种方式来接收请求提交的数据。分别是:属性驱动方式、对象驱动方式、模型驱动方式 1. return msg; } public void setMsg(String msg) { this.msg = msg; } } struts2会做基本的数据类型转换 2.对象驱动方式 在servlet处理中,获取表单项的值后,需要手动创建对象。 在struts2中,提供了一种对象驱动方式,可以直接在Action处理类中获取对象,不再需要手动创建对象。 所以,strut2提供了模型驱动。 模型驱动综合了属性驱动和对象驱动的优点,但是模型驱动具有侵入性。 使用模型驱动处理类,需要实现 ModelDriven 接口 。 一般都是在对象驱动和模型驱动中选择 补充: 响应数据 在页面中获取struts2的响应数据有2个要点:   1.获取的数据必须是处理类的属性,并且提供了get/set 方法   2.在页面中可以通过 el

    55520发布于 2019-09-10
  • 来自专栏测试开发干货

    面试复习系列【python-数据处理-2

    知道为什么我要单独拿出2章来给大家普及numpy和pandas么? 因为,在不久的将来,我即将更新ai测试领域的具体应用教程,这算是给大家提前打打基础,扫扫盲。 import pandas as pd s = pd.Series([1,2,3,4,5]) 这个运行后,我们打印s,得到的结果是这样的:左边第一列是行标,第二列开始是内容 我们也可以创建个多列的, s = pd.Series({"a":1,"b":2}) print(s) 结果如下: 但是这样创建看起来就不舒服,所以我们用DataFrame方法来创建。 = pd.Series({"a":1,"b":2},index=["a","b"]) 创建复合型序列 df = pd.DataFrame({'a':1,"b":pd.Series([1,2,3]),"c ) print(df) #查看内容 print(df.describe) #查看统计 print(df.head(2)) #查看头部2行 print(df.tail(2)) #查看倒数2行 print(

    1.2K30编辑于 2022-05-20
  • 来自专栏算法channel

    2数据处理的小功能,非常实用!

    :A列值大于其平均值,且 B列值大于 5 的行 方法 1 df[ (df['A'] > df["A"].mean()) & (df['B'] > 5)] 注意,& 前后必须要各自加一对 () 方法 2 cr1 = df['A'] > df["A"].mean() cr2 = df['B'] > 5 df[cr1 & cr2] 方法 3 mean = df["A"].mean() df.query("

    45240发布于 2020-05-08
  • 来自专栏数据分析1480

    R&Python Data Science 系列:数据处理2

    承接R&Python Data Science 系列:数据处理(1)继续介绍剩余的函数。 2 条件函数 这里介绍3个条件函数,if_else()、case_when()、between()函数,Python包dfply和R包dplyr中都是这3个函数,在用法上有点细微差别,日常中使用最多 而且if_else()函数可以嵌套使用,不过当条件判断超过2个的时候,建议使用case_when()函数。 (2) diamonds3 = diamonds >> tail(3) diamonds2 >> bind_rows(diamonds3) ? R语言实现 ##bind_rows()函数 diamonds2 = diamonds %>% head(2) diamonds3 = diamonds %>% tail(3) diamonds2 %>%

    1.1K10发布于 2019-10-28
  • 来自专栏数据科学(冷冻工厂)

    CUT&Tag 数据处理和分析教程(2

    /tools/FastQC/fastqc -o ${projPath}/fastqFileQC/${histName} -f fastq ${projPath}/fastq/${histName}_R2. histName}/*_R1_*.fastq.gz >${projPath}/fastq/${histName}_R1.fastq.gz cat ${projPath}/data/${histName}/*_R2_ *.fastq.gz >${projPath}/fastq/${histName}_R2.fastq.gz

    38110编辑于 2025-03-06
  • 来自专栏NewBeeNLP

    模型预训练中的数据处理及思考

    在OpenAI的GPT3,4模型以及谷歌的PaLM系列模型训练中,大量用到了专有数据,如2TB的高质量书籍数据(Books – 2TB)和社交媒体对话数据(Social media conversations • 专有数据处理起来很麻烦:网页数据有固定的格式,我们可以根据html上面的标签进行处理,而专有数据因为来源很杂,格式不统一等原因,甚至需要一份数据,一种处理方式很费时间。 The pile是一个高质量数据集,作者在构建的RefinedWeb数据集上训练模型超过了在The pile数据集上训练的效果 网页数据处理方法 CommonCrawl数据特点 • 很脏:有大量的情色、 书籍数据 • Books3:Books3是一个图书数据集,包含有小说和非小说,相比于 BookCorpus2 了一个数量级。 DeepMind证明了提升模型规模和提升数据质量同样重要,仅仅是模型也做不好推理任务,但如果数据处理的好的话,模型的推理能力能大幅提升。

    2.7K10编辑于 2024-06-04
  • 来自专栏about云

    数据处理分析的六工具

    RapidMiner RapidMiner是世界领先的数据挖掘解决方案,在一个非常的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。 这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 这些提供了系统的J2EE 服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可使用其他产品替换之。

    3.7K150发布于 2018-03-27
  • 来自专栏加米谷大数据

    数据处理必备的十工具

    数据处理必备的十工具 1. 2.Jaspersoft BI 套件 Jaspersoft包是一个通过数据库列生成报表的开源软件。 Pentaho Business Analytics 从某种意义上说, Pentaho 与Jaspersoft相比起来,尽管Pentaho开始于报告生成引擎,但它目前通过简化新来源中获取信息的过程来支持大数据处理 Cloudera Cloudera正在努力为开源Hadoop,提供支持,同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为首选目标和管理企业所有数据的中心点。 它提供了一个比Hive更快的查询引擎,因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。

    3.5K30发布于 2019-01-09
  • 来自专栏算法channel

    玩转Pandas,让数据处理更easy系列2

    正是通过这两个强大的数据结构和基于它们建立的各种操作,才使得Pandas称霸数据处理领域工具库,关于这篇请参考: 玩转Pandas,让数据处理更easy系列1 02 DataFrame结构剖析 因为DataFrame 接下来,创建一个pd_data,分别作如下操作: #创建pd_data,values是二维list,index默认(0,1,2,...) ,columns: ['A','B','C'] pd_data = pd.DataFrame([ [4, 9, 1], [3, 5, 2] ], columns = list('ABC') ) ?

    74830发布于 2018-07-25
  • 来自专栏CSDN技术头条

    勿谈,且看Bloomberg的中数据处理平台

    这里,我们不妨走进Bloomberg的用例,着眼时间序列数据处理上的数据和体积挑战。 以下为译文 在Bloomberg,我们并不存在大数据挑战。 这是一个巨大的飞跃,系统速度提升了2到3个数量级,然而这并不是我们想要的——跨多数据库压缩blobs分割是非常麻烦的。 性能2:同址计算 即使故障得以解决,在原始性能和一致性上仍然存在问题,这里我们将详述性能上的3个实验和结果。 使用HBase,用户可以在的Portfolio文件上做拆分,并且分配到集群中的多个主机上进行处理。 这就意味着,Java当下已经成为很多高fan out计算系统的基础,其中包括Hadoop、HBase、Spark、SOLR等,同步进行垃圾回收将解决非常的问题。

    3.9K60发布于 2018-02-08
  • 来自专栏企鹅号快讯

    数据处理必备的十工具!

    2JaspersoftBI套件 Jaspersoft包是一个通过数据库列生成报表的开源软件。 .PentahoBusinessAnalytics 从某种意义上说,Pentaho与Jaspersoft相比起来,尽管Pentaho开始于报告生成引擎,但它目前通过简化新来源中获取信息的过程来支持大数据处理 7.Cloudera Cloudera正在努力为开源Hadoop,提供支持,同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为首选目标和管理企业所有数据的中心点。 它提供了一个比Hive更快的查询引擎,因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。同时,它还用于事件流处理、实时查询和机器学习等方面。 来源:TechTarget

    3.7K70发布于 2018-02-06
  • 来自专栏数据结构与算法

    1675 质数 2

    1675 质数 2 时间限制: 1 s 空间限制: 1000 KB 题目等级 : 钻石 Diamond 题目描述 Description 小明因为没做作业而被数学老师罚站,之后数学老师要他回家把第 样例输入 Sample Input 233 样例输出 Sample Output 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 =0) 15 { 16 if(b%2! =0) 31 { 32 if(b%2! 45 if(n<2&&(n%2==0)) 46 { 47 return 0; 48 } 49 for(ll i=0;i<11;i++) 50 {

    60560发布于 2018-04-13
  • 来自专栏大数据成神之路

    面试系列:十个海量数据处理方法总结

    根据这个问题我们来计算下内存的占用,4G=2^32概是40亿*8概是340 亿,n=50亿,如果按出错率0.01算需要的大概是650亿个bit。 2-left hashing指的是将一个哈希表分成长度相等的两半,分别叫做T1和T2,给T1和T2分别配备一个哈希函数,h1和h2。 四、堆 适用范围:海量数据前n,并且n比较小,堆可以放入内存 基本原理及要点:最大堆求前n小,最小堆求前n。 适用范围:第k,中位数,不重复或重复的数字 基本原理及要点:因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。 当然在更新每条数据的出现次数的时候,我们可以利用一个堆来维护出现次数最多的前N个数据,当 然这样导致维护次数增加,不如完全统计后在求前N效率高。 如果数据无法放入内存。

    1.9K40发布于 2019-07-09
领券