搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏PyStaData
PythonforResearch | 2_数据处理
], 'col2': [5,6,7,8]} df = pd.DataFrame(data=d) df col1col2015126237348 d = [(1, 2 ,3 ,4), (5, 6, 7 , 8)] df = pd.DataFrame(data=d) df 01230123415678 由字典创建 d = {'row1': [1,2,3,4], 'row2': [5,6,7,8]} ,'col3','col4'] df col1col2col3col4row25678row311121314 df.rename(columns={'col1' : 'column1', 'col2 ' : 'column2'}) column1column2col3col4row25678row311121314 使用df.rename()是复制后修改，不会对原来的 df 覆盖。 df = df.rename(columns={'col1' : 'column1', 'col2' : 'column2'}) #or df.rename(columns={'col1' : 'column1
4.5K30发布于 2020-08-17
来自专栏生信小驿站
数据处理神器tidyverse（2）ggplot2
数据处理神器tidyverseggplot2 ? tidyverse包其中包含着一个重要的可视化包---ggplot2。 Ggplot2是由Hadley Wickham制作的数据可视化软件包，它基于一组称为图层的原则。基本思想是ggplot2将数据的几何对象（圆圈，线条等），主题和比例放在上面。在这里，你可以通过总结每年的预期寿命并将结果输入ggplot而不必定义任何中间变量来对dplyr操作与ggplot2进行一些巧妙的组合。 continent year avg_lifeExp ## <fct> <int> <dbl> ## 1 Africa 1952 39.1 ## 2 自定义ggplot2 虽然我们在这里保留了默认的ggplot2功能，但是你可以用ggplot2来做很多事情。例如，通过练习，您将学习如何通过将多个层组合在一起来生成高度自定义的绘图。
2.9K30发布于 2019-08-29
来自专栏数据科学（冷冻工厂）
单细胞Seurat - 数据处理 (2)
默认情况下Seurat每个数据集返回 2,000 个特征。这些将用于下游分析，例如 PCA。 pbmc), 10) # plot variable features with and without labels plot1 <- VariableFeaturePlot(pbmc) plot2 <- LabelPoints(plot = plot1, points = top10, repel = TRUE) plot1 + plot2 缩放数据接下来，我们应用线性变换（“缩放”），这是 ## PC_ 2 ## Positive: CD79A, MS4A1, TCL1A, HLA-DQA1, HLA-DQB1 ## Negative: NKG7, PRF1, CST7, GZMB GNLY ## Negative: LTB, IL7R, CKB, VIM, MS4A7 VizDimLoadings(pbmc, dims = 1:2, reduction = "pca")
76910编辑于 2024-02-22
来自专栏python3
Python 数据处理（2）
("sheet5") sheet2 = excel.add_sheet("sheet2") sheet3 = excel.add_sheet("sheet3") sheet1.write(0,0,"hello world") sheet2.write(1,0,"hello") sheet3.write(2,0,"test test") excel.save("hello1.xlsx") 执行结果: ? 合并多个pdf文件为一个pdf文件安装pypdf2 # pip install pypdf2 import PyPDF2 import os # 建立一个装pdf文件的数组 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx ) os.chdir(r"C:\Users\Shinelon\PycharmProjects\Python3\datachuli\aminglinux") pdfWriter = PyPDF2. PdfFileWriter() # 生成一个空白的pdf文件 for pdf in pdfFiles: pdfReader = PyPDF2.PdfFileReader(open(pdf,
84920发布于 2020-01-10
来自专栏编程
Python数据处理（2）-NumPy的ndarray
2.基本属性：shape和dtype ndarray对象包括了两个最基本的属性，一个是shape（表示各维度大小），一个是dtype（表示数组数据类型）。
1.1K50发布于 2018-02-02
来自专栏气象学家
Satpy基础系列教程(2)-TROPOMI L2数据处理
y2 = np.meshgrid(np.arange(xmin,xmax+dx,dx)-dx/2. .pcolormesh(x2,y2,z) ax3.axis([x2.min(),x2.max(),y2.min(),y2.max()]) # using the boundaries gives correct plot ax4.set_title("Correct ticks") ax4.pcolormesh(x2,y2,z) ax4.axis([x2.min(),x2.max(),y2.min(),y2. Fig 2. = plt.subplot(2, 2, 2, projection=projection) add_province(ax2, provinces, west, east,
2.8K32发布于 2020-02-26
来自专栏AIUAI
Caffe2 - (十八) 图片数据处理函数
Caffe2 - 图片数据处理函数 Caffe2 提供了对图片进行加载、裁剪、缩放、去均值、batch 等处理的函数 - helper.py. ## @package helpers # Module caffe2.python.tutorials.helpers from __future__ import absolute_import from __future__ import division import skimage.transform def crop_center(img, cropx, cropy): y, x, c = img.shape startx = x // 2 - (cropx // 2) starty = y // 2 - (cropy // 2) return img[starty:starty + cropy, startx:startx .swapaxes(0, 1) return img def bgr(img): # switch to BGR img = img[(2, 1, 0), :, :]
517100发布于 2019-02-18
来自专栏Vincent-yuan
java之struts2的数据处理
这里的数据处理，指的是页面上的数据与Action中的数据的处理。 struts2中有3种方式来接收请求提交的数据。分别是：属性驱动方式、对象驱动方式、模型驱动方式 1. return msg; } public void setMsg(String msg) { this.msg = msg; } } struts2会做基本的数据类型转换 2.对象驱动方式在servlet处理中，获取表单项的值后，需要手动创建对象。在struts2中，提供了一种对象驱动方式，可以直接在Action处理类中获取对象，不再需要手动创建对象。所以，strut2提供了模型驱动。模型驱动综合了属性驱动和对象驱动的优点，但是模型驱动具有侵入性。使用模型驱动处理类，需要实现 ModelDriven 接口。一般都是在对象驱动和模型驱动中选择补充：响应数据在页面中获取struts2的响应数据有2个要点：　　1.获取的数据必须是处理类的属性，并且提供了get/set 方法　　2.在页面中可以通过 el
55520发布于 2019-09-10
来自专栏测试开发干货
面试复习系列【python-数据处理-2 】
知道为什么我要单独拿出2章来给大家普及numpy和pandas么？因为，在不久的将来，我即将更新ai测试领域的具体应用教程，这算是给大家提前打打基础，扫扫盲。 import pandas as pd s = pd.Series([1,2,3,4,5]) 这个运行后，我们打印s，得到的结果是这样的：左边第一列是行标，第二列开始是内容我们也可以创建个多列的， s = pd.Series({"a":1,"b":2}) print(s) 结果如下：但是这样创建看起来就不舒服，所以我们用DataFrame方法来创建。 = pd.Series({"a":1,"b":2},index=["a","b"]) 创建复合型序列 df = pd.DataFrame({'a':1,"b":pd.Series([1,2,3]),"c ) print(df) #查看内容 print(df.describe) #查看统计 print(df.head(2)) #查看头部2行 print(df.tail(2)) #查看倒数2行 print(
1.2K30编辑于 2022-05-20
来自专栏算法channel
2 个数据处理的小功能，非常实用！
：A列值大于其平均值，且 B列值大于 5 的行方法 1 df[ (df['A'] > df["A"].mean()) & (df['B'] > 5)] 注意，& 前后必须要各自加一对 () 方法 2 cr1 = df['A'] > df["A"].mean() cr2 = df['B'] > 5 df[cr1 & cr2] 方法 3 mean = df["A"].mean() df.query("
45240发布于 2020-05-08
来自专栏数据分析1480
R&Python Data Science 系列：数据处理（2）
承接R&Python Data Science 系列：数据处理（1）继续介绍剩余的函数。 2 条件函数这里介绍3个条件函数，if_else()、case_when()、between()函数，Python包dfply和R包dplyr中都是这3个函数，在用法上有点细微差别，日常中使用最多而且if_else()函数可以嵌套使用，不过当条件判断超过2个的时候，建议使用case_when()函数。 (2) diamonds3 = diamonds >> tail(3) diamonds2 >> bind_rows(diamonds3) ? R语言实现 ##bind_rows()函数 diamonds2 = diamonds %>% head(2) diamonds3 = diamonds %>% tail(3) diamonds2 %>%
1.1K10发布于 2019-10-28
来自专栏数据科学（冷冻工厂）
CUT&Tag 数据处理和分析教程（2）
/tools/FastQC/fastqc -o ${projPath}/fastqFileQC/${histName} -f fastq ${projPath}/fastq/${histName}_R2. histName}/*_R1_*.fastq.gz >${projPath}/fastq/${histName}_R1.fastq.gz cat ${projPath}/data/${histName}/*_R2_ *.fastq.gz >${projPath}/fastq/${histName}_R2.fastq.gz
38110编辑于 2025-03-06
来自专栏NewBeeNLP
大模型预训练中的数据处理及思考
在OpenAI的GPT3,4模型以及谷歌的PaLM系列模型训练中，大量用到了专有数据，如2TB的高质量书籍数据（Books – 2TB）和社交媒体对话数据（Social media conversations • 专有数据处理起来很麻烦：网页数据有固定的格式，我们可以根据html上面的标签进行处理，而专有数据因为来源很杂，格式不统一等原因，甚至需要一份数据，一种处理方式很费时间。 The pile是一个高质量数据集，作者在构建的RefinedWeb数据集上训练模型超过了在The pile数据集上训练的效果网页数据处理方法 CommonCrawl数据特点 • 很脏：有大量的情色、书籍数据 • Books3：Books3是一个图书数据集，包含有小说和非小说，相比于 BookCorpus2 大了一个数量级。 DeepMind证明了提升模型规模和提升数据质量同样重要，仅仅是大模型也做不好推理任务，但如果数据处理的好的话，模型的推理能力能大幅提升。
2.7K10编辑于 2024-06-04
来自专栏about云
大数据处理分析的六大工具
RapidMiner RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。这些提供了系统的J2EE 服务器，安全，portal，工作流，规则引擎，图表，协作，内容管理，数据集成，分析和建模功能。这些组件的大部分是基于标准的，可使用其他产品替换之。
3.7K150发布于 2018-03-27
来自专栏加米谷大数据
大数据处理必备的十大工具
大数据处理必备的十大工具 1. 2.Jaspersoft BI 套件 Jaspersoft包是一个通过数据库列生成报表的开源软件。 Pentaho Business Analytics 从某种意义上说, Pentaho 与Jaspersoft相比起来,尽管Pentaho开始于报告生成引擎，但它目前通过简化新来源中获取信息的过程来支持大数据处理 Cloudera Cloudera正在努力为开源Hadoop,提供支持，同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为首选目标和管理企业所有数据的中心点。它提供了一个比Hive更快的查询引擎，因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。
3.5K30发布于 2019-01-09
来自专栏算法channel
玩转Pandas，让数据处理更easy系列2
正是通过这两个强大的数据结构和基于它们建立的各种操作，才使得Pandas称霸数据处理领域工具库，关于这篇请参考：玩转Pandas，让数据处理更easy系列1 02 DataFrame结构剖析因为DataFrame 接下来，创建一个pd_data，分别作如下操作： #创建pd_data，values是二维list，index默认(0,1,2,...) ，columns: ['A','B','C'] pd_data = pd.DataFrame([ [4, 9, 1], [3, 5, 2] ], columns = list('ABC') ) ?
74830发布于 2018-07-25
来自专栏CSDN技术头条
勿谈大，且看Bloomberg的中数据处理平台
这里，我们不妨走进Bloomberg的用例，着眼时间序列数据处理上的数据和体积挑战。以下为译文在Bloomberg，我们并不存在大数据挑战。这是一个巨大的飞跃，系统速度提升了2到3个数量级，然而这并不是我们想要的——跨多数据库压缩blobs分割是非常麻烦的。性能2：同址计算即使故障得以解决，在原始性能和一致性上仍然存在问题，这里我们将详述性能上的3个实验和结果。使用HBase，用户可以在大的Portfolio文件上做拆分，并且分配到集群中的多个主机上进行处理。这就意味着，Java当下已经成为很多高fan out计算系统的基础，其中包括Hadoop、HBase、Spark、SOLR等，同步进行垃圾回收将解决非常大的问题。
3.9K60发布于 2018-02-08
来自专栏企鹅号快讯
大数据处理必备的十大工具！
2JaspersoftBI套件 Jaspersoft包是一个通过数据库列生成报表的开源软件。 .PentahoBusinessAnalytics 从某种意义上说,Pentaho与Jaspersoft相比起来,尽管Pentaho开始于报告生成引擎，但它目前通过简化新来源中获取信息的过程来支持大数据处理 7.Cloudera Cloudera正在努力为开源Hadoop,提供支持，同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为首选目标和管理企业所有数据的中心点。它提供了一个比Hive更快的查询引擎，因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。同时，它还用于事件流处理、实时查询和机器学习等方面。来源：TechTarget
3.7K70发布于 2018-02-06
来自专栏数据结构与算法
1675 大质数 2
1675 大质数 2 时间限制: 1 s 空间限制: 1000 KB 题目等级 : 钻石 Diamond 题目描述 Description 小明因为没做作业而被数学老师罚站，之后数学老师要他回家把第样例输入 Sample Input 233 样例输出 Sample Output 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 =0) 15 { 16 if(b%2! =0) 31 { 32 if(b%2! 45 if(n<2&&(n%2==0)) 46 { 47 return 0; 48 } 49 for(ll i=0;i<11;i++) 50 {
60560发布于 2018-04-13
来自专栏大数据成神之路
面试系列：十个海量数据处理方法大总结
根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340 亿，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。 2-left hashing指的是将一个哈希表分成长度相等的两半，分别叫做T1和T2，给T1和T2分别配备一个哈希函数，h1和h2。四、堆适用范围：海量数据前n大，并且n比较小，堆可以放入内存基本原理及要点：最大堆求前n小，最小堆求前n大。适用范围：第k大，中位数，不重复或重复的数字基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。当然在更新每条数据的出现次数的时候，我们可以利用一个堆来维护出现次数最多的前N个数据，当然这样导致维护次数增加，不如完全统计后在求前N大效率高。如果数据无法放入内存。
1.9K40发布于 2019-07-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

PythonforResearch | 2_数据处理

数据处理神器tidyverse（2）ggplot2

单细胞Seurat - 数据处理 (2)

Python 数据处理（2）

Python数据处理（2）-NumPy的ndarray

Satpy基础系列教程(2)-TROPOMI L2数据处理

Caffe2 - (十八) 图片数据处理函数

java之struts2的数据处理

面试复习系列【python-数据处理-2 】

2 个数据处理的小功能，非常实用！

R&Python Data Science 系列：数据处理（2）

CUT&Tag 数据处理和分析教程（2）

大模型预训练中的数据处理及思考

大数据处理分析的六大工具

大数据处理必备的十大工具

玩转Pandas，让数据处理更easy系列2

勿谈大，且看Bloomberg的中数据处理平台

大数据处理必备的十大工具！

1675 大质数 2

面试系列：十个海量数据处理方法大总结

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐