首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏HUC思梦的java专栏

    数据准备

    准备数据后,直接运行以下命令即可。 bookstacknew \ -e RUN_MODE=prod \ -v /home/bookstack:/bookstack\ willdockerhub/bookstack:v2.10_node 数据准备 数据库使用mysql,需要提前创建好库,表会自动创建。 /home/bookstack中的文件需要提前准备好。初始阶段可以从容器内直接复制出来。

    36610编辑于 2023-03-06
  • 来自专栏Vincent-yuan

    sql~准备数据

    右键单击 "数据库" 节点,然后选择 "还原数据库"。 选择 "设备",然后单击省略号(...) 选择备份文件,然后点击确定 完成数据库还原。 完成后,会在 SQL Server 实例上安装 AdventureWorks 数据库。 这里使用的是2012版本的数据库,下面是OLTP版本的链接: AdventureWorks2012 ? 这里的数据准备主要用作后续学习使用 参考网址

    78620发布于 2020-04-08
  • 来自专栏人工智能从业者资格

    2.1.2 数据准备

    数据准备阶段通常会占到实际机器学习任务的79%的时间。包括数据采集、数据清洗(清理)、数据标注、数据验收、数据交付等阶段。数据采集:采集之前,要对数据来源进行考察,越熟悉的数据来源越好。 采集一般有四种途径,分别观测数据、人工收集、调查问卷、线上数据库观测数据:observation,实验室监测数据、浏览器上的网页数据,规模化自动化采集,伴随环境噪声,数据缺失或不规整,需要仔细做好数据清理工作 数据清理(也叫数据清洗):现实世界的数据是非常脏的,数据清理工作是繁琐的,但却是至关重要。做好版本管理,至少三种:原始数据、某一步处理过后的数据、最终有待分析的数据。 主要处理以下几种数据:缺失的数据、重复的数据、内容错误的数据(逻辑、格式错误)、不需要的数据。 拆分比例通常训练集比重较大,8:2或7:3等。数据验收:就是检查,合法性(自身业务特点或约束程度)、准确性、完整性、一致性等。合法性举例,定义的业务规则,或者约束的程度。

    55220编辑于 2023-01-01
  • 来自专栏码客

    数据中台数据准备

    189.77, '2007-02-07 10:00:37'); INSERT INTO `t_user` (`id`, `name`, `age`, `height`, `birthday`) VALUES (7, 数据类型 字符型:varchar、char、nchar、nvarchar、long(在数据库中是以ASCII码的格式存储的) 数字型:number、float(表示整数和小数) 日期类型:date、timestamp SYYYY-MM-DD HH24:MI:SS')); INSERT INTO "T_USER" ("ID", "NAME", "AGE", "HEIGHT", "BIRTHDAY") VALUES ('7' Hive表删除数据不能使用DELETE FROM table_name SQL语句 删除所有数据 推荐这种方式比较快(Hive SQL支持,但是Flink SQL中不支持) truncate table 删除部分数据 当需要删除某一条数据的时候,我们需要使用 insert overwrite 释义:就是用满足条件的数据去覆盖原表的数据,这样只要在where条件里面过滤需要删除的数据就可以了 删除id为1

    58330编辑于 2023-03-06
  • 来自专栏CSDN搜“看,未来”

    为实习准备数据结构(7)--线索二叉树

    在二叉树的结点上加上线索的二叉树称为线索二叉树,对二叉树以某种遍历方式(如先序、中序、后序或层次等)进行遍历,使其变为线索二叉树的过程称为对二叉树进行线索化。

    57330发布于 2021-09-18
  • 来自专栏嵌入式视觉

    【Kaggle竞赛】数据准备

    ,第一步的工作也是准备数据,这中间我们需要做很多工作包括数据输入、数据预处理、数据增强等,我个人把这一步的工作命名为数据准备,当然也可以有其他命名。 环境准备 系统:Windows10/Linux系统 软件:Python3、TensorFlow框架、和常用的Python库,数据准备阶段主要是os、cv2、numpy、skimage、csv等。 Detection比赛为例,编写数据准备的程序,这个程序,我写了两个版本,前期的获取文件名函数都差不多,后面的打乱数据和划分batch部分,一个版本是采用numpy+python自带的功能完成的,后面一个版本是用 数据集形式如下图所示: 第一个版本程序 纯python编写,借助了cv2、os、numpy、csv等库 数据准备程序被我命名为input_data.py,里面主要是两个函数: get_files(获取文件名函数 其实正常测试读取训练集图像是没问题,主要是在训练模型的时候出了问题,还不清楚是模型训练程序还是数据准备程序的问题,所以这个版本程序仅供参考。

    1.5K21编辑于 2022-09-05
  • 来自专栏share ai happiness

    MNIST数据集 — 前期准备

    前面都是基础零碎的知识,需要通过一个栗子来为大家把整个流程走一遍,从整体上对TensorFlow进行一个把握,大概分为四篇文章来说明吧(前期准备、前馈计算、模型训练、模型评价)。 滑动平均模型 滑动平均模型可以使模型在测试数据上更健壮,适合基于梯度下降算法训练神经网络的过程。

    73321发布于 2020-10-30
  • 来自专栏python数据分析实践

    数据清洗与准备(2)

    1 处理缺失值 (1) 过滤缺失值(见上一篇文章) (2) 补全缺失值 有时候我们并不是想要过滤缺失值,而是需要补全数据。 插值方法,如果没有其他参数,默认为'ffill' axis 需要填充的轴,默认axis=0 inplace 修改被调用的对象,而不是生成一个备份 limit 用于前向或后向填充时最大的填充范围 2 数据转换 对于许多数据集,可能希望基于DataFrame中的数组、列或列中的数值进行一些转换,测试数据(data)如下,包含九类肉的名称和价格: 假设要添加一列用于表明每种食物的动物肉类型,映射如下: meat_to_animal pulled pork 2 bacon 3 pastrami 4 corned beef 5 bacon 6 pastrami 7 12.0 pig 3 Pastrami 6.0 cow 4 corned beef 7.5 cow 5 Bacon 8.0 pig 6 pastrami 3.0 cow 7

    1.1K10编辑于 2023-02-23
  • 来自专栏python数据分析实践

    数据清洗与准备(1)

    在进行数据分析和建模过程中,大量时间花费在数据准备上:加载、清洗、转换和重新排列,这样的工作占用了分析师80%以上的时间。本章将讨论用于缺失值、重复值、字符串操作和其他数据转换的工具。 1、处理缺失值 缺失数据数据分析中很容易出现,在pandas中使用NaN表示缺失值,称NaN为容易检测到的缺失值;同时python内建的None值在对象数组中也会被当做NA处理: import numpy from numpy import nan as NA data = pd.Series([1, NA, 3.5, NA, 7]) data.dropna() #与data[data.notnull() ,我们也可以传入thresh参数保留一定数量的行: df = pd.DataFrame(np.random.randn(7, 3)) df.iloc[:4, 1] = NA #根据轴索引赋值 df.iloc ,下一篇文章将介绍补全缺失值和数据转换的相关内容。

    1.4K10编辑于 2023-02-23
  • 来自专栏『学习与分享之旅』

    建表与数据准备

    自己新建数据库: create table Student(sid varchar(10),sname varchar(10),sage datetime,ssex nvarchar(10));

    98430编辑于 2023-10-12
  • 来自专栏python数据分析实践

    数据清洗与准备(3)

    Price Rest Sell Weight Apple 0 1 2 3 Orange 4 5 6 7 rename: PRICE REST SELL WEIGHT APPLE 0 1 2 3 ORANGE 4 5 6 7 Grape,将Weight转成Test Price Rest Sell Test Grape 0 1 2 3 Orange 4 5 6 7 取四次样,每次1000个数 df.describe() #输出描述性信息 假如要找出有值大于3或小于-3的行,可以使用any方法: df[(np.abs(df) > 3).any(1)] 以上就是数据清洗和准备的大致内容 ,高效的数据准备工作可以使我们将更多的时间用于数据分析而不是准备数据,从而提升工作效率。

    86620编辑于 2023-02-23
  • 来自专栏PowerBI入门100例

    1.0 PowerBI数据准备-导读

    PowerQuery是PowerBI的组件,也是Excel的组件,还是一个独立的模块,为很多微软的其他下游工具做数据准备。 它是用来获取和清洗数据的自动化工具,做的是ETL(Extract-获取、Transform-转换、Load-加载)的工作。 在PowerBI中,PowerQuery只是起点,它要为下一步数据建模做准备,生成一系列干净的(尽可能是一维的)维度表、事实表、辅助表、参数等。 常用的功能包括:获取数据、表处理(提升标题、筛选、删除列、逆透视、分组、数据类型等)、列处理(填充、替换、去重、列命名、列排序等)、拆分列、添加列、数据合并(追加查询、合并查询)等。 这些功能的使用顺序通常是先通过筛选、删除列减少要处理的数据量,然后再使用尽可能少的步骤去完成后续的清洗工作,比如多个表先追加查询为一个表再做其他处理。

    29000编辑于 2025-02-18
  • 来自专栏AIUAI

    语义分割 - 数据准备

    # 语义分割数据准备 Dataset 数据集下载 PASCAL VOC 2012 dataset augmented PASCAL VOC dataset # augmented PASCAL xvf VOCtrainval_11-May-2012.tar mv VOCdevkit/VOC2012 VOC2012_orig && rm -r VOCdevkit Data conversions 数据转换 augmented PASCAL VOC 数据集的 ground truth labels 是以 Matlab data files的格式存在的,需要进行转换: Step1 定义 mat2png (128, 0, 128) : 5 , ( 0, 128, 128) : 6 , (128, 128, 128) : 7

    1.6K20发布于 2019-02-18
  • 来自专栏cwl_Java

    Activiti7工作流引擎-Activiti7环境准备

    第3章 环境准备 3.1 三个环境 第一个环境:没有加入工作流 SaaS-IHRM 系统 作用:主要是为 activiti 工作流引擎的引入提供场景 第二个环境:activiti 测试环境 作用:用于测试 需要创建一个数据库:仅仅有 activiti 的数据表 第三个环境:activiti 应用环境,加入工作流的 SaaS-IHRM 系统 需要创建一个数据库:包括 activiti 的数据表和业务表(SaaS-IHRM 3.3 Activiti 环境 Activiti7.0.0.Beta1 默认支持 spring5 3.3.1 下载 activiti7 Activiti 下载地址:http://activiti.org 3.3.4 Activiti 支持的数据库 Activiti 的运行需要数据库支撑,需要安装 activiti 数据库,支持如下版本: ? 3.3.5 创建 mysql 数据库 本教程使用 mysql 数据库。

    4.3K00发布于 2019-12-30
  • 来自专栏LoneRanger

    数据准备和特征工程】感知数据

    文件中的数据 1.CSV文件 标准读取文件格式 import pandas as pd df = pd.read_csv(csv_file) df 让第一列的数据做索引 pd.read_csv(csv_file color_image) color_array.shape #彩色是三通道 灰度图是两通道 gray_array = np.array(gray_image) gray_array.shape #灰度图是两通道 数据库中的数据 (待补充) 网页上的数据 (待补充) 来自API的数据 (待补充)

    38820编辑于 2022-02-02
  • 来自专栏智能大数据分析

    【机器学习数据预处理】数据准备

    一、数据质量校验   如果机器学习中用于分析的基础数据有问题,那么基于这些数据分析得到的结论也会变得不可靠。 数据质量校验的主要任务是检查原始数据中是否存在噪声数据,常见的噪声数据包括不一致的值、缺失值和异常值。 (一)一致性校验   数据不一致性,是指各类数据的矛盾性、不相容性。 数据不一致是由于数据冗余、并发控制不当或各种故障、错误造成的。   对数据进行分析时需要对数据进行一致性校验来确认数据中是否存在不一致的值。 1. 由图可看出,菜品A1~A7总盈利额达到了该月盈利额的85%,在这种情况下,应该加大菜品A1~A7的成本投入,减少A8~A10的成本投入,这样可以获得更高的盈利额。 默认为1 三、数据清洗   数据清洗是数据预处理中的过程,是发现并改正数据中可识别的错误的最后一道程序,目的是过滤或修改不符合要求的数据,主要包括删除原始数据中的无关数据、重复数据,平滑噪声数据,处理缺失值

    1.2K10编辑于 2025-01-23
  • 来自专栏LoneRanger

    数据准备和特征工程】数据清理

    1.基本概念 import pandas as pd df = pd.read_csv("test.csv") df.sample(10) 获取前几行数据 ```python data.head() 获取数据维度信息 df.shape 获取数据表属性的相关信息 ```python data.info() 获取数据表属性类型信息 ```python data.head() ### 2.转换数据类型 ```python ```python df = pd.DataFrame({'ColA':1, np.nan, np.nan, 4, 5, 6, 7, 'ColB':1, 1, 1, 1, 2, 2, 2}) df'ColA [百度百科解释](https://baike.baidu.com/item/%E5%9B%9B%E5%88%86%E4%BD%8D%E5%B7%AE/8362429?fr=aladdin) ! 带有False的数据点表示这些值是有效的,而True则表示有释放。

    1.2K20编辑于 2022-02-02
  • 来自专栏reizhi

    Win7 SP1 系统更新准备工具

    这个,就是Win7 SP1的系统更新准备工具。微软在每个系统的Service Pack升级包和正式版系统发布之前,都会提供类似的系统更新准备工具。 所谓的Win7 SP1系统更新准备工具,就是用来检查用户的系统是否可以下载安装将要发布的Win7 SP1。 该准备工具会检测Windows Servicing Store 中是否存在不一致的情形,检测当前系统是否影响将来成功安装更新、service pack 和软件新版本等,并在找到不一致时尝试解决问题。

    2.1K20编辑于 2022-09-26
  • 来自专栏大数据入坑指南

    CentOs7下Zabbix安装教程——准备工作

    CentOs7下安装zabbix 关闭selinux 1.临时关闭(不用重启机器): setenforce 0 设置SELinux 成为permissive =enforcing改为SELINUX=disabled 重启机器即可 安装yum源 执行 rpm -ivh http://repo.zabbix.com/zabbix/3.2/rhel/7/ x86_64/zabbix-release-3.2-1.el7.noarch.rpm 安装mysql 执行 wget http://dev.mysql.com/get/mysql-community-release-el7 -5.noarch.rpm rpm -ivh mysql-community-release-el7-5.noarch.rpm yum install mysql-community-server 安装完成后重启

    53760发布于 2020-08-21
  • 来自专栏后台及大数据开发

    CentOS7 离线安装软件并准备依赖包

    #在一台可以联网的机器上执行下列命令准备离线安装包,机器最好内核版本一致 mkdir -p /usr/local/src/gcc yum install --downloadonly --downloaddir

    2K11发布于 2020-08-06
领券