首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 4-3 训练数据,测试数据

    当前我们将全部数据作为训练,使用训练集训练得到一个模型。 具体在kNN算法中,每当来了一个新数据的时候,新数据要和我们训练集中所有数据计算他们之间的距离,然后选出前k个距离小的训练,然后统计这些被选出来的训练对应标签,选择标签数最多的标签作为新数据的预测标签 换句话我们用全部数据作为训练得到的模型来预测新的数据所属的类别,但是我们最终需要模型在真实的环境中使用,但是现在这样做有很大的问题: 我们使用全部的数据作为训练集训练模型,得到的模型只能拿到真实的环境中使用 解决这个问题最简单的办法,是将数据划分为训练和测试。 ? 全部数据抽取70%或者80%当做训练,剩下的数据作为测试,这样我们使用蓝色的训练集训练出模型(此时需要注意测试不能够参与到训练过程中),得到模型后,将测试放到训练好的模型中,让模型进行预测,

    1.4K01发布于 2019-11-13
  • 来自专栏Hank’s Blog

    4-3 R语言函数 mapply

    #mapply(函数/函数名,数据,函数相关的函数) > list(rep(1,4),rep(2,3),rep(3,2),rep(4,1)) [[1]] [1] 1 1 1 1 [[2]] [1]

    87830发布于 2020-09-16
  • 来自专栏python3

    Python自动化开发学习4-3

    JSON 和 pickle 序列化:把数据对象变成字符串的形式,这样可以保存在文件中。 下次要用的时候再读取文件,反序列化生成之前的数据。对于这种情况,对应有两个便捷的方法可以直接完成。 encoding='utf-8') as file:     data = json.load(file) print(type(data),data) 上面的JSON的序列化并不支持python所有的数据类型 但是JSON是通用的规范,也就是JSON序列化之后的数据到其他语言环境也能识别。 对于不支持的数据类型,应该可以加一步编解码,但是如果别的语言环境也不支持这个数据类型,那么即使能序列化也没有用。 不过python序列化保存之后再给python反序列化使用,就没有数据类型的问题,那么可以使用pickle。 python的pickle模块实现了python的所有数据序列和反序列化。

    41620发布于 2020-01-06
  • 来自专栏数据科学和人工智能

    数据 | 图书数据

    下载数据请登录爱数科(www.idatascience.cn) 由电商平台爬取的图书信息,包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 当当网搜索页面爬取。

    2.9K40编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 行星数据

    下载数据请登录爱数科(www.idatascience.cn) 其记录了2014年之前天文学家在恒星(除了太阳)周围发现的行星的信息。 1. 字段描述 2. 数据预览 3. 数据来源 来源于UCI机器学习库。

    2.2K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 订购数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据记录了一家全球超市4年的订购数据,包含订单的订单号、下单时间、发货时间、运输模式、顾客名称和地区等信息。 1. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    2.3K30编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 鲍鱼数据

    下载数据请登录爱数科(www.idatascience.cn) 通过物理测量预测鲍鱼的年龄。 从原始数据中删除了缺失值的样本,并且对连续值的范围进行了缩放。数据共4177个样本,8个字段 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 Warwick J Nash, Tracy L Sellers, Simon R Talbot, Andrew J Cawthorn and Wes B Ford (1994) "The Population 数据引用 Nash W J, Sellers T L, Talbot S R, et al.

    2.9K40编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 小费数据

    下载数据请登录爱数科(www.idatascience.cn) 小费数据 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源

    1.9K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 广告数据

    下载数据请登录爱数科(www.idatascience.cn) 数据由 Jose Portilla 和 Pierian Data 为他的 Udemy 课程(Python 数据科学和机器学习训练营) 创建,适合用于数据分析与逻辑回归预测。 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    2.6K30编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 中风预测数据

    数据下载请登录爱数科(www.idatascience.cn) 根据世界卫生组织(WHO)的数据,中风是全球第二大死亡原因,约占总死亡人数的11%。 该数据用于根据输入参数(例如性别,年龄,各种疾病和吸烟状况)预测患者是否可能中风。数据中的每一行都提供有关患者的相关信息。 1. 字段描述 2. 数据预览 3. 字段诊断信息

    2.4K40编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 苹果股价数据

    下载数据请登录爱数科(www.idatascience.cn) 这个数据涵盖了过去6年苹果公司的股价。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    1.9K30编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 超市购物数据

    下载数据请登录爱数科(www.idatascience.cn) 人口稠密的城市中超市数量在快速增加,市场竞争也很激烈。 该数据记录了几家超市在3个不同分店中3个月的历史销售额,包含顾客性别、商品单价、销售数量、销售日期、总收入和顾客评价等信息。预测数据分析方法很容易应用于此数据。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    3.8K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | Udemy课程数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据包含来自Udemy的4个科目(商业金融、平面设计、乐器和网页设计)的3.682条课程记录。 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。 5. 数据引用

    2.1K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 婚姻情况数据

    下载数据请登录爱数科(www.idatascience.cn) 某社会实验内容为男人和女人签约嫁给一个他们以前从未见过的完全陌生的人。专家根据测试和面试对夫妇进行配对。 该数据记录了十次该社会实验的数据。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    1.8K10编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 欧洲领土数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据提供了用于统计的欧洲领土单位命名,缩写为 NUTS(来自法语Nomenclature des Unités regiones 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。 5. 数据引用 https://ec.europa.eu/eurostat/data/database

    90120编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 旅游保险数据

    下载数据请登录爱数科(www.idatascience.cn) 一家位于新加坡的第三方旅行保险服务公司的数据,用于预测索赔状态。 1. 字段描述 2. 数据预览 3. 数据来源 来源于Kaggle。

    84830编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 客户分类数据

    下载数据请登录爱数科(www.idatascience.cn) 一家汽车公司计划利用其现有产品(P1,P2,P3,P4和P5)进入新市场。 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    91830编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 员工信息数据

    下载数据请登录爱数科(www.idatascience.cn) 这是对公司人力资源有用的数据。公司记录员工的不同参数(例如满意度,薪水,晋升次数,离职等)。 该数据可用于预测员工是离开公司还是留在公司。。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    1.1K30编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 共享单车数据

    下载数据请登录爱数科(www.idatascience.cn) 共享单车在过去的十几年内在世界范围内得到了广泛的推广。 这份数据是在2011-2012年收集的有关于每天的共享单车租赁信息,十年后共享单车市场或许发生了改变,但人们租赁共享单车的使用习惯会改变吗? 1. 字段描述 2. 数据预览 3. 数据来源 来源于Kaggle。

    1.9K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | Google图书数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据是从Google图书商店获取的。使用Google API来获取数据数据集中为每本书收集了九种属性。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    98730编辑于 2022-03-30
领券