首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏安全领域

    物联网:数据淘金——从数据中挖掘有效信息

    如今是信息时代,得数据者得天下。然而,只是“有”数据还不够,数据的“准确性”和数据的“分析”也是至关重要的。爱因斯坦也说过:“能用的不一定有用,有用的也不一定能用。” “数据”和“信息”不是一码事。 通过辅以机器的力量,我们可以全自动地从数据淘金,让冰冷的数字变成感性的认知。“ 如何发现数据的内涵? 物联网之前,分析传感器各式各样的海量数据非常困难。 通过物联网技术,我们可以把机器得到的数据放入数据池自动分析,以决定下一步需要对数据和程序做些什么。物联网不仅收集、分析数据,它还会自我提升。 第二步:在网关这个临时节点上对数据进行一定量的分析,你可以在这处理数据(例如汇总数据,或者转换数据,为数据中心或云深入分析做好准备)。 Kirkland-2-300x126.jpg 开源何益? 开源软件项目提供了标准化的工具包(例如Camel、Drools),你可以用它处理、操作数据

    1.2K90发布于 2018-04-17
  • 来自专栏华章科技

    日本麦当劳,用大数据来“淘金

    O2O闭环帮助日本麦当劳更好地采集用户行为数据,实现利益增长 从基础设施上来看,日本是全世界最适合发展O2O产业的国家之一。 形成O2O闭环后,日本麦当劳可以很好地采集用户交易行为数据,从而精准地向他们推送手机优惠券,大大提升到店率和销售额。 ? 日本麦当劳优惠券发展的四个阶段 第一阶段:纸质优惠券。 合资公司成立后,麦当劳的手机优惠券形成完整的O2O死循环。 ? 日本麦当劳的完整O2O闭环模式 日本麦当劳一直想搜集用户的消费行为信息,然后精准地为他们提供优惠券。 日本麦当劳的大数据挖掘,实现个性化精准营销 日本麦当劳实现了O2O闭环,最大的好处是能够精准挖掘用户行为信息。这些信息包括用户的消费频次、经常光顾的店面、单次消费的金额、购买的食物品种等。 转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

    1.7K20发布于 2018-08-14
  • 来自专栏速入大数据

    R语言数据挖掘:从“挖井”到“淘金

    R语言数据挖掘:从“挖井”到“淘金”在数据挖掘的世界里,很多人喜欢把它比作“淘金”。但我更愿意把它看成是“挖井”——只有深挖,才能找到清澈的数据源;只有细掘,才能汲取真正的价值。 比如dplyr让数据处理更顺滑,ggplot2让可视化更直观,caret让机器学习更简单……这些工具的组合,使得R语言不仅仅是统计分析的利器,更是数据挖掘的“神器”。 2. 数据探索——“勘探”在正式建模之前,我们需要对数据进行探索,以发现变量之间的关系和潜在规律。 library(ggplot2)# 画出变量的分布ggplot(data_clean, aes(x = 某变量)) + geom_histogram(binwidth = 10, fill = "skyblue 模型评估与优化——“淘金”仅仅训练出一个模型还不够,数据挖掘的关键在于如何优化它,提高其稳定性和泛化能力。

    32210编辑于 2025-05-08
  • 来自专栏挖数

    中国在全世界“淘金

    消息迅速传开,约30万人从世界各地涌来淘金,其中包括不少华人,原先加州几乎没有华人居民,到1852年,华人数量骤增至3万人。这些华人多来自广东的台山市。 以下是全球锂矿资源最多的六个国家: 来自美国地质调查局(USGS)2019年的数据 我国锂矿储量在全球排第六位,仅是第一位 玻利维亚 的 1/5 左右,不仅如此,我国锂矿大多是提取难度大的盐湖锂,导致国内开采速度远远跟不上消耗速度 为保障锂资源自主可控,我国新能源企业开启新一轮 “淘金”- 在全世界寻找锂矿,购入外国矿场后,把锂矿石运回中国处理。 蛇吞象 观察最近2年新能源的火爆,相关股票都十倍的涨幅,不得不说我国的企业家还是非常有远见的,这种远见让他们提早十年看到行业的爆发。 因此在锂价暴跌的2019年,天齐当年的亏损就达到54.82亿,导致市值一下削去了44% 当然最后还是扛了下来,并在最近2年守得云开,2012年花38亿买的泰利森51%股权,2020年被澳大利亚一家公司花

    65820编辑于 2023-01-09
  • 来自专栏PPV课数据科学社区

    IBM谢国忠:大数据淘金—从大数据发现商业机会

    2)如何扩充和获取新的数据来源(非结构化数据、外部数据和社交数据等)? 所以,我今天报告的题目是:大数据淘金-从大数据发现商业机会。更多地偏向大数据应用模式和应用场景,而对技术细节不做详细讨论。 ? 我今天报告的内容主要分为三个部分:大数据概述、大数据在各行业的应用与实践、大数据演示(截屏)。 ? 第一部分:大数据概述 在讲述大数据之前,先让我们回顾一下计算机的发展历程。 如果我们将企业数据从两个维度来切分:数据类型和数据形态,那么企业的海量数据归纳成三类: 静态海量结构化数据  静态海量非结构化数据  动态海量流数据 这三类数据的结合,才形成企业统一的大数据环境 三个平台的组合,形成了大数据平台,那么就注定了大数据的架构是一个混搭的体系架构。大数据的架构逻辑上可分为:实时数据区、非结构化数据区、传统的数据仓库区、分析与报表区及统一的元数据数据管控区。 而传统的企业,没有电商企业得天独厚的条件:同时拥有交互数据和交易数据。因此,传统企业大数据分析之路可从自有数据开始。 ?

    2.7K50发布于 2018-04-20
  • 来自专栏速入大数据

    数据海洋中“淘金”——数据挖掘的魔法与实践

    数据海洋中“淘金”——数据挖掘的魔法与实践在这个数据飞速膨胀的时代,每天产生的数据量可以用“天文数字”来形容。 如果将数据比作金矿,那么数据挖掘(Data Mining)就是在数据的海洋中挖掘黄金的技术。作为一门结合统计学、机器学习和数据库技术的交叉学科,数据挖掘正在各行各业中发挥着巨大的价值。 本文将通过通俗易懂的语言以及实际的代码示例,为大家介绍数据挖掘的核心技术和思考角度。一、数据挖掘是什么?简单来说,数据挖掘就是从庞大的数据集合中发现模式、关联和知识的过程。 这些看似“聪明”的功能背后,都有数据挖掘技术在默默工作。二、常用数据挖掘技术分类(Classification): 用于将数据分成不同类别,比如将邮件分为“垃圾邮件”和“正常邮件”。 四、思考深度:数据挖掘的挑战和未来尽管数据挖掘技术非常强大,但我们也必须正视其面临的挑战:数据质量: 垃圾数据会直接影响挖掘结果,因此“清洗”数据是必不可少的步骤。

    37310编辑于 2025-04-10
  • 来自专栏速入大数据

    数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?

    数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?在这个数据爆炸的时代,我们每天都在产生海量信息:社交媒体上的点赞、网购时的浏览记录,甚至是健身手环记录下的步数。 这些数据本身可能看似杂乱无章,但如果能够通过数据挖掘技术进行深入分析,它们就能揭示隐藏在数据背后的商业价值和社会趋势。那么,数据挖掘到底是什么?它又是如何做到“点石成金”的?一、数据挖掘到底是什么? 步骤 1:数据准备数据数据挖掘的基础,通常我们会使用 Pandas 处理数据:import pandas as pd# 读取用户购物数据data = pd.read_csv("shopping_data.csv 步骤 2:特征工程在数据挖掘中,原始数据往往很杂乱,我们需要提取有用的特征。 四、数据挖掘的挑战当然,数据挖掘并不是万能的,它仍然存在很多挑战:数据质量问题:数据不完整、不规范会影响模型效果;数据隐私问题:数据挖掘容易涉及用户隐私,必须合理使用数据;算法选择问题:不同业务场景需要不同的算法

    31310编辑于 2025-05-20
  • 来自专栏大数据文摘

    【深度】淘金数据:航空工业催生万亿商机

    淘金数据 航空业与生俱来拥有大数据基因,由上百万个零件、数十种系统构成的飞机,通过传感器获得超过千兆字节数据,只是过去很多年,其利用率只有10%。 GE航空工程部中国区总经理王鹏告诉《21CBR》记者,“二三十年前,GE就开始提供第一代发动机状态监控服务,需要飞行员手工记录发动机数据,到后来机载设备自动记录数据,到现在飞机在飞行中发送实时数据,进行发动机实时远程故障诊断 而现在GE推广的是基于大数据的飞行和维修分析服务,分析的是全程的飞行数据。这能帮助数据分析专家和发动机专家更全面地了解飞行员的操作情况和飞行全过程的发动机工作状态。 事实上,航空大数据已经为GE优化发动机设计提供决策。 目前已累积超过6亿飞行小时的全球地形和障碍物数据的EGPWS数据库,每月都会从各大航空公司、空管局、政府和一些数据服务商那里更新数据,以便提供更精准的服务。 告别黑匣子?

    81460发布于 2018-05-23
  • 来自专栏数据猿

    数据宝藏“淘金热”,腾讯云大数据愿做“卖铲人”

    截至目前,腾讯云大数据的算力规模已经突破千万核,日实时计算量达百万亿级、日运行容器数超亿级,并且形成了从底层大数据计算引擎,中层数据治理,及上层丰富业务数据应用的全体系大数据产品矩阵。 (腾讯云大数据全景图,来源:腾讯云大数据) 以云原生算力资源与存储资源为基础,腾讯云大数据产品矩阵可以分成三大层次:大数据基础引擎、数据开发与治理平台、数据应用与可视化,其上则是联合优秀的生态合作伙伴深度打造的行业场景解决方案 中层的一站式数据开发治理平台 WeData ,融合了全链路DataOps数据开发能力,以及数据地图、数据质量、数据安全等一系列数据治理和运营能力,帮助企业在数据构建与应用过程中提高数据开发效率,提升数据质量 在面向政务、金融等行业的私有云场景,TBDS则是基于腾讯多年海量数据处理经验,整合腾讯内部大数据技术能力,将云端大数据产品能力完全复刻,面向数据全生命周期的企业级大数据云平台。 客户可以借助 TBDS ,根据不同数据处理需求选择合适的大数据分析引擎和相应的数据开发治理工具,构建数据仓库、用户画像、精准推荐、风险管控等大数据应用服务。

    1K20编辑于 2022-12-12
  • 来自专栏用户5909132的专栏

    【CLS数据淘金第五期】 云产品 CLB 日志抽样,独家发布

    「CLS数据淘金第一期」介绍过 CLB 两大主要场景:运维监控场景与运营统计场景;本期我们将对运维监控场景做进一步的补充,并将重磅推出腾讯云 CLB 日志降本增效的独家利器 - CLB 日志抽样。 CLB 访问日志中针对每一条访问记录提供以下了多种耗时数据: 我们也可以从以下拓扑图进一步理解这些耗时数据: 基于以上图片, CLB访问日志中记录的不同耗时数据分别代表: request_time: 编号1-8 的时间 upstream_connect_time:编号2-3的时间 upstream_header_time:编号2-5的时间 upstream_response_time:编号2-6的时间 )*1000,2) as net_time,round(avg(request_time)*1000,2) as request_time group by t order by t desc limit 往期推荐: 【CLS 数据淘金第一期】CLB 日志可视化分析大洞察 【CLS数据淘金第二期】云原生日志服务之 TKE 运维指北 【CLS数据淘金第三期】CDN访问日志质量分析 【CLS数据淘金第四期】

    46930编辑于 2023-03-30
  • 来自专栏【腾讯云开发者】

    【CLS数据淘金第三期】CDN访问日志质量分析

    欢迎关注「腾讯云开发者」,期待你的「在看」哦~👇

    45620编辑于 2022-11-04
  • 内存淘金术:Redis 内存满了怎么办?

    欢迎来到我的博客,代码的世界里,每一行都是一个故事 内存淘金术:Redis 内存满了怎么办? 前言 在 Redis 的世界中,内存是宝贵的资源,但也是有限的。 具体实现方式是维护一个访问顺序的数据结构,当一个数据被访问时,将其移到数据结构的末尾,表示最近使用过。当需要淘汰数据时,从数据结构的开头选择最久未被访问的数据进行淘汰。 定期淘汰策略 定期淘汰策略: 定期淘汰策略涉及定期扫描数据库,根据一定规则淘汰数据,以确保缓存中的数据始终保持最新。这种策略可以根据一些规则,如过期时间、访问时间等,来判断哪些数据应该被淘汰。 ,并让 Redis 主动进行淘汰 redis_client.set('key1', 'value1') redis_client.set('key2', 'value2') redis_client.set 淘汰导致的数据不一致: 问题: 淘汰操作导致缓存中的数据与底层数据源不一致。 解决方案: 采用合适的淘汰策略,避免淘汰频繁使用的数据,或者在淘汰后及时从底层数据源重新加载数据

    57910编辑于 2025-05-30
  • 来自专栏日志服务CLS

    【CLS数据淘金第三期】CDN访问日志质量分析

    导语:内容分发网络(Content Delivery Network, CDN),全球加速节点超过2800+,覆盖三大运营商及50+家中小运营商,为用户内容加速与安全提供全方位的解决方案。 当前腾讯云日志服务(Cloud Log Service,CLS)与内容分发网络 CDN 已打通,基于腾讯云日志服务,通过对 CDN 访问日志的分析, 用户可以快速发现与定位内容分发网络中出现的访问错误与访问延时等质量问题。

    59320编辑于 2022-11-02
  • 来自专栏量化投资与机器学习

    淘金『因子日历』:因子筛选与机器学习

    本文主要测试了机器学习类的非线性模型所需的因子筛选指标,推荐使用 Cramer'V 和互信息,它们都能捕捉非线性关系;虽然因子和收益都是连续型变量,但也可以将它们离散化后再做测试,特别是因子尾部数据与收益的关系 ,极端数据往往有更强的预测能力。 种滚动测试的样本划分:① 横截面测试:以每个月末 t 横截面对应的行数据为样本,进行滚动测试;② 跨横截面测试:模拟模型滚动训练时时间窗的划分,在每个月末 t ,回溯过去 24 个月(包含当前月),以这个时间区间上的行数据为样本 回归平方和与总离差平方和之比值 SSR/SST),最终的 F 统计量为: F=\frac{SSR / 1}{SSE /(n-2)} =\frac{R^{2} }{1-R^{2}} (n-2)\sim F , correction=True, lambda_=None) chi2 = chi2_stat[0] phi2 = chi2 / arr.sum() n_rows, n_cols

    2.2K23编辑于 2023-04-20
  • 来自专栏日志服务CLS

    【CLS数据淘金第五期】 云产品 CLB 日志抽样,独家发布

    「CLS数据淘金第一期」介绍过 CLB 两大主要场景:运维监控场景与运营统计场景;本期我们将对运维监控场景做进一步的补充,并将重磅推出腾讯云 CLB 日志降本增效的独家利器 - CLB 日志抽样。 CLB 访问日志中针对每一条访问记录提供以下了多种耗时数据:图片我们也可以从以下拓扑图进一步理解这些耗时数据:图片基于以上图片, CLB访问日志中记录的不同耗时数据分别代表:request_time:编号 1-8 的时间upstream_connect_time:编号2-3的时间upstream_header_time:编号2-5的时间upstream_response_time:编号2-6的时间明白了 )*1000,2) as net_time,round(avg(request_time)*1000,2) as request_time group by t order by t desc limit 图片往期推荐:【CLS 数据淘金第一期】CLB 日志可视化分析大洞察【CLS数据淘金第二期】云原生日志服务之 TKE 运维指北【CLS数据淘金第三期】CDN访问日志质量分析【CLS数据淘金第四期】网络流日志

    35210编辑于 2023-05-06
  • 来自专栏日志服务CLS

    【CLS数据淘金第四期】网络流日志-云联网日志分析

    导语云联网(Cloud Connect Network,CCN)云联网覆盖全球 20+ 地域,提供云上私有网络间(VPC)、VPC 与本地数据中心间(IDC)内网互联的服务,具备全网多点互联、路由自学习 select round(sum(case when action = 'REJECT' then 1.00 else 0.00 end) / cast(count(*) as double) * 100,2) 图片往期文章:【CLS数据淘金第三期】CDN访问日志质量分析【CLS数据淘金第二期】云原生日志服务之 TKE 运维指北【CLS 数据淘金第一期】负载均衡 CLB 日志可视化分析大洞察

    1.3K50编辑于 2022-11-14
  • 来自专栏Alter聊科技

    自动驾驶淘金赛,Apollo被聚焦的底层逻辑

    Apollo的赋能策略已经初见成效:2021年1月19日,搭载百度 AVP 自主泊车解决方案的威马 W6 在湖北黄冈的工厂下线,并将在2021年上海车展前后销售;Apollo智舱已经和奥迪Q2L等车型达成合作 从自动驾驶方面来看,Apollo 2020年仅在北京测试里程就达到112万公里,超过了Waymo在加州的101万公里;目前Apollo测试总里程超过700万公里,已是 Cruise 的 2 倍,后者在2020

    35220编辑于 2023-01-12
  • 来自专栏罗超频道

    淘金到炼金,“技术+”在营销中扮演什么角色?

    只不过,淘金时代结束了,炼金时代开启。 不只是VC行业,广告业何尝不是如此。营销本身跟淘金很像。在流量红利时期,广告主在开展营销活动时,很容易从充沛的注意力大盘中淘到金子。 2、技术+ROI。 技术+ROI让营销变得更加弹性,就像电商平台基于C2M实现弹性制造一样,底层都是数据。巨量引擎的技术+ROI实践是,让客户将广告相关数据传给平台,在确保数据安全时应用机器学习进行最优投放决策。 总之,营销业不再是淘金,而是炼金,技术+,就是炼金的方法。 2、对科技行业是顺势而为。 此时此刻,巨量引擎提出“技术+”,也是一种顺势而为。 不只是转化,巨量引擎早已将技术应用在营销各个环节,比如创意生产支持,以前需要用2个小时生产的内容,现在只需2分钟便可批量产出,巨量引擎每天会有150多万个创意被AI生产;再比如基于AI技术的洞察与度量等等

    61921发布于 2019-12-17
  • 来自专栏新智元

    AI 淘金热 | 机器学习创业机会在哪里?

    机器学习淘金热正在到来!Libby Kinsey 是 Nesta 资本的投资经理,关注技术创新已经有 12 年。 她根据自己的观察,总结出这波淘金热的创业机会,其中包括硬件、算法、数据、行业、情感、安全等各领域分析。 Libby Kinsey:机器学习和人工智能技术正快速进入到数据驱动的业务中,变得无所不在。 铁镐和铁锹策略 在加利福尼亚州的淘金热中,卖铁锹的人先富起来了,而机器学习的铁镐和铁锹(Pick and Shovel)会是硬件、数据输入以及算法等。 2、大公司已经拥有超大型的数据集,而且还会获得更多(例如 IBM 最近用 15 亿美元收购了 The Weather Channel,获得了数据)。 2、Lumi 会通过你的浏览历史学习你的口味,提供相关和当下的内容。这是为不知足的好奇心提供的服务。

    1.2K60发布于 2018-03-13
  • 来自专栏人工智能应用

    人工智能时代数据淘金”:Python数据预处理与特征工程十大技术要点解析

    一、数据淘金”的价值提炼当我们将原始数据比作"矿井采掘的粗粝矿石"时,强调的是数据从现实世界采集时固有的不完美性。 这就是人工智能数据淘金”。这过程远非简单的技术规程,而是融合数学直觉、领域洞见与工程智慧的艺术实践.。 [node.path for node in wp.get_level(level, 'natural')] energies = [np.sum(np.abs(wp[node].data)**2) def wavelet_energy_entropy(coeffs): energy = np.sum(coeffs**2, axis=1); return -np.sum(energy/np.sum( Sequential([ Conv3D(64, kernel_size=(3,3,3), input_shape=(100,80,24,3)), MaxPooling3D(pool_size=(2,2,2

    37410编辑于 2025-07-24
领券