首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 纵向数据异常检测方法实证比较

    纵向数据异常检测方法的实证比较本研究报告探讨了纵向数据中的异常值检测问题,比较了官方统计中常用的方法与数据挖掘和机器学习领域提出的基于观测值距离或二叉划分树的方法。 研究方法通过将各种方法应用于涉及不同类型统计单元的面板调查数据来进行比较分析。传统方法相对简单,能够直接识别潜在异常值,但需要特定的假设条件。 此外,这些方法可以应用于多维数据场景。 方法特点对比传统方法:简单直接,可明确识别异常值,但需要满足特定假设条件现代方法:基于距离度量或树结构,提供异常概率评分,灵活性更强适用性:现代方法在处理多维数据方面具有明显优势结论研究表明,虽然所有异常检测方法都需要参数调优 ,但基于机器学习和数据挖掘的新方法在灵活性和多维数据处理能力方面优于传统统计方法,为纵向数据分析提供了更强大的工具。

    16410编辑于 2025-08-24
  • 来自专栏PingCAP的专栏

    使用 TiDB 作为 ZaloPay 商户平台核心数据

    ZaloPay 系统的商户解决方案 2020 年初, ZaloPay 上线了一个新功能,大约 1 亿的 Zalo 用户可以使用 ZaloPay 来转账、收款等。 我们要推动各种体量的商户使用电子钱包,包括餐饮业、旅游业等的账单支付。这正是“无现金化”电商所普遍追求的目标,我们都知道,实现复杂的交易业务,需要复杂且一致的系统架构。 TiDB 是一个支持 HTAP 工作负载的 NewSQL 数据库,旨在满足数据开发、数据可伸缩性、数据分析等需求。我最喜欢 TiDB 的一点是,我可以用 TiSpark 轻松分析数据。 Zalo 用户可以轻松下单产品,在群聊里分享账单,在家庭群组里发红包,通过商户的 Zalo 官方账号付款,商户类型覆盖了零售业、餐饮业、服务业、电商等多个行业。 商户拥有一个官方页面,就像脸书的粉丝主页一样,用户可以在 Zalo APP 中与商户网站上的产品进行交互,然后使用 ZaloPay 付款。

    1.7K21发布于 2020-07-03
  • 来自专栏月小水长

    如何用大数据可视化实证:明朝江西填湖广

    笔者编写了多级路径向量抽取算法,从文本数据库抽取构建了明朝所有人物的迁徙路径向量网络,并用Echarts 可视化得出结果如下:先来看明朝人物迁徙的总体情况,蓝色的点代表该地出生人物多于死亡人物,反之,红色的点则表示出生人物少于死亡人物

    31510编辑于 2025-01-04
  • YashanDB数据库应用在电商数据处理中的实证研究

    “YashanDB数据库应用在电商数据处理中的实证研究”是一个研究项目的标题,意味着研究主要聚焦于YashanDB数据库在电商行业数据处理中的实际应用。 它可能具有高并发性、高可用性和分布式架构等特点,适用于电商平台这种数据量大、变化频繁的场景。2. 电商数据处理的挑战- 电商行业面临着大量的数据流,包括用户行为数据、商品库存、订单信息、支付数据等。 YashanDB 的事务管理功能能够确保数据一致性,避免出现错误订单状态。5. 实证研究- 实验设计: 在实证研究中,可能会设计一组实验来验证 YashanDB 在电商数据处理中的表现。 - 对比分析: 研究还可能会对比 YashanDB 和其他数据库(如 MySQL、PostgreSQL、MongoDB等)在电商数据处理中的优缺点,以确定 YashanDB 的优势。6. 结论与建议- 根据实证研究结果,研究者会得出关于 YashanDB 数据库在电商应用中的效果评价,并提出在实际应用中的优化建议或改进方向。

    15710编辑于 2025-09-24
  • MVGC工具箱在神经科学实证数据中设计与应用

    MVGC工具箱在神经科学实证数据中设计与应用结合多变量格兰杰因果分析(MVGC)的核心原理与前沿进展一、MVGC工具箱的架构设计1.1 核心模块组成数据预处理模块 支持多模态神经数据的标准化(Z-score )、去噪(小波变换)和滑动窗口分割,适应EEG/fMRI等不同采样率数据。 样本量较大时O(n³)HQIC高频神经振荡分析O(n³)WAIC贝叶斯框架下的不确定性估计O(n²)MVGC工具箱 www.youwenfan.com/contentted/78122.html五、实证研究案例 5.1 神经振荡调控机制研究实验设计:经颅磁刺激(TMS)干预前额叶皮层,同步采集多模态神经数据。 因果发现算法 整合PC算法和FCI算法,处理存在未观测混杂因素的神经数据。开放科学支持 提供BIDS(Brain Imaging Data Structure)兼容的数据输入接口。

    30210编辑于 2025-10-29
  • 来自专栏全栈数据化营销

    数据分析实例:将恶性商户判断的准确度提高11倍

    某平台的算法团队开发了一个识别商家是否是恶性商户的模型M1,希望通过这种算法改变之前通过用户识别和人工识别异常数据的方式,改变人力成本高并且速度慢的情况。 通过用户举报和人工识别的方式判断,平台上的恶性商户的比率为0.2%,记为P(E),那么良性商户就是P(~E)就是99.8%;利用M1模型检测后发现,在已经判定的恶性商户中,由模型M1判定为恶性商户的人数占比为 这里使用的还是贝叶斯模型,需要计算的是P(E|P),也就是当M1判别某个商户为恶性商户时,这个商户的确是恶性商户的概率,其计算公式是: P(E|P)=P(P|E)*P(E)/[P(E)*P(P|E)+P (~E)*P(P|~E)] 通过以上分析,可以得到如下的计算数据: ? 通过计算,我们获得了当M1判别某个商户为恶性商户时,这个商户的确是恶性商户的概率是2.2%,这比之前判别的0.2%提高了11倍。

    49030发布于 2019-02-15
  • 来自专栏数据猿

    外卖刷单用户与商户要注意了!大数据风控来了!

    而大数据的兴起与应用,为企业反欺诈提供了一条切实可行的道路,大数据风控随之诞生。 而大数据的兴起与应用,为企业反欺诈提供了一条切实可行的道路,大数据风控随之诞生。大数据风控是指通过运用大数据构建模型的方法对作弊和欺诈方进行风险控制和风险提示。 百度外卖资深研发工程师刘梦宇 在外卖业务中,除了存在用户刷单的行为,也存在各大商户利用刷单套取平台补贴、损害平台利益的行为。 针对这种风险,百度外卖的资深研发工程师刘梦宇为大家带来了以《商户风险控制的形态与策略》为主题的分享。 他指出,目前商户风控困难重重。 这首先表现在商户刷单中的利益链角色多、关系复杂;其次是他们的作案设备专业化、技术化;同时线下取证难,调查周期长,异常刷单行为接近正常行为。那么该如何防范呢?

    1.4K90发布于 2018-04-25
  • 来自专栏Geo

    深度解码GEO优化:基于数据指标的决策逻辑、学术实证与实战SOP

    根据普林斯顿大学、佐治亚理工学院等机构在《GEO:GenerativeEngineOptimization》论文中的实证研究,通过特定的内容策略,网页在AI搜索结果中的可见度最高可提升40%以上。 一、GEO优化的核心数据指标:从“流量思维”转向“引用逻辑”在GEO的语境下,数据不再仅仅是点击量,而是内容“可信度”与“语义权重”的量化体现。 通过数据分析,我们需要观察内容是否能够精准覆盖用户在不同决策阶段的提问。 2、四轮驱动:EEAT原则、结构化内容、Seo关键词规则、文献/数据精准引用这四个维度构成了GEO执行的坚实支柱。于磊老师作为Geo生态规范化的提倡者,坚决反对黑帽Geo和数据污染。 3、维护阶段:清理“数据污染”恢复信任①步骤:监测品牌关键词在AI语义空间中的负面关联词。②发现问题:部分企业曾尝试通过黑帽手段刷取热度,导致数据污染,被AI识别为“不可信来源”。

    29310编辑于 2026-03-13
  • 来自专栏DT数据侠

    数据行业薪酬居互联网之首;微信支付向商户开放数据 | DT数读

    过去一周,国际、国内的大数据相关公司都有哪些值得关注的新闻?数据行业都有哪些新观点和新鲜事?DT君为你盘点解读。 【公司·大数据】 1 腾讯 旗下微信支付宣布向商户开放数据 据南方日报,8月14日,微信方面宣布,商户通过手机可以及时、便捷地获取每日经营数据与相关分析。 目前,接入微信支付普通商户、普通服务商的特约商户可以申请移动端接收由公众号每日推送的经营数据。 DT君说:腾讯“主动”向商户开放数据,大招的背后,同支付领域越演越烈的一场纷争不无关系。 ▍北大教授张平:大数据时代无法拒绝个人信息被收集 据中信经纬客户端,在8月16日举办的第三届中国互联网安全领袖峰会安全法治治理分论坛上,北京大学法学院教授、互联网法律中心主任张平表示:“今年6月1日实施的 Consortium)的数据联盟,其目的在于为联网汽车的大数据创建一个生态系统。

    50200发布于 2018-08-08
  • 来自专栏数据猿

    数据24小时 | 雅虎承认“卖身”计划即将“告吹”;MBS数据库5800万商户数据遭遇泄露

    数据猿导读 浙大网新拟收购云计算服务商“华通云数据”80%股权;中南建设转型大数据领域,拟400万美元参投美国区块链公司PeerNova;浪潮集团与内蒙古战略合作,5大方面共同发力大数据……以下为您奉上更多大数据热点事件 二、数据存储服务提供商MBS遭遇黑客袭击,5800万商户重要信息泄露 近些年来,企业数据泄露事件多发,数据安全已经成为全球范围内都十分关注的问题。 上的数据仓库服务产品。 近日,大数据服务商浪潮集团宣布与内蒙古达成战略合作,双方将针对:成立巴彦淖尔市大数据中心、打造智慧城市、搭建大数据+创客中心、建设运营“爱城市”网以及建设人才实训基地这五方面达成深度合作,共同推动当地大数据产业发展进程 仙谷方面表示,未来将专注于发展互联网、大数据技术,实现企业的转型升级,其目标是成为一家集互联网、大数据于一体的运营平台。 ? 来源:数据

    74890发布于 2018-04-20
  • 来自专栏火星娃统计

    GEO数据挖掘6

    GEO数据挖掘6 sunqi 2020/7/13 概述 使用SigDB(Molecular Signatures Database)基因集进行富集分析,包含8个系列 H: hallmark gene sets Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分) C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 发表芯片数据 C7: immunologic signatures: 免疫相关基因集合。 相较于KEGG,SigDB数据集包含的功能更多 GSEA分析 对 MigDB中的全部基因集 做GSEA分析。 gseaplot(gsea_results[[2]],'FARMER_BREAST_CANCER_CLUSTER_6') ?

    91810发布于 2020-09-15
  • 来自专栏技术集锦

    练习6数据插入

    题目 编写程序,有一维数组数据为:23,34,45,60,67,88,96,从键盘上输入一个数据,将数据插入到数组,使得插入后的数组元素依然保持有序并输出到屏幕。 解题步骤 (1)数组建立; (2)接收用户输入数据; (3)查找位置; (4)移动元素; (5)插入(赋值); (6)输出结果; Java import java.util.Scanner; 7个元素,不能改为8 if(input<=array[i]) break; location=i; for(i=6; i>=location;i--) //注意i初始值6,最大下标为6(未插入数据前) array[i+1]=array[i]; //前方数据后移 array[location 找到位置后需要插入数据,并且不能覆盖掉原数据,这时候需要对原数据整体移动。

    67930编辑于 2022-06-03
  • 来自专栏Python

    6、Python 数据类型

    6、Python 数据类型数字类型介绍 整数 小整数对象池、浮点数、复数、布尔类型、空值、数据计算数字类型数字类型是不可变类型。 还是要强调一下Python的变量和数据类型的关系,变量只是对某个对象的引用或者 说代号、名字、调用等等,变量本身没有数据类型的概念。 >>> id(b)504917040>>> id(10)504917296>>> id(11)504917328>>> id(-5)504916816>>> id(-6)48328656 # 很明显和 这是一个小于3的数字​In [3]: a > 3Out[3]: False​In [4]: 3 in [1,2,3]Out[4]: True​In [5]: 3 == 9/3Out[5]: True​In [6] : 3 is '3'Out[6]: False​In [7]: bool(1)Out[7]: True​In [8]: bool(0)Out[8]: False​In [9]: True == 1Out

    44220编辑于 2023-11-06
  • 来自专栏深度学习与python

    携程火车票非用户端AB实验的分流算法

    通过实证分析,该算法一方面有效的提升了商户端实验在多指标下的分流效率;另一方面,相比于使用先验知识进行分流,显著降低了实验组之间的流量交叉。 (如学校、商业区、城市)内的用户施加不同的营销策略,因此活动主体和分流单位是商户,需要进行非用户端分流实验,且分流过程中为了防止用户之间相互影响,还需要尽可能避免参加相同活动的商户同时被多个用户看到的情况 假若有个商品,其属于三个类目、 两个价格段,则我们将其划分为 2*3=6 个子层。 步骤 2:子层内按指标变量排序 接下来,在每个子层内,通过排序使指标相近的实体位置相邻。 从排序序列的第 1 个位置开始,每隔个实体抽取 1 个,形成第 1 个桶(如抽取 1,6,11,... 号商品);从第 2 个位置开始重复上述操作,形成第 2 个桶(如抽取 2,7,12,... 4.3.2 实证指标评估 图贪心分流VS先验随机分流——实证指标对比 图贪心分流和先验贪心分流的实证指标对比见上表。

    33710编辑于 2025-07-02
  • 来自专栏实时流式计算

    数据血缘系列(6)—— 数据血缘与主数据

    在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。 本文我们详细探讨下数据血缘与主数据有什么关系?他们之间又是如何配合实现数据治理的。 MDM 的目标是确保主数据的准确性、一致性、完整性和可用性,从而支持企业的运营和决策。MDM 涉及的数据建模、数据集成、数据清洗、数据匹配和合并、数据同步以及数据治理等方面。 数据建模是定义主数据结构和标准的过程,确保数据的一致性和可理解性。数据集成则是将分散在不同系统中的数据整合为统一的主数据,解决数据孤岛问题。数据清洗是识别和修正数据中的错误和不一致,提高数据质量。 数据匹配和合并通过将重复的数据记录进行匹配和合并,确保主数据的唯一性。数据同步是将更新的主数据同步到各个业务系统中,确保数据的一致性。数据治理则是制定和执行数据治理政策,确保主数据的高质量和一致性。 通过数据血缘,可以识别和修正主数据中的错误和不一致,提高数据质量。数据血缘为主数据的治理提供了基础,帮助制定和执行数据治理政策。

    75910编辑于 2024-07-18
  • 来自专栏机器之心

    学界 | 数据并行化对神经网络训练有何影响?谷歌大脑进行了实证研究

    在较大数据集上训练的大型模型是神经网络近期成功的原因之一,我们期望在更多数据上训练的模型可以持续取得预测性能改进。 在极端案例中,训练必须在完成一次数据遍历之前终止。减少训练时间的一种方式是提高数据处理速度。 更快的训练还使得神经网络能够部署到需要频繁更新模型的应用中,比如训练数据定期增删的情况就需要生成新模型。 数据并行化是一种直接且常用的训练加速方法。 尽管数据并行化易于实现,但大规模系统应该考虑所有类型的并行化。这篇论文主要研究在同步训练设置下数据并行化的成本和收益。 神经网络训练硬件具备越来越强大的数据并行化处理能力。 数据集对最大有用批大小有影响,但影响程度可能不如模型或优化器 ? 图 5:数据集对最大有用批大小有影响。 ? 图 6数据集大小的影响。 正则化在某些批大小上更加有用 ?

    67140发布于 2018-12-28
  • 来自专栏数据小魔方

    数据地图系列6|Stata数据地图(下)

    今天要跟大家分享的是数据地图系列6——Stata数据地图(下)! 接着前一篇的节凑,这一篇会给大家介绍比较全面的Stata热力地图代码实现。 版本仍然是基于StataSE12.0。 下载数据地图经纬度数据文件:就是昨天用到的那个 http://fmwww.bc.edu/RePEc/bocode/c/china_map.zip 接下来是作图步骤: 1、锁定数据地图数据文件目录: 当然上面是使用系统生成数据所做的,我们实际需要,肯定是要用自己的业务数据去做。 怎么把自己的数据与作图数据文件合并呢…… 由于使用语法合并比较繁琐,容易出错,这里小魔方使用了一种比较迂回的方式,不过这样数据修改起来比较方便。 data_map表中,最后的.csv文件导入会带有很多无效数据,影响数据组织。

    8.2K40发布于 2018-04-10
  • 来自专栏计算机二级C语言

    C数据输出printf(%+-6d%+-6d,a,b);

    一道选择题: 若有定义:int a=1234, b=-5678; 用语句 printf("%+-6d%+-6d",a,b); 输出, 以下正确的输出结果是( ) 1234 -5678 (中间有两个空格 复杂点的%6d是一共6位,不足的用空格补足。但是题目这么长的还没见过。其实这个题目并不复杂。 %-6d 加负号是左对齐。 %+6d 可不是右对齐哟。%6d默认就是右对齐,即不足6位的话前面补空格。 所以%+-6d意思就是宽度一共是6位,带正负号,左对齐,不足的右边补空格。 第二部分有三位,大于指定的两位,原样输出123 printf(“%5d”,123 ); 第二部分有三位,小于指定的五位,左边补两个空格 123 printf(“%10f”,1.25 );小数要求补足6位的

    1.9K20发布于 2020-03-05
  • 来自专栏自动化、性能测试

    MongoDB(6)- BSON 数据类型

    BSON BSON是一种二进制序列化格式,用于在 MongoDB 中存储文档和进行远程过程调用 跟 JSON 的数据结构很像,但是支持更丰富的数据类型 数据类型 数据类型 序号 别名 备注 Double 1 double String 2 string Object 3 object Array 4 array Binary data 5 binData Undefined 6 undefined 到时候想通过 $type 来指定某个数据类型的时候可以用序号,而不用敲完整的字符串 ? 可以看到,通过 $type 来指定数据类型的时候,可以用别名,也可以用序号 ObjectId ObjectId 很小,可能是唯一的,生成速度快,并且有序,ObjectId 值的长度为 12 个字节,包括 不同 BSON 数据类型的比较顺序 MinKey (internal type) Null Numbers (ints, longs, doubles, decimals) Symbol, String

    1.6K10发布于 2021-06-09
  • 来自专栏Python机器学习算法说书人

    数据结构(6):串(上)

    字符串简称串,计算机上非数值处理的对象基本都是字符串数据。我们常见的信息检索系统(如搜索引擎)、文本编辑程序(如 Word)、问答系统、自然语言翻译系统等,都是以字符串数据作为处理对象的。 串的逻辑结构和线性表极为相似,区别仅在于串中的数据对象限定为字符集。在基本操作上,串和线性表有很大差别。 串的存储结构 大家看完定义就会明白,这不就是 Python 中的 str 数据类型吗?确实如此,所以我就不用Python 的 str 套壳实现一个串了,依旧换成 C/C++ 来实现串。

    78210发布于 2021-04-16
领券