首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 纵向数据异常检测方法实证比较

    纵向数据异常检测方法的实证比较本研究报告探讨了纵向数据中的异常值检测问题,比较了官方统计中常用的方法与数据挖掘和机器学习领域提出的基于观测值距离或二叉划分树的方法。 研究方法通过将各种方法应用于涉及不同类型统计单元的面板调查数据来进行比较分析。传统方法相对简单,能够直接识别潜在异常值,但需要特定的假设条件。 此外,这些方法可以应用于多维数据场景。 方法特点对比传统方法:简单直接,可明确识别异常值,但需要满足特定假设条件现代方法:基于距离度量或树结构,提供异常概率评分,灵活性更强适用性:现代方法在处理多维数据方面具有明显优势结论研究表明,虽然所有异常检测方法都需要参数调优 ,但基于机器学习和数据挖掘的新方法在灵活性和多维数据处理能力方面优于传统统计方法,为纵向数据分析提供了更强大的工具。

    16410编辑于 2025-08-24
  • 来自专栏PingCAP的专栏

    使用 TiDB 作为 ZaloPay 商户平台核心数据

    ZaloPay 系统的商户解决方案 2020 年初, ZaloPay 上线了一个新功能,大约 1 亿的 Zalo 用户可以使用 ZaloPay 来转账、收款等。 我们要推动各种体量的商户使用电子钱包,包括餐饮业、旅游业等的账单支付。这正是“无现金化”电商所普遍追求的目标,我们都知道,实现复杂的交易业务,需要复杂且一致的系统架构。 TiDB 是一个支持 HTAP 工作负载的 NewSQL 数据库,旨在满足数据开发、数据可伸缩性、数据分析等需求。我最喜欢 TiDB 的一点是,我可以用 TiSpark 轻松分析数据。 Zalo 用户可以轻松下单产品,在群聊里分享账单,在家庭群组里发红包,通过商户的 Zalo 官方账号付款,商户类型覆盖了零售业、餐饮业、服务业、电商等多个行业。 商户拥有一个官方页面,就像脸书的粉丝主页一样,用户可以在 Zalo APP 中与商户网站上的产品进行交互,然后使用 ZaloPay 付款。

    1.7K21发布于 2020-07-03
  • 来自专栏月小水长

    如何用大数据可视化实证:明朝江西填湖广

    笔者编写了多级路径向量抽取算法,从文本数据库抽取构建了明朝所有人物的迁徙路径向量网络,并用Echarts 可视化得出结果如下:先来看明朝人物迁徙的总体情况,蓝色的点代表该地出生人物多于死亡人物,反之,红色的点则表示出生人物少于死亡人物

    31510编辑于 2025-01-04
  • YashanDB数据库应用在电商数据处理中的实证研究

    “YashanDB数据库应用在电商数据处理中的实证研究”是一个研究项目的标题,意味着研究主要聚焦于YashanDB数据库在电商行业数据处理中的实际应用。 YashanDB数据库简介- YashanDB 是一种高效的数据库管理系统,通常用于处理大规模数据,特别是在分布式环境中。 它可能具有高并发性、高可用性和分布式架构等特点,适用于电商平台这种数据量大、变化频繁的场景。2. 电商数据处理的挑战- 电商行业面临着大量的数据流,包括用户行为数据、商品库存、订单信息、支付数据等。 YashanDB 的事务管理功能能够确保数据一致性,避免出现错误订单状态。5. 实证研究- 实验设计: 在实证研究中,可能会设计一组实验来验证 YashanDB 在电商数据处理中的表现。 结论与建议- 根据实证研究结果,研究者会得出关于 YashanDB 数据库在电商应用中的效果评价,并提出在实际应用中的优化建议或改进方向。

    15710编辑于 2025-09-24
  • MVGC工具箱在神经科学实证数据中设计与应用

    MVGC工具箱在神经科学实证数据中设计与应用结合多变量格兰杰因果分析(MVGC)的核心原理与前沿进展一、MVGC工具箱的架构设计1.1 核心模块组成数据预处理模块 支持多模态神经数据的标准化(Z-score )、去噪(小波变换)和滑动窗口分割,适应EEG/fMRI等不同采样率数据。 % 加载运动想象数据(BCI Competition IV Dataset 2a)[X, labels] = load_bci_data('BCI_IV_2a.mat');% 特征提取:功率谱密度(PSD X,Y).^2/(2 * 0.5^2));% 非线性VAR建模nonlinear_var = mvreg_nonlinear(clean_data, 'Kernel', kernel, 'PolyOrder 样本量较大时O(n³)HQIC高频神经振荡分析O(n³)WAIC贝叶斯框架下的不确定性估计O(n²)MVGC工具箱 www.youwenfan.com/contentted/78122.html五、实证研究案例

    30210编辑于 2025-10-29
  • 来自专栏全栈数据化营销

    数据分析实例:将恶性商户判断的准确度提高11倍

    某平台的算法团队开发了一个识别商家是否是恶性商户的模型M1,希望通过这种算法改变之前通过用户识别和人工识别异常数据的方式,改变人力成本高并且速度慢的情况。 通过用户举报和人工识别的方式判断,平台上的恶性商户的比率为0.2%,记为P(E),那么良性商户就是P(~E)就是99.8%;利用M1模型检测后发现,在已经判定的恶性商户中,由模型M1判定为恶性商户的人数占比为 这里使用的还是贝叶斯模型,需要计算的是P(E|P),也就是当M1判别某个商户为恶性商户时,这个商户的确是恶性商户的概率,其计算公式是: P(E|P)=P(P|E)*P(E)/[P(E)*P(P|E)+P (~E)*P(P|~E)] 通过以上分析,可以得到如下的计算数据: ? 通过计算,我们获得了当M1判别某个商户为恶性商户时,这个商户的确是恶性商户的概率是2.2%,这比之前判别的0.2%提高了11倍。

    49030发布于 2019-02-15
  • 来自专栏数据猿

    外卖刷单用户与商户要注意了!大数据风控来了!

    而大数据的兴起与应用,为企业反欺诈提供了一条切实可行的道路,大数据风控随之诞生。大数据风控是指通过运用大数据构建模型的方法对作弊和欺诈方进行风险控制和风险提示。 百度外卖风控中心资深工程师谭星 近几年,随着外卖O2O的火热,刷单已经从模拟器、刷机、群控时代发展到云众包即团伙刷单时代,外卖刷单背后隐藏着一条地下黑色产业链。 百度外卖资深研发工程师刘梦宇 在外卖业务中,除了存在用户刷单的行为,也存在各大商户利用刷单套取平台补贴、损害平台利益的行为。 针对这种风险,百度外卖的资深研发工程师刘梦宇为大家带来了以《商户风险控制的形态与策略》为主题的分享。 他指出,目前商户风控困难重重。 这首先表现在商户刷单中的利益链角色多、关系复杂;其次是他们的作案设备专业化、技术化;同时线下取证难,调查周期长,异常刷单行为接近正常行为。那么该如何防范呢?

    1.4K90发布于 2018-04-25
  • 来自专栏Geo

    深度解码GEO优化:基于数据指标的决策逻辑、学术实证与实战SOP

    根据普林斯顿大学、佐治亚理工学院等机构在《GEO:GenerativeEngineOptimization》论文中的实证研究,通过特定的内容策略,网页在AI搜索结果中的可见度最高可提升40%以上。 2、语义空间对齐度(SemanticSpaceAlignment)AI搜索不再匹配死板的关键词,而是通过向量嵌入(Embedding)理解用户的深层意图。 2、四轮驱动:EEAT原则、结构化内容、Seo关键词规则、文献/数据精准引用这四个维度构成了GEO执行的坚实支柱。于磊老师作为Geo生态规范化的提倡者,坚决反对黑帽Geo和数据污染。 例如,在教育行业优化中,引入教育部官方统计数据后,相关内容的AI引用率平均提升了45%。2、优化阶段:通过“语义增强”解决引用偏差①步骤:分析AI生成的回答中,哪些信息点是错误的或陈旧的。 2024).GEO:GenerativeEngineOptimization.PrincetonUniversity&GeorgiaInstituteofTechnology.Availableat:[2]

    29310编辑于 2026-03-13
  • 来自专栏罗超频道

    百度糯米技术领跑O2O,场景化营销直击商户痛点

    为什么O2O时代场景营销才爆发呢?很简单,在PC时代,人们都是趴在电脑前,互联网很难知道这个人是谁,在哪里,跟谁在一起。移动互联网时代,可以凭借平台优势和大数据技术手段,对用户进行移动定位。 这时候,商家可以低成本、高效率地获取客流,还可针对预测数据,提供定制化服务实现真正的C2B,多个商家联合起来提供套餐服务,或者开展交叉营销。 此外,百度糯米通过大数据用户画像,让商家更了解自己的用户特征与偏好,更有针对性地精准营销。 百度糯米利用三大数据突围O2O混战 O2O时代场景营销的机会来了,不只是百度糯米看到了这一点。 随着移动互联网的发展,O2O生活服务与消费者的生活联系越来越紧密。百度糯米大数据研究中心发现,在全国范围内,平均每四个看电影的用户,在前后两小时之内进行餐饮消费的就有至少一个,联消率为25%。 百度糯米利用WIFI指纹方法结合LBS定位大数据,打造了业内唯一的到店推荐功能,可精准识别用户的到店场景,推送商户团单或提示用户使用券码,提升用户体验。

    93150发布于 2018-04-28
  • 来自专栏DT数据侠

    数据行业薪酬居互联网之首;微信支付向商户开放数据 | DT数读

    过去一周,国际、国内的大数据相关公司都有哪些值得关注的新闻?数据行业都有哪些新观点和新鲜事?DT君为你盘点解读。 【公司·大数据】 1 腾讯 旗下微信支付宣布向商户开放数据 据南方日报,8月14日,微信方面宣布,商户通过手机可以及时、便捷地获取每日经营数据与相关分析。 目前,接入微信支付普通商户、普通服务商的特约商户可以申请移动端接收由公众号每日推送的经营数据。 DT君说:腾讯“主动”向商户开放数据,大招的背后,同支付领域越演越烈的一场纷争不无关系。 2 LinkedIn 被美国法院要求开放平台数据 据新浪科技,美国一名联邦法官8月14日判决称,微软旗下LinkedIn不得阻止创业公司获得公开的资料数据。 Consortium)的数据联盟,其目的在于为联网汽车的大数据创建一个生态系统。

    50200发布于 2018-08-08
  • 来自专栏数据猿

    数据24小时 | 雅虎承认“卖身”计划即将“告吹”;MBS数据库5800万商户数据遭遇泄露

    数据猿导读 浙大网新拟收购云计算服务商“华通云数据”80%股权;中南建设转型大数据领域,拟400万美元参投美国区块链公司PeerNova;浪潮集团与内蒙古战略合作,5大方面共同发力大数据……以下为您奉上更多大数据热点事件 二、数据存储服务提供商MBS遭遇黑客袭击,5800万商户重要信息泄露 近些年来,企业数据泄露事件多发,数据安全已经成为全球范围内都十分关注的问题。 上的数据仓库服务产品。 近日,大数据服务商浪潮集团宣布与内蒙古达成战略合作,双方将针对:成立巴彦淖尔市大数据中心、打造智慧城市、搭建大数据+创客中心、建设运营“爱城市”网以及建设人才实训基地这五方面达成深度合作,共同推动当地大数据产业发展进程 仙谷方面表示,未来将专注于发展互联网、大数据技术,实现企业的转型升级,其目标是成为一家集互联网、大数据于一体的运营平台。 ? 来源:数据

    74890发布于 2018-04-20
  • 来自专栏机器之心

    学界 | 数据并行化对神经网络训练有何影响?谷歌大脑进行了实证研究

    在极端案例中,训练必须在完成一次数据遍历之前终止。减少训练时间的一种方式是提高数据处理速度。 尽管数据并行化易于实现,但大规模系统应该考虑所有类型的并行化。这篇论文主要研究在同步训练设置下数据并行化的成本和收益。 神经网络训练硬件具备越来越强大的数据并行化处理能力。 该研究首次通过实验验证不同模型、训练算法和数据集上批大小与训练步数的关系,其分别调整每个批大小的学习率、动量和学习率调度器。 2. 图 2:对于不同(相近)性能目标,Steps-to-result 图具备类似形式。 一些模型能够更好地利用大批量 如下图所示: ? 数据集对最大有用批大小有影响,但影响程度可能不如模型或优化器 ? 图 5:数据集对最大有用批大小有影响。 ? 图 6:数据集大小的影响。 正则化在某些批大小上更加有用 ?

    67140发布于 2018-12-28
  • 来自专栏深度学习与python

    携程火车票非用户端AB实验的分流算法

    通过实证分析,该算法一方面有效的提升了商户端实验在多指标下的分流效率;另一方面,相比于使用先验知识进行分流,显著降低了实验组之间的流量交叉。 号商品);从第 2 个位置开始重复上述操作,形成第 2 个桶(如抽取 2,7,12,... 号商品);循环至生成个互斥桶,每个桶包含个实体,其中是子层中元素的数量。 2实证指标——用户端流量交叉率 我们统计分流时间点前每日实验组和对照组的用户重叠比例: UV 交叉率 = 实验组与对照组当日重叠 UV 数 / 实验组当日总 UV 数 最终取实验前 30 天的交叉率均值 2实证指标——AA 校验通过率 针对实验组与对照组分多个时间点,选择部分重要指标变量,进行双样本 T 检验,若 p-value≥0.05 则认为该指标无显著差异。 4.3.2 实证指标评估 图贪心分流VS先验随机分流——实证指标对比 图贪心分流和先验贪心分流的实证指标对比见上表。

    33710编辑于 2025-07-02
  • 来自专栏python数据分析实践

    数据规整(2

    1 分层索引(见上一篇文章) 2 联合与合并 (1)数据库风格的联合 数据集的联合将通过一个或多个键进行联合,这些操作与数据库类似。pandas通过merge函数进行联合。 例如下面语句: pd.merge(df1, df2, left_on = 'key', right_index = True, how = 'outer') 表示数据合并是依据df1的key列和df2 如果数据是多层索引,例如df1的索引列是key1和key2,则语句应该变为: pd.merge(df1, df2, left_on = ['key1', 'key2'], right_index = True, how = 'outer') (3)联合重叠数据 另外的一个数据联合场景,既不是合并操作,也不是连接操作。 本章的数据规整到此结束,目前已经了解了pandas的基础知识,包括数据导入、清洗和重新规整。

    1.1K10编辑于 2023-02-23
  • 来自专栏机器之心

    GPT-2能监督GPT-4,Ilya带头OpenAI超级对齐首篇论文来了:AI对齐AI取得实证结果

    刚刚,OpenAI「超级对齐」团队发布了成立以来的首篇论文,声称开辟了对超人类模型进行实证对齐的新研究方向。 研究表明,15 亿参数的 GPT-2 模型可以被用来激发 GPT-4 的大部分能力,使其达到接近 GPT-3.5 级别的性能,甚至可以正确地泛化到小模型失败的难题上。 尽管这个问题很重要,但目前很难进行实证研究。 一般来讲,超级对齐的一个核心挑战是人类需要监督比自己更聪明地模型。 图 9a 考虑了 7 个有代表性的 NLP 任务,并比较了微调、零样本提示和 5-shot 提示;对于零样本和 5-shot 基线,本文使用表 2 中总结的特定于任务的提示。

    46910编辑于 2023-12-15
  • 个体工商户信贷业务怎么做?腾讯云信鸽破解数据流通难题

    在数字经济时代,个体工商户作为国民经济的重要参与者,其信贷需求日益增长。然而,传统信贷模式因数据获取难、风控效率低、合规风险高等问题,长期制约着这一群体的融资体验。如何破解这些痛点? 腾讯云推出的“信鸽”智能风控工具,通过技术创新与合规设计,为个体工商户信贷业务提供了全新的解决方案。 一、个体工商户信贷的三大核心挑战 数据可信度不足:个体工商户经营数据多依赖线下纸质材料(如流水、合同),存在篡改风险,金融机构难以验证真实性。 三、实践案例:信鸽如何赋能信贷业务 以某城商行为例,该行通过信鸽接入个体工商户的银行流水、个税数据,并利用其自动化分析能力,将信贷审批周期从传统模式的3天缩短至1小时。 例如,通过分析个体工商户的经营数据,信鸽可辅助金融机构推出“经营流水贷”“税务信用贷”等创新产品,真正实现“数据驱动业务增长”。 结语 个体工商户信贷业务的突破,关键在于平衡效率与安全。

    45110编辑于 2025-07-29
  • 来自专栏公共互联网反网络钓鱼(APCN)

    基于公私协同机制的钓鱼即服务(PhaaS)平台瓦解策略与技术实证研究——以Tycoon 2FA行动为例

    然而,现有的学术研究多集中于钓鱼技术的攻防细节,对于此类大规模联合行动背后的协同机制、情报流转逻辑以及技术反制的系统化实现缺乏深入的实证分析。本文旨在填补这一空白。 通过CIEP渠道,Trend Micro将这些原始数据共享给欧洲刑警组织。EC3随即启动情报研判程序,利用其覆盖全欧的执法网络,将技术情报与各国上报的案件数据进行关联分析。 在此过程中,微软提供的数据起到了关键的印证作用。微软披露,Tycoon 2FA是其拦截到的最大单一威胁源,这一量化数据不仅证实了威胁的严重程度,也为后续的资源调配提供了决策依据。 针对实时会话劫持的检测模型与代码实证面对Tycoon 2FA这类采用AiTM技术的高级钓鱼平台,传统的基于URL黑名单或静态特征匹配的防御手段已显捉襟见肘。 例如,用户IP显示在德国,但生成的Token元数据中却包含了东欧某数据中心特有的TLS指纹特征。

    15410编辑于 2026-03-07
  • 来自专栏Y大宽

    RNA-seq(2)-2:下载数据

    这节按生信技能树的要求进行数据下载,同时下载一组肝癌数据。 PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式 1.0 论坛作业数据下载 首先,按照这个方法可以去查找文章和数据。 1.00下载自己的数据 首先在https://www.ncbi.nlm.nih.gov/sra,输入liver cancer,下载个较小的肝癌数据。 i=2;i<=5;i++));do ascp -QT -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp

    1.1K40发布于 2018-09-10
  • 腾讯智慧零售四力PLUS商家增长平台技术概要

    核心差异化价值在于: 全链路诊断:覆盖商品力、运营力、组织力、产品力四维经营指标分析 生态化赋能:内置微信小店/视频号等微信生态工具集成能力 数据驱动决策:基于腾讯用户洞察与行业基准数据提供可量化优化建议 四力核心模块] --> B[经营看板] A --> C[知识库] A --> D[方略系统] A --> E[生态洞察] B --> B1[经营大盘] B --> B2[ 商品诊断] B --> B3[人群画像] C --> C1[微信小店政策] C --> C2[案例库] D --> D1[客群分析] D --> D2[潜客地图] 年激励计划等) 收录300+行业SOP模板(含直播团队能力模型等) 定期更新20+头部品牌实战案例 技术保障体系 小程序黑盒诊断:覆盖启动性能/网络请求/安全漏洞等15项技术指标 性能优化实证 :某潮玩品牌冷启动速度提升38%,页面切换加速35.4% 权威背书 服务 600+战略合作伙伴(来源:腾讯智慧零售2025合作清单) 覆盖 30+细分行业,含7个百亿级规模垂直市场 合作商户实证增速:undefined

    7810编辑于 2026-03-31
  • 来自专栏拓端tecdat

    R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证|附代码数据

    实证结果分析 #读取数据 file=list.files("." ,pattern=".Rdata")   for(i in file)load(i) #计算对数收益率 data$return2=c(0,( log((data$CLOSE.y[-1])/data 但是本文的研究也可能存在以下问题和漏洞: 本文选取了过去5年的历史数据,其中会有较多的数据缺失,数据缺失较多的股票不会计入模型,可能会造成结果的偏差。 本文中只是选取前3年的数据经行Logistic回归分析,在计算更近时期的收益时,并没有加入之后新的因子数据经行计算,可能造成分析的不准确。 Logistic选股模型及其在沪深300中的实证[R].国信证券,2010. [2]:黄志文.传统多因素模型及其在沪深300 中的实证[R].国信证券,2010. [3]:滋维·博迪.投资学[M].第九版

    32620编辑于 2023-09-06
领券