搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

纵向数据异常检测方法实证比较
纵向数据异常检测方法的实证比较本研究报告探讨了纵向数据中的异常值检测问题，比较了官方统计中常用的方法与数据挖掘和机器学习领域提出的基于观测值距离或二叉划分树的方法。研究方法通过将各种方法应用于涉及不同类型统计单元的面板调查数据来进行比较分析。传统方法相对简单，能够直接识别潜在异常值，但需要特定的假设条件。此外，这些方法可以应用于多维数据场景。方法特点对比传统方法：简单直接，可明确识别异常值，但需要满足特定假设条件现代方法：基于距离度量或树结构，提供异常概率评分，灵活性更强适用性：现代方法在处理多维数据方面具有明显优势结论研究表明，虽然所有异常检测方法都需要参数调优，但基于机器学习和数据挖掘的新方法在灵活性和多维数据处理能力方面优于传统统计方法，为纵向数据分析提供了更强大的工具。
16410编辑于 2025-08-24
来自专栏PingCAP的专栏
使用 TiDB 作为 ZaloPay 商户平台核心数据库
ZaloPay 系统的商户解决方案 2020 年初， ZaloPay 上线了一个新功能，大约 1 亿的 Zalo 用户可以使用 ZaloPay 来转账、收款等。我们要推动各种体量的商户使用电子钱包，包括餐饮业、旅游业等的账单支付。这正是“无现金化”电商所普遍追求的目标，我们都知道，实现复杂的交易业务，需要复杂且一致的系统架构。 TiDB 是一个支持 HTAP 工作负载的 NewSQL 数据库，旨在满足数据开发、数据可伸缩性、数据分析等需求。我最喜欢 TiDB 的一点是，我可以用 TiSpark 轻松分析数据。 Zalo 用户可以轻松下单产品，在群聊里分享账单，在家庭群组里发红包，通过商户的 Zalo 官方账号付款，商户类型覆盖了零售业、餐饮业、服务业、电商等多个行业。商户拥有一个官方页面，就像脸书的粉丝主页一样，用户可以在 Zalo APP 中与商户网站上的产品进行交互，然后使用 ZaloPay 付款。
1.7K21发布于 2020-07-03
来自专栏深度学习自然语言处理
激发数学思维：GPT-4实证研究探索挑战性数学问题
论文评估了使用GPT-4的各种方法，其中主要贡献是提出了MathChat架构，这是此项工作新提出的会话问题解决框架。通过对MATH数据集中困难的高中竞赛问题进行评估，展现了所提出的对话方法的优势。我们的研究针对该数据集中的5级难度问题，这些问题主要由具有挑战性的高中竞争问题组成。如下图所示：评估数据集 Dan等人提出的MATH数据集，本文对其中的最高等级难度的数学题目进行评估，其中包括七类问题：Prealgebra, Algebra, Number Theory, Counting 为了直接评估GPT-4在解决问题方面的性能，使用了一个默认提示，改编自MATH数据集中的小样本提示:"Solve the problem carefully. 对MATH数据集的5级问题的评估表明，MathChat在解决更复杂和更具挑战性的问题方面的有效性。
77631编辑于 2023-08-22
来自专栏月小水长
如何用大数据可视化实证：明朝江西填湖广
笔者编写了多级路径向量抽取算法，从文本数据库抽取构建了明朝所有人物的迁徙路径向量网络，并用Echarts 可视化得出结果如下：先来看明朝人物迁徙的总体情况，蓝色的点代表该地出生人物多于死亡人物，反之，红色的点则表示出生人物少于死亡人物
31510编辑于 2025-01-04
YashanDB数据库应用在电商数据处理中的实证研究
“YashanDB数据库应用在电商数据处理中的实证研究”是一个研究项目的标题，意味着研究主要聚焦于YashanDB数据库在电商行业数据处理中的实际应用。它可能具有高并发性、高可用性和分布式架构等特点，适用于电商平台这种数据量大、变化频繁的场景。2. 电商数据处理的挑战- 电商行业面临着大量的数据流，包括用户行为数据、商品库存、订单信息、支付数据等。 - 数据分析：电商平台需要分析用户行为、销售趋势、商品推荐等。YashanDB 提供了强大的数据查询和分析功能，支持快速的数据聚合和检索。4. YashanDB 的事务管理功能能够确保数据一致性，避免出现错误订单状态。5. 实证研究- 实验设计：在实证研究中，可能会设计一组实验来验证 YashanDB 在电商数据处理中的表现。结论与建议- 根据实证研究结果，研究者会得出关于 YashanDB 数据库在电商应用中的效果评价，并提出在实际应用中的优化建议或改进方向。
15710编辑于 2025-09-24
MVGC工具箱在神经科学实证数据中设计与应用
MVGC工具箱在神经科学实证数据中设计与应用结合多变量格兰杰因果分析（MVGC）的核心原理与前沿进展一、MVGC工具箱的架构设计1.1 核心模块组成数据预处理模块支持多模态神经数据的标准化（Z-score % 提取θ相位（4-8Hz）和γ幅度（30-80Hz）phase_theta = extract_phase(clean_data(:,1), [4,8], 'Hilbert');amp_gamma = （>100通道）采用MPI并行化：% 启动并行池parpool('local', 4);var_models_dist = mvreg_parallel(clean_data, 'NumWorkers' , 4);4.2 模型选择准则准则适用场景计算复杂度AIC模型复杂度惩罚O(n³)BIC样本量较大时O(n³)HQIC高频神经振荡分析O(n³)WAIC贝叶斯框架下的不确定性估计O(n²)MVGC工具箱 www.youwenfan.com/contentted/78122.html五、实证研究案例5.1 神经振荡调控机制研究实验设计：经颅磁刺激（TMS）干预前额叶皮层，同步采集多模态神经数据。
30210编辑于 2025-10-29
来自专栏全栈数据化营销
数据分析实例：将恶性商户判断的准确度提高11倍
某平台的算法团队开发了一个识别商家是否是恶性商户的模型M1，希望通过这种算法改变之前通过用户识别和人工识别异常数据的方式，改变人力成本高并且速度慢的情况。通过用户举报和人工识别的方式判断，平台上的恶性商户的比率为0.2%，记为P(E),那么良性商户就是P(~E)就是99.8%；利用M1模型检测后发现，在已经判定的恶性商户中，由模型M1判定为恶性商户的人数占比为这里使用的还是贝叶斯模型，需要计算的是P(E|P)，也就是当M1判别某个商户为恶性商户时，这个商户的确是恶性商户的概率，其计算公式是： P(E|P)=P(P|E)*P(E)/[P(E)*P(P|E)+P (~E)*P(P|~E)] 通过以上分析，可以得到如下的计算数据： ? 通过计算，我们获得了当M1判别某个商户为恶性商户时，这个商户的确是恶性商户的概率是2.2%，这比之前判别的0.2%提高了11倍。
49030发布于 2019-02-15
来自专栏数据猿
外卖刷单用户与商户要注意了！大数据风控来了！
而大数据的兴起与应用，为企业反欺诈提供了一条切实可行的道路，大数据风控随之诞生。而大数据的兴起与应用，为企业反欺诈提供了一条切实可行的道路，大数据风控随之诞生。大数据风控是指通过运用大数据构建模型的方法对作弊和欺诈方进行风险控制和风险提示。百度外卖资深研发工程师刘梦宇在外卖业务中，除了存在用户刷单的行为，也存在各大商户利用刷单套取平台补贴、损害平台利益的行为。针对这种风险，百度外卖的资深研发工程师刘梦宇为大家带来了以《商户风险控制的形态与策略》为主题的分享。他指出，目前商户风控困难重重。这首先表现在商户刷单中的利益链角色多、关系复杂；其次是他们的作案设备专业化、技术化；同时线下取证难，调查周期长，异常刷单行为接近正常行为。那么该如何防范呢？
1.4K90发布于 2018-04-25
来自专栏Geo
深度解码GEO优化：基于数据指标的决策逻辑、学术实证与实战SOP
根据普林斯顿大学、佐治亚理工学院等机构在《GEO:GenerativeEngineOptimization》论文中的实证研究，通过特定的内容策略，网页在AI搜索结果中的可见度最高可提升40%以上。一、GEO优化的核心数据指标：从“流量思维”转向“引用逻辑”在GEO的语境下，数据不再仅仅是点击量，而是内容“可信度”与“语义权重”的量化体现。我们需要监测品牌内容在主流大模型（如GPT-4、Claude、Gemini及国内主流模型）生成的回答中出现的频次及其在参考资料中的占比。 2、四轮驱动：EEAT原则、结构化内容、Seo关键词规则、文献/数据精准引用这四个维度构成了GEO执行的坚实支柱。于磊老师作为Geo生态规范化的提倡者，坚决反对黑帽Geo和数据污染。 Ourlatestupdatetothequalityraterguidelines:E-A-TgetsanextraEforExperience.GoogleDevelopersBlog.Availableat:[4]
29310编辑于 2026-03-13
来自专栏DT数据侠
大数据行业薪酬居互联网之首；微信支付向商户开放数据 | DT数读
过去一周，国际、国内的大数据相关公司都有哪些值得关注的新闻？数据行业都有哪些新观点和新鲜事？DT君为你盘点解读。【公司·大数据】 1 腾讯旗下微信支付宣布向商户开放数据据南方日报，8月14日，微信方面宣布，商户通过手机可以及时、便捷地获取每日经营数据与相关分析。目前，接入微信支付普通商户、普通服务商的特约商户可以申请移动端接收由公众号每日推送的经营数据。 DT君说：腾讯“主动”向商户开放数据，大招的背后，同支付领域越演越烈的一场纷争不无关系。 4 Apple 新专利获批，可通过手机检测血液数据据36氪，本周初，苹果手机的一项“测算健康数据的电子设备”专利获批。 Consortium)的数据联盟，其目的在于为联网汽车的大数据创建一个生态系统。
50200发布于 2018-08-08
来自专栏数据猿
大数据24小时 | 雅虎承认“卖身”计划即将“告吹”；MBS数据库5800万商户数据遭遇泄露
数据猿导读浙大网新拟收购云计算服务商“华通云数据”80%股权；中南建设转型大数据领域，拟400万美元参投美国区块链公司PeerNova；浪潮集团与内蒙古战略合作，5大方面共同发力大数据……以下为您奉上更多大数据热点事件二、数据存储服务提供商MBS遭遇黑客袭击，5800万商户重要信息泄露近些年来，企业数据泄露事件多发，数据安全已经成为全球范围内都十分关注的问题。上的数据仓库服务产品。近日，大数据服务商浪潮集团宣布与内蒙古达成战略合作，双方将针对：成立巴彦淖尔市大数据中心、打造智慧城市、搭建大数据+创客中心、建设运营“爱城市”网以及建设人才实训基地这五方面达成深度合作，共同推动当地大数据产业发展进程仙谷方面表示，未来将专注于发展互联网、大数据技术，实现企业的转型升级，其目标是成为一家集互联网、大数据于一体的运营平台。 ? 来源：数据猿
74890发布于 2018-04-20
来自专栏火星娃统计
GEO数据挖掘4
GEO数据挖掘4 sunqi 2020/7/12 概述对GEO数据进行差异分析简单比较 rm(list = ls()) options(stringsAsFactors = F) options(digits = 4) #设置全局的数字有效位数为4 load(file = 'step1-output.Rdata') #导入的数据中，dat为表达矩阵，group_list为分组信息 #按照group_list "jco", add = "jitter") # 添加p值 p + stat_compare_means()# 添加比较函数，默认使用wilcox } # 对4个样本的箱式图绘制 bp(dat[4,]) ? 结束语这里对GEO数据的差异分析已经结束，后续为kegg和go分析 love&peace
1.3K20发布于 2020-09-15
来自专栏Python与算法之美
4，数据的获取
sklearn 数据集一览类型获取方式自带的小数据集 sklearn.datasets.load_... 在线下载的数据集 sklearn.datasets.fetch_... 计算机生成的数据集 sklearn.datasets.make_... svmlight/libsvm格式的数据集 sklearn.datasets.load_svmlight_file(...) mldata.org 自带的小数据集：鸢尾花数据集：load_iris() 可用于分类和聚类乳腺癌数据集：load_breast_cancer() 可用于分类手写数字数据集：load_digits() 可用于分类糖尿病数据集：load_diabetes() 可用于分类波士顿房价数据集：load_boston() 可用于回归体能训练数据集： load_linnerud() 可用于回归图像数据集： load_sample_image 二，计算机生成的数据集使用计算机生成数据集的优点：非常灵活：可以控制样本数量，特征数量，类别数量，问题难易程度等等。无穷无尽：妈妈再也不用担心我没有数据集了。
98020发布于 2020-07-20
来自专栏机器之心
GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果
刚刚，OpenAI「超级对齐」团队发布了成立以来的首篇论文，声称开辟了对超人类模型进行实证对齐的新研究方向。研究表明，15 亿参数的 GPT-2 模型可以被用来激发 GPT-4 的大部分能力，使其达到接近 GPT-3.5 级别的性能，甚至可以正确地泛化到小模型失败的难题上。尽管这个问题很重要，但目前很难进行实证研究。一般来讲，超级对齐的一个核心挑战是人类需要监督比自己更聪明地模型。本文发现可以使用简单的方法来大大提高弱到强的泛化，如图 4 所示。图 5 表明，对于较小的强学生来说，虽然它的表现比 naive 基线稍差，但提高泛化能力还是很明显的。
46910编辑于 2023-12-15
来自专栏机器之心
学界 | 数据并行化对神经网络训练有何影响？谷歌大脑进行了实证研究
在较大数据集上训练的大型模型是神经网络近期成功的原因之一，我们期望在更多数据上训练的模型可以持续取得预测性能改进。在极端案例中，训练必须在完成一次数据遍历之前终止。减少训练时间的一种方式是提高数据处理速度。尽管数据并行化易于实现，但大规模系统应该考虑所有类型的并行化。这篇论文主要研究在同步训练设置下数据并行化的成本和收益。神经网络训练硬件具备越来越强大的数据并行化处理能力。 4. 该研究回顾了之前研究中使用的实验方案，部分解决了增加批大小是否降低模型质量这一问题。数据集对最大有用批大小有影响，但影响程度可能不如模型或优化器 ? 图 5：数据集对最大有用批大小有影响。 ? 图 6：数据集大小的影响。正则化在某些批大小上更加有用 ?
67140发布于 2018-12-28
来自专栏深度学习与python
携程火车票非用户端AB实验的分流算法
通过实证分析，该算法一方面有效的提升了商户端实验在多指标下的分流效率；另一方面，相比于使用先验知识进行分流，显著降低了实验组之间的流量交叉。（如学校、商业区、城市）内的用户施加不同的营销策略，因此活动主体和分流单位是商户，需要进行非用户端分流实验，且分流过程中为了防止用户之间相互影响，还需要尽可能避免参加相同活动的商户同时被多个用户看到的情况步骤 4：跨子层随机组合候选分组分桶完成后，通过组合不同子层的同序号桶，生成分组结果。从所有子层中分别无放回抽取一个桶，将所有子层抽取的桶的结果，合并为一个候选分组。步骤 5：差异评估计算所有候选分组两两之间的指标相对差异，若未满足条件，则重新进行步骤 4 抽样生成新候选，最多迭代次。 4.3.2 实证指标评估图贪心分流VS先验随机分流——实证指标对比图贪心分流和先验贪心分流的实证指标对比见上表。
33710编辑于 2025-07-02
来自专栏bit哲学院
【4】NumPy 数据类型
参考链接： Numpy 数据类型对象 NumPy 数据类型 numpy 支持的数据类型比 Python 内置的类型要多很多，基本上可以和 C 语言的数据类型对应上，其中部分类型对应为 Python 内置的类型数据的字节顺序（小端法或大端法）在结构化类型的情况下，字段的名称、每个字段的数据类型和每个字段所取的内存块的部分如果数据类型是子数组，它的形状和数据类型字节顺序是通过对数据类型预先设定"<"或">"来决定的 'i1', 'i2','i4','i8' 代替 dt = np.dtype('i4') print(dt) 输出结果为： int32 实例 3 import numpy as np # 字节顺序标注 dt = np.dtype('<i4') print(dt) 输出结果为： int32 下面实例展示结构化数据类型的使用，类型字段和对应的实际类型将被创建。实例 4 # 首先创建结构化数据类型 import numpy as np dt = np.dtype([('age',np.int8)]) print(dt) 输出结果为： [('age', '
89520发布于 2020-12-25
来自专栏惊羽-布壳儿
数据结构(4) - 串
在t[j] 时,(j>2)寻找t[0]--->t[j-1] 子串的中心对称点,这样的话,我们将t串向右滑动到中心对称点的位置,这个时候,前面已经不需要再比对了,(因为中心对称保证了数据的一致性
25220编辑于 2022-06-15
来自专栏大数据那些事
hive（4）——元数据概述
前面我所用的表hive_table其实用hive查询时查得还是hdfs上的数据，那我们用mysql到底是存储的什么，元数据到底是什么？元数据其实是数据的类型和我们用hive怎么拆分这个表的信息的合集，比如说我去查看我的mysql上的元数据到底长什么样（1）先进入hive数据库（此数据库事先已经创建好，在hive的配置文件中我们已经设置好（2）进入hive数据库 ? （3）查看此数据库里面的表 ? DBS表是一个关键的表，查看它： ? 这里就可以看见这份数据在hdfs中的位置 TBLS表 ? ?
86840发布于 2020-11-11
来自专栏web前端
smartClient 4--数据集成
一、数据集成 1、smartClient服务框架（使用SQL或者JPA/Hibernate）推荐！！！请求响应转化（如果使用SC服务框架，则不需要转化，直接获取数据） RestDataSource class 同时扮演着请求响应的四个核心角色 4、recordXPath
83360发布于 2018-01-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

纵向数据异常检测方法实证比较

使用 TiDB 作为 ZaloPay 商户平台核心数据库

激发数学思维：GPT-4实证研究探索挑战性数学问题

如何用大数据可视化实证：明朝江西填湖广

YashanDB数据库应用在电商数据处理中的实证研究

MVGC工具箱在神经科学实证数据中设计与应用

数据分析实例：将恶性商户判断的准确度提高11倍

外卖刷单用户与商户要注意了！大数据风控来了！

深度解码GEO优化：基于数据指标的决策逻辑、学术实证与实战SOP

大数据行业薪酬居互联网之首；微信支付向商户开放数据 | DT数读

大数据24小时 | 雅虎承认“卖身”计划即将“告吹”；MBS数据库5800万商户数据遭遇泄露

GEO数据挖掘4

4，数据的获取

GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

学界 | 数据并行化对神经网络训练有何影响？谷歌大脑进行了实证研究

携程火车票非用户端AB实验的分流算法

【4】NumPy 数据类型

数据结构(4) - 串

hive（4）——元数据概述

smartClient 4--数据集成

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐