上一篇分享了经营分析的基本思路,很多小伙伴习惯性的问:那做经营分析有没有什么模型呢?有的,可以参考OGSM模型,今天跟大家简单分享一下。 一、OGSM模型是什么? 此时,利用OGSM模型进行分解如下图: 当然,OGSM不止是简单的分解,还有运作流程。 二、OGSM如何运作? 经营分析的运作,都是自上而下,OGSM模型的运作也是如此。 OGSM模型中,采用O(定性目的)G(定量目标)分离的方式,一定程度上解决了这个问题。比如O定为:2022年度成为行业销量第一。那么如果面临全行业下降,就能通过行业数据,合理、合法、不扯皮地调整目标。 这种扯皮,在传统经营分析的时候经常遇到。 在OGSM模型中,通过区分G(整体目标)和M(度量指标),一定程度上解决了这个问题。 M(度量指标)只考核S(策略)的执行进度。 不过作为做数据分析的小伙伴,我们自己知道这些事就好了。毕竟找工作的时候,被人问到“你会什么模型呀”多说一个总是好的,哈哈。
今天继续来谈数据分析八大模型系列。今天分享的,是一个原理很简单,但是应用很广泛的模型:同期群模型。在商品分析、用户分析、渠道分析上,都用得着哦。 一、同期群的原理 同期群分析原理很简单:种豆子。 二、商品同期群:商品LTV模型 商品分析中的同期群模型,也被称为商品LTV模型。 不止商品分析,用户分析也能用得上。 三、用户同期群:用户留存率模型 用户同期群分析,也被称为用户留存率模型。 做法如下: 设定用户分群(一般按注册时间or注册渠道)。 如果发现某些节点,用户留存明显下降,则说明这些节点出现问题,需要进一步分析。同时,基于同期群数据,可以拟合出预计留存用户数量,就能为运营筹划服务用户资源,提供数据支持(如下图)。 单靠同期群解释不了,需要其他分析模型来解释。
今天介绍一个行业分析的业务模型:PEST模型。 即使不是专业做数据分析的人,也能感受到:政策、经济、社会、技术会影响到行业发展。问题是在,怎么把这四个因素,量化成可分析的指标呢? 有了这个设定,就可以分头找数据了。 用户数量可以从国家统计局获得,用户喜好,可以通过市场调查抽样获得,或者通过天猫/京东/抖音/快手等平台发布的平台用户画像数据来获得。 因此,PEST的分析,不需要每日/每周的追数据。本身指标变化就不是很大,采集数据难度又很高。 一般是在月度复盘的时候,把变化的苗头提示出来,在季度复盘的时候,如果PEST某方面放生重大变化,再单独列数据进行分析。这样既能满足需求,又不增加很大工作量。
今天跟大家分享的是一个经常被提及,但是价值被严重低估的模型:RFM模型。 二、RFM的小例子 一起来看个具体例子:某个打车出行APP,已按RFM格式,统计好用户数据(如下图,仅为示例数据100条),现领导要求:分析分析用户情况。要怎么分析呢? 第一步:先看M。 这样就完成了一个简单的RFM分析,而且每个客群都有针对性业务建议给到哦。 如果只到这里就停下,那就太可惜了!因为RFM模型价值远远不止于此。 可是,如果我们发现: A用户:趁大促销,囤了1000元洗发水、沐浴露、护发素、纸巾 B用户:趁大促销,买了个1000元的空调 那即使RFM分类一致,我们也知道,A与B用户是完全不同的两类人,应该采用2类激活消费的策略 因此,RFM模型可以用,但是要结合用户消费品类,做细化思考哦。 作者:小熊妹。数据界新人,喜欢数据分析、数据挖掘。
之前分享了销售分析的基本做法,今天来分享一个销售分析最常用的模型:人货场模型。这是来源于传统零售业的经典分析模型,在电商环境里其实也能用。大家一起来看一下。 传送门:一文看懂:销售数据分析怎么做? 因此人货场模型被非常广泛地用于诊断销售情况。具体操作时,根据销售形式的不同(实体门店/线上店铺/APP站内转化/电话销售……),人货场指标会有区别。 是否因XX地区实体店不能正常运作,导致销量不佳 是否因XX渠道流量出问题,导致线上销售不佳 五、如何综合利用“人货场”进行分析 在综合利用人货场进行诊断的时候,需要按照从大到小,逐级排查的原则,播洋葱一样 比如发现本月销量下降,可以先从人货场三大因素中,每一个挑选出一个最优代表性的进行分解: 人:客户等级、销售等级 货:商品大类 场:大区 然后先看:哪一块发生的问题更严重? 六、模型不足之处 人货场模型产生于传统零售业,而传统零售业里,“场”才是最主要因素。占据了有利旺铺位置,就能有源源不断的客流。 但互联网消费不是这样,促销活动、明星带货等效果更明显。
2、如何构建漏斗模型?要将浏览→完成交易中的每步都列出来吗? 3、有哪些分析场景? 今天我们就来一起捋捋常见的数据分析方法——漏斗分析模型,同时逐一回答上述问题。 一、什么是漏斗分析模型 漏斗分析模型,简单来讲,就是抽象产品中的某一流程,观察流程中每一步的转化与流失。 ? 通过产品每一个设计步骤的数据反馈得出产品的运行情况,然后通过各阶段的具体分析改善产品的设计,提升产品的用户体验,这就是漏斗模型的核心价值。 漏斗分析,仅仅是帮助我们分析问题的工具,重要的是要培养数据分析的思想:通过精细化的拆分,从宏观的视角,将复杂的事件分析拆分为独立的归因分析。 漏斗分析到这里就结束了,下一篇是热图分析模型,诸葛君将继续解读如何改善用户体验,提升转化,帮你更好地运用数据驱动产品运营。
一、什么是热图分析模型? 两者各有不同的应用场景,但当用户行为数据的采集和分析被重视起来后,热图与热图之间的差别逐渐变得更模糊。因为对于同一个分析目标和需求,有时候我们能找到更优的分析模型和方案。 当然,诸葛io的热图分析模型,我们又增加了一些更重要的特性。 2、聚焦分析 热图在视觉上给我们更直观的对比,对于关键的分析,我们依然需要进行量化,在诸葛io的热图分析模型,我们加入了聚焦分析,每一个热度背后的点击统计和百分比都有清晰的计算。 作为信息时代兼具客观性和易用性的数据分析模型——热图分析,可视化的数据呈现,帮助你快速发现数据背后的问题,为网站的优化提供有力的数据支撑,关注点击行为的同时更关注不同特点用户的浏览习惯,为用户呈现个性化的产品价值
接下来,我们将探讨数据分析方式的演进逻辑,分析Kyligence如何将指标平台、数据分析与大模型融合,实现基于自然语言的指标数据分析,为数据分析的未来描绘一幅可能的蓝图。 基于大模型,构建基于自然语言的数据分析方式 依据Kyligence的实践经验,要做好这个事情,关键的有三个方面:基于大语言模型来准确理解用户数据分析需求;联通指标平台来进行数据计算和分析,给出分析结果; 首先,基于大语言模型来准确理解用户数据分析需求。大语言模型如ChatGPT,通过训练大量的文本数据,它们可以理解和生成自然语言,使得人机交互更加自然、便捷。 例如,需要优化大模型与指标平台、数据分析平台的对接方式。大模型理解并生成的是自然语言,而指标平台通常接受的是具体的数据查询和操作指令。 此外,大模型的准确性和稳定性也是一大挑战。虽然大模型可以理解和生成自然语言,但是在一些复杂和模糊的场景下,它的理解可能并不准确,或者产生的结果可能有多种可能。
诸葛君说:在日常的数据分析中,常用的有8大模型:用户模型(点我回顾)、事件模型、漏斗分析模型、热图分析模型、自定义留存分析模型、粘性分析模型、全行为路径分析模型、用户分群模型,其中,“事件模型”对于很多业务人员来说相对比较陌生 ,但他却是用户行为数据分析的第一步,也是分析的核心和基础。 事件模型中的逻辑结构、事件的准确性、自定义能力和对事件的管理是“事件模型”的几大要素。对这一模型有了深刻的认识和理解,那用户行为数据的采集逻辑也就基本掌握。下文我们稍作展开。 一、什么是事件? 二、事件的采集 其实,要说明白事件模型这个事,就像我们写作文,记叙文的六要素:时间、地点、人物,起因、经过、结果,也就是:谁,在什么时间,在哪儿做了一件什么事儿,相应的,数据分析就像是通过数据/指标来讲述用户与产品之间的故事 此外,事件模型也是漏斗模型、自定义留存模型、全行为路径分析模型的基础,后续我们将陆续解读,每周二更新敬请关注。
当我们将这一模型进行可视化, 如下图,选择“任意行为”,按周查看,即为用户平均每周使用产品的天数分布。 ? 图2:任意行为的粘性分析 如上图所示,我们可以看到近四周所有使用产品的用户中,平均每周使用2天、3天及以上的用户占比。 当然,你更可以评估某一功能的粘性,比如我们选择「开始签到」来分析新上线的社区功能的粘性: ? 图3:「开始签到」模块的粘性分析 说明:在计算各个天数的人数占比情况时,我们会以在所选时间段内触发过该事件的人为基数(第一天为100%)。 图4:不同用户群对于「查看股票市场」的粘性对比 (数据为脱敏数据) 如上图所示,我们发现,与未投资用户相比,有过投资行为的用户更关注股票市场的动态,对股票市场这一功能模块的粘性更大。
最近,腾讯发布了自主研发的大型语言模型:混元大模型。该大模型具备多轮对话能力、内容创作能力、逻辑推理能力、搜索增强和知识图谱等特点。 除了对于人类自然语言的理解,混元大模型对于计算机编程语言同样可以进行分析和和生成。 今天我就来用一个很常见的Python开发需求:对一组数据进行采集、整理、可视化分析,来演示下混元大模型在编程辅助开发上所能提供的帮助。 尤其对于数据分析这种开发需求来说,会用到很多第三方模块中的函数,在过去需要频繁查阅文档和搜索网络来了解具体的用法和参数设置,现在借助于大模型,可以很方便地得到示例代码,稍加调整就可以应用在代码中,大大节省了时间 但总的来说,作为一个「开发助手」的角色,混元大模型已经可以给到开发者实实在在的效率提升。并且,大模型还在不断地进化迭代,期待后续有更令人惊艳的表现。
除了N-day留存,业内常见的留存分析方式还有“Unbounded留存”、“Bracket留存”,这3类留存的区别就在于时间条件的差异,具体关注哪种留存,需要根据业务来定。 图2:回访行为是查看课程详情的7日留存数据 -初始行为:初始与回访是相对的概念。 -回访行为:与初始行为的设定是并且关系。用户的初始行为可以理解为上一次行为,回访行为即理解为下一次行为。 (当然,签到功能也会和积分等其他可兑换的奖励所绑定),而签到功能本身,就是一个纯粹的为了提升用户回访的功能,这一功能到底有没有吸引用户回访,用自定义留存分析功能再合适不过了。 图3:回访行为是签到成功的7日留存数据 从上图可以看出,签到功能带来了很好的用户粘性。很多用户回访都会触发签到功能,功能价值得以衡量和提现。 随着用户规模的饱和,获客成本大幅提高,用户可能因为一点不爽分分钟就卸载掉你的应用,此时提高留存就显得尤为重要,因为不管是花费在金钱还是资源上的成本都会更低,留存已成为检验产品的重要指标,自定义留存模型,
提到数据分析,肯定要提到数据分析模型,在进行数据分析之前,先搭建数据分析模型,根据模型中的内容,具体细分到不同的数据指标进行细化分析,最终得到想要的分析结果或结论。 一、数据分析模型 要进行一次完整的数据分析,首先要明确数据分析思路,如从那几个方面开展数据分析,各方面都包含什么内容或指标。 二、五大数据分析模型 1. PEST分析模型 ? (1)政治环境 包括一个国家的社会制度,执政党性质,政府的方针、政策、法令等。不同的政治环境对行业发展有不同的影响。 2.5 W2H分析模型 ? 5W2H分析法主要针对5个W以及2个H提出的7个关键词进行数据指标的选取,根据选取的数据进行分析。 ? 3. 三、总结 五大数据分析模型的应用场景根据数据分析所选取的指标不同也有所区别。
单位参数,带来的效果提升四、具体分析步骤用边际效益分析大模型参数量,核心是“控制变量对比 + 量化指标计算 + 曲线找拐点”;1. 控条件统一训练、微调与测试的条件,这是保证分析有效的关键,所有模型必须在同一起跑线上测试。1. 用相同的数据集:训练 / 微调用同一批数据,测试用同一套独立测试集,不能用训练数据,否则结果不准。2. 无需复杂算力/数据:用公开小样本数据集 + 轻量化模型,快速上手 “控制变量法” 在 AI 分析中的应用,理解为什么边际效益分析要排除非核心变量2. 标准化分析模板:可将该示例流程迁移到其他任务,如文本摘要、情感分析,仅需替换数据集和模型,即可快速完成边际效益分析,为选型提供数据支撑六、总结 总的来说,咱们用 IMDB 电影评论数据集做的这个示例 通过经验来看,建议大家不要一上来就硬磕大模型,先拿这种轻量模型、小样本数据集练手,把控制变量、边际效益指标计算这些方法摸透,比盲目追 100 亿、千亿参数量的模型有用多了,还能省不少算力成本。
引言 刚刚入坑深度学习的时候,看的是台大李宏毅老师的课程,印象最深的使用Pokémon属性分析来讲解回归问题,为此后面有同学亲切的称其为宝可梦研究大师。 今天看论文,恰巧又看到了一篇关于Pokémon的文章,比较有意思,「文章基于Pokémon知识来验证ChatGPT的对话能力,并提出了一个可泛化使用的大模型评估会话框架」,尤其将其用做大语言模型(LLMs 尽管ChatGPT取得了惊人的成果,但是目前并没有一个好的方法来评估ChatGPT等类似大模型的能力和局限性。其主要原因是:开放式的对话是不受控制的评估起来并不简单。 基于以上步骤,作者对其进行了定量、定性结果分析,其中绿色标注的回答表示能够提供准确知识,红色标注的回答表示提供了虚假知识,黄色标注的回答表示语句含糊不清或不相关。 模型的先验知识是在模型在训练过程中获得的,它代表着模型本身的知识能力。
大模型进驻运维:让数据分析从“挖煤”变“点灯”在传统运维世界里,数据分析曾是一项高强度“体力活”,依赖人工监控、日志排查、规则设定。 而如今,大模型技术的出现,让这场“挖煤”式的数据分析彻底翻篇,运维团队开始享受“点灯”般的智能分析体验——打开大模型的能力,一切异常问题瞬间现形。那么,大模型在运维数据分析中究竟能做些什么? 一、大模型如何改变运维数据分析?过去的运维数据分析,是一个规则驱动的过程,依靠人工设定日志查询规则、异常检测指标,然后结合一些数据可视化工具查看趋势变化。 而大模型的引入,解决了这些问题——它不再依赖传统的规则设定,而是通过自学习、自适应的方式,理解运维数据的模式,自动发现异常,并给出智能化的故障定位建议。例如:利用大模型进行日志分析,快速发现异常模式。 智能根因分析,不用依赖人工筛查,模型自动推导故障原因。故障预测,提前预警可能出现的风险。二、大模型在运维数据分析中的核心应用1.
在这种背景下,大语言模型(如OpenAI的GPT系列)展现出了其在自动化数据分析报告生成中的巨大潜力和优势。 2.大语言模型在报告生成中的作用大语言模型如OpenAI的GPT系列已开始在数据分析报告生成中扮演关键角色,这些模型通过自动化和智能化的方式解决了传统方法中存在的多种挑战。 模型生成描述:利用大语言模型生成对数据的描述性分析内容,包括数据分布、主要特征等。生成分析方法:分析方法选择:选择适合的数据分析方法,如线性回归、逻辑回归、K-means聚类等。 模型生成解释:利用大语言模型生成对分析方法的解释和理论背景说明。生成分析结果:结果展示:提供分析后的结果数据和图表。 大语言模型正在重塑数据分析的未来,为企业提供了一种高效、准确的数据报告生成方式。随着技术的成熟和应用的深化,预计大语言模型将在未来的数据分析和业务智能领域扮演更加重要的角色。
Huggingface排行榜默认数据集 Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4 本文主要介绍Huggingface开源大模型排行榜上默认使用的数据集以及如何搭建自己的大模型评估工具 搭建大模型评估工具 1.下载数据集到本地 from datasets import load_dataset 考验模型的推理能力。根据数据集大小又分为:winogrande_debiased、winogrande_l、winogrande_m、winogrande_s、winogrande_xl。 是一个包含8.5k的小学数学题,主要用于测试大模型的数学和逻辑推理能力。 :openai/openai_humaneval · Datasets at Hugging Face 语言:English 介绍:OpenAI发布的测试大模型编程能力的数据集,编程问题是用Python
数据库模型分析的思路,主要点 例如 : 注意 :1 分析 一定要建立在一定的业务逻辑基础之上 2 注意 非空字段 和 外键 字段
前言 数据分析的数据模型是决策支持系统的重要组成部分,它通过对大量数据的收集、整理、分析和挖掘,为企业提供有价值的信息,以支持企业的战略规划和日常运营。 数据模型的选择和应用,直接关系到数据分析的准确性和有效性,进而影响企业的决策质量和市场竞争力。 在构建数据模型时,首先要明确分析的目标和需求。 数据模型的构建过程也是一个不断迭代和优化的过程,需要根据实际数据的特点和分析结果,不断调整模型的参数和结构,以提高模型的预测能力和适应性。 同时,数据模型的应用也需要考虑数据的来源和质量。 综上所述,数据分析的数据模型是企业决策支持系统的重要组成部分,其选择和应用需要综合考虑分析目标、数据质量、计算资源等多个因素。 当n和m非常大时,基解数量也非常大,例如,当n=20和m=10时,基解数量可到百万级别。所以,基解是有限个数,但它的数量可以非常大。 从变量非负条件来考虑,我们只关心可行基解。