车贷金融公司核心主题域划分客户主题域核心实体: 个人客户、企业客户、联系人、担保人、关联人。核心数据:客户基本信息:姓名、证件类型/号码、联系方式、地址、职业、收入水平、教育程度等。 贷款主题域 紧密依赖 车辆主题域 的抵押物信息和 合作伙伴主题域 的服务(保险、GPS、评估)。 产品是规则引擎:产品主题域 定义了业务的规则(利率、费用、期限等),这些规则直接影响 贷款主题域 的合同生成、计息、收费,也影响 财务主题域 的收入确认和 风险主题域 的定价策略。 微服务架构影响: 如果公司采用微服务架构,主题域划分需要与领域驱动设计(DDD)中的限界上下文相协调,每个微服务可能负责一个或多个主题域的核心数据管理,数据仓库则负责跨域集成和分析。 通过这样划分主题域,车贷金融公司的数据仓库能够系统地组织海量数据,清晰地反映业务本质,有效支撑从日常运营到战略决策的各个层面的需求,并满足严格的监管合规要求。
一、前言数据仓库具有面向主题的特性,那么就会有主题的概念,数仓建设是遵循纵向分层开发,横向划分主题域设计,数仓分层就不在这次谈了,这次我会结合本人数仓工作实践总结的经验来聊聊数仓主题域划分,同时会引申出主题划分 主题域的划分数仓主题域:主题域通常是联系较为紧密的数据主题的集合,根据业务需求分析的视角进行划分抽象归类。 划分方法:主题域划分的方法一般有几种要么按照业务过程来划分,一个业务过程抽象出一个主题域,比如业务系统中的商品、交易、物流 等要么按照业务部门来划分,一个业务部门抽象出一个主题域,比如中台部门、业务运营部门 划分方法:说白了主要就是要识别出分析对象主体,做主题划分和主题域划分,个人建议是要站在全局的视角来看,然后先划分出主题域,再接着在主题域里面划分出各个主题,主题域的划分一般比较谨慎,一旦定下来了避免频繁变动 划分主题:上面的主题域划分完了后就产生一个搬家主题域,比如把搬家分析作为一个分析领域,那么‘搬家分析’所涉及到的主要分析对象就有用户、订单、搬运工 等,则数仓的主题就可以划分为用户主题、订单主题、搬运工主题
一、前言 如何构建主题域模型原则是构建企业级数据仓库重要的议题,最好的路径就是参照成熟的体系。 IBM金融数据模型数据存储模型FSDM,是金融行业应用极为广泛的数据模型,可以作为我们构建企业级数据仓库主题域模型划分的重要依据。本文就IBM FSDM主题域模型进行初步的介绍。 二、模型结构 ? 四、未完待续 下一篇将会介绍NCR FS-LDM主题域模型的划分,敬请关注。
本文以NCR FS-LDM10.0版本为基础,介绍NCR FS-LDM主题域模型的划分和定义。 二、模型结构 ? 三、概念定义 FS-LDM十大主题域概念定义如下表所示: 英文名称 中文名称 概念定义 Party 当事人 指银行所服务的任意对象和感兴趣进行分析的各种对象。 该主题抽象地描述了银行内部帐务的组织模式,能够适应不同的科目组织体系。
第三步: 现在就可以最子域进行划分了,找出核心域,通用域,支撑域,至于为什么要这么划分,后面再解释,当我们找到核心域之后,再各个子域进行深一步的划分,划分成组织,例如分成保护组织,营养组织,疏导组织,这就儿也可以理解成将领域继续划分为子域的过程 子域:相对的一个概念, 我们可以将领域进行进一步的划分 , 这时候就是子域, 甚至可以对子域继续划分形成 子子域(依旧叫子域),就好比当我们研究植物时,如果研究的对象是桃树,那么果实根茎叶是领域,可是如果不仅仅要研究果实 为什么要划分核心域、通用域、支撑域 ? 通过上面可以知道,决定产品和公司核心竞争力的子域是核心域,它是业务成功的主要因素和公司的核心竞争力。 而支撑域则具有企业特性,但不具有通用性,例如数据代码类的数据字典等系统。 那么为什么要划分出这些新的名词呢?先想一个问题,对于桃树而言,根、茎、叶、花、果实、种子六个领域哪一个是核心域? 总的来说,核心域、支撑域和通用域的主要目标是:通过领域划分,区分不同子域在公司内的不同功能 属性和重要性,从而公司可对不同子域采取不同的资源投入和建设策略,其关注度也会不一样。
第三步:现在就可以最子域进行划分了,找出核心域,通用域,支撑域,至于为什么要这么划分,后面再解释,当我们找到核心域之后,再各个子域进行深一步的划分,划分成组织,例如分成保护组织,营养组织,疏导组织,这就儿也可以理解成将领域继续划分为子域的过程 子域:相对的一个概念, 我们可以将领域进行进一步的划分 , 这时候就是子域, 甚至可以对子域继续划分形成 子子域(依旧叫子域),就好比当我们研究植物时,如果研究的对象是桃树,那么果实根茎叶是领域,可是如果不仅仅要研究果实 - 领域划分 - 为什么要划分核心域、通用域、支撑域 ? 通过上面可以知道,决定产品和公司核心竞争力的子域是核心域,它是业务成功的主要因素和公司的核心竞争力。 而支撑域则具有企业特性,但不具有通用性,例如数据代码类的数据字典等系统。 那么为什么要划分出这些新的名词呢?先想一个问题,对于桃树而言,根、茎、叶、花、果实、种子六个领域哪一个是核心域? 总的来说,核心域、支撑域和通用域的主要目标是:通过领域划分,区分不同子域在公司内的不同功能。 属性和重要性,从而公司可对不同子域采取不同的资源投入和建设策略,其关注度也会不一样。
可以根据业务的关注点,将这些数据主题划分到不同的主题域(也说是对某个主题进行分析后确定的主题的边界。) 关于主题域的划分: 主题域的确定必须由最终用户和数据仓库的设计人员共同完成的, 而在划分主题域时,大家的切入点不同可能会造成一些争论、重构等的现象,考虑的点可能会是下方的某些方面: 1、按照业务或业务过程划分 :比如一个靠销售广告位置的门户网站主题域可能会有广告域,客户域等,而广告域可能就会有广告的库存,销售分析、内部投放分析等主题; 2、根据需求方划分:比如需求方为财务部,就可以设定对应的财务主题域,而财务主题域里面可能就会有员工工资分析 ,投资回报比分析等主题; 3、按照功能或应用划分:比如微信中的朋友圈数据域、群聊数据域等,而朋友圈数据域可能就会有用户动态信息主题、广告主题等; 4、按照部门划分:比如可能会有运营域、技术域等,运营域中可能会有工资支出分析 、活动宣传效果分析等主题; 总而言之,切入的出发点逻辑不一样,就可以存在不同的划分逻辑。
主题域是业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。 02 如何划分主题 划分主题域方法 在业务调研之后,可以进行主题域的划分。划分主题域,需要分析各个业务模块中有哪些业务活动。 通常我们按照以下方法划分主题域,可以按照用户企业的部门划分,也可以按照业务过程或者业务板块中的功能模块划分。 个人比较推荐通过业务系统来进行一级主题域划分,这样边界就会很明显,数据仓库开发过程中不会因为模型主题的归属“扯皮”,然后根据各个系统中的业务过程划分二级主题域目前我参与过的两个数据仓库建设项目也都是这样搞的 主题域的核心 为保障整个体系的生命力,主题域需要抽象提炼,并长期维护更新,但不轻易变动。划分数据域时,需满足以下两点: 能涵盖当前所有的业务需求。 一次能划分好主题域吗 首先,主题域是无法一次划分完整的,一般是一次先建立几个明确的主题,在大多数数据仓库的设计过程中都有一个主题域的选择过程。
目录 一、什么是主题? 二、什么是主题域? 三、如何划分主题域? 二、什么是主题域? 主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域(也说是对某个主题进行分析后确定的主题的边界。) 三、如何划分主题域? 1、按照系统划分 一个业务系统抽象出一个主题域,业务系统有几种,就划分为几类 2、按业务过程划分 一个业务过程抽象出一个主题域,比如业务系统中有商品、交易、物流等 3、 按需求方划分 比如需求方为财务部 ,就可以设定对应的财务主题域,而财务主题域里面可能就会有员工工资分析,投资回报比分析等主题 4、 按部门划分 比如可能会有运营域、技术域等,运营域中可能会有工资支出分析、活动宣传效果分析等主题。 5、按功能或应用划分 比如微信中的朋友圈数据域、群聊数据域等,而朋友圈数据域可能就会有用户动态信息主题、广告主题等;比如说社交软件中就会有聊天、朋友圈、群聊、发送文件等功能模块,聊天模块会涉及到数据仓库中的用户主题
主题是根据分析的要求来确定的。这与按照数据处理或应用的要求来组织数据是不同的。 三、主题域 主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。 主题域的确定必须由最终用户和数据仓库的设计人员共同完成。 四、主题域、主题、实体间关系 主题设计是对主题域进一步分解,细化的过程。 主题域下面可以有多个主题,主题还可以划分成更多的子主题,而实体则是不可划分的最小单位。主题域、主题、实体的关系如下图所示: ? 五、关于主题域的争议 曾经在看到过关于主题域的另外一个定义方式:“主题域是对某个主题进行分析后确定的主题的边界”。相关内容如下文所示: 主题域是对某个主题进行分析后确定的主题的边界。 图3-32 主题域的划分 经过对以上内容深入分析,发现此定义与:”主题域通常是联系较为紧密的数据主题的集合“并不矛盾,只是所站的视角不同,“数据主题集合”的观点从数据着眼,前提是已经经过分析、梳理列出所有可能的数据主题
主题域是业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。 如何划分主题 划分主题域方法 在业务调研之后,可以进行主题域的划分。划分主题域,需要分析各个业务模块中有哪些业务活动。 个人比较推荐通过业务系统来进行一级主题域划分,这样边界就会很明显,数据仓库开发过程中不会因为模型主题的归属“扯皮”,然后根据各个系统中的业务过程划分二级主题域目前我参与过的两个数据仓库建设项目也都是这样搞的 主题域的核心 为保障整个体系的生命力,主题域需要抽象提炼,并长期维护更新,但不轻易变动。划分数据域时,需满足以下两点: 能涵盖当前所有的业务需求。 一次能划分好主题域吗 首先,主题域是无法一次划分完整的,一般是一次先建立几个明确的主题,在大多数数据仓库的设计过程中都有一个主题域的选择过程。 业务是一直发展的,因此设计之初不要想着一次把所有主题全部划分完整。我们可以遵循上面说的划分主题域的两个要点,后续采用迭代的方式补充。
文章目录 一、划分 二、划分示例 三、划分与等价关系定理 一、划分 ---- 划分 : 非空集合 A , A \not= \varnothing , A 集合的一个 划分 是 集族 \mathscr 包含于 A 集合的幂集 , \mathscr{A} \subseteq P(A) , 集族中的元素都属于 A 集合的幂集 ; 集族 \mathscr{A} 中的元素是 集合 , 称为 划分块 } 有以下性质 : ① \mathscr{A} 集族中每个元素都非空 \varnothing \not\in \mathscr{A} ② \mathscr{A} 集族中任意两个元素 ( 划分块 集族中包含 A_i 集合及其补集 \sim A_i , 该集族 \mathscr{A}_i 满足上述划分的三个性质 , 是一个划分 ; 2. A/R 是 A 的划分 ; R 是 A 上等价关系 \Rightarrow A/R 是 A 的划分 集族 \mathscr{A} 是 A 集合上的划分 , 定义一个 二元关系 是 同块关系
01:事实主题指标划分 目标:掌握一站制造中的业务主题划分及主题指标的设计 实施 基本流程 油站:有安装、维修、巡检、改造需求 呼叫:打电话到呼叫中心下工单 呼叫中心可以直接解决 态度满意个数、响应速度的满意个数、技术满意个数 费用事实指标:报销费用、差率费用、补贴费用 差旅事实指标:油费、住宿费用、交通费用 网点物料事实指标:零配件的个数 …… 小结 掌握一站制造中的业务主题划分及主题指标的设计
一、类作用域与名字查找规则:理解二义性的根源 1.1 类作用域的基本概念 在 C++ 中,每个类(包括基类和派生类)都有独立的作用域(Scope),类的成员(变量、函数、类型别名等)被封装在该作用域内。 1.4 关键规则:“最近” 作用域优先,但多重继承无 “最近” 单继承中,基类的作用域是 “线性” 的,派生类到基类的路径唯一,因此名字查找不会歧义。 四、避免用户级二义性的四大策略 4.1 显式作用域限定:指定基类作用域 通过作用域解析符(::)显式指定成员所属的基类,是解决二义性最直接的方法。 七、结论 多重继承下的类作用域问题,核心在于名字查找的多路径性和基类作用域的并行性。 二义性解决方案 显式作用域限定、派生类重写成员、虚继承、using 声明。 赋值控制 显式重载赋值运算符,明确调用各基类的赋值逻辑,避免作用域歧义。
划分stage源码剖析 本文基于Spark 1.3.1 先上一些stage相关的知识点: DAGScheduler将Job分解成具有前后依赖关系的多个stage DAGScheduler是根据ShuffleDependency 划分stage的 stage分为ShuffleMapStage和ResultStage;一个Job中包含一个ResultStage及多个ShuffleMapStage 一个stage包含多个tasks, finalRDD的partition数 一个stage中的task完全相同,ShuffleMapStage包含的都是ShuffleMapTask;ResultStage包含的都是ResultTask 下图为整个划分 = getParentStages(rdd, jobId) val id = nextStageId.getAndIncrement() //< 这个调用确定了每个stage的id,划分 整个stage的划分完成。
电磁波频段的划分 射频(300KHz-300MHz):包括LF,MF,HF,VHF 微波(300MHz-3000GHz):包括UHF,SHF,EHF,PHF 微波频段的划分 波段 频率范围
前言 这段时间在研究自然语言处理的相关问题,主要是学习如划分数据,尝试过利用机器学习中的相关知识建立模型对数据进行评分后加以划分,但是由于语料库的不足导致训练出的模型对数据的区分度不够,另一方面也是因为部分数据比较 后来尝试过调用百度的词法分析,利用百度平台现成的技术对数据做初步处理,然后再进一步处理,这样会大大降低数据划分的难度。 经过一番思考决定建立一套自己的数据划分流程,写下这篇博客用以记录。 获取AB合格率分界线 依据每条数据的长度划分 分别获取不同长度的数据的AB评分分界线 优化 优化特征词汇的等级划分和评分 优化数据长度的划分 确定分界线 ---- 数据分词 数据分词, 不断细化特征数据的等级划分,提取前500个高频词汇分5个等级。
内聚,是从功能角度来衡量模块内的联系,一个好的内聚模块应当恰好做一件事。它描述的是模块内的功能联系;
LeetCode 86.Partition List 已知链表头节点指针head与数值X,将所有小于x的节点放在大于或等于x的节点前,且保持这些节点的原来的相对位置
Object划分 1.PO(persistantobject)持久对象 PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合。PO中应该不包 含任何对数据库的操作。