

随着在线医疗行业从 “流量红利” 转向 “质量竞争”,平台如何通过数据挖掘优化医患匹配、提升服务质量,成为突破增长瓶颈的关键。作为数据科学团队,我们曾为多家医疗平台提供数据分析咨询服务,本文内容正改编自此前为在线医疗头部平台设计的用户生态优化项目 —— 通过对丁香医生平台的医生信息与患者评论数据深度分析,解决 “如何识别高价值医生”“患者核心诉求是什么”“服务行为是否真能提升满意度” 等核心业务问题。
本次分析以 Python 为核心工具栈,串联数据采集、清洗、探索性分析(EDA)、机器学习建模与因果推断全流程:先用 K-Means 聚类勾勒医生群体画像,再借 LDA 主题模型挖掘患者隐性诉求,随后通过 LightGBM、多元回归等监督学习量化评分、定价、流量的驱动因素,最后用倾向性评分匹配(PSM)验证服务行为对满意度的因果效应。整个过程既解决实际业务痛点,也为数据科学初学者提供 “从业务到模型” 的完整思路。
流程图

一、 项目概述
1.1 项目背景
随着互联网技术的深度渗透,在线医疗服务已成为现代医疗体系的重要组成部分,深刻地改变了传统的医患交互模式。丁香医生作为国内领先的在线健康服务平台,已汇聚了海量的医生专业信息与患者反馈数据。这些高维度、大规模的数据不仅是平台的核心数字资产,更蕴含着优化服务质量、实现精准医患匹配、提升运营效率的巨大潜力。因此,本项目旨在应用大数据分析技术,对丁香医生平台的公开数据进行系统性的采集、处理与深度挖掘,以探索其内在规律,并提炼出具有商业价值和现实意义的洞见。
1.2 项目目标
为系统性地发掘丁香医生平台数据的价值,本项目设定了以下四个核心研究目标:
1.3 技术栈
本项目综合运用了以下技术栈:
二、 数据获取与处理
2.1 数据工程流水线设计
本项目构建了一套完整的数据工程流水线,从元数据采集到最终的结构化数据输出,流程清晰,自动化程度高。
整个流程主要分为四个阶段:
2.2 核心功能模块实现
系统的核心功能由一系列Python脚本实现,各脚本职责明确、相互协作:
部分数据如下:



2.3 数据清洗与特征工程
在获得原始数据后,我们进行了系统的数据清洗和特征工程,以提升数据质量,并为后续建模做准备。主要步骤包括:
2.4 字段表
字段名 | 数据类型 | 中文含义 |
|---|---|---|
doctor_id | int64 | 医生唯一标识符 |
nickname | object | 医生昵称 |
gender | int64 | 性别 |
title | object | 职称 |
title_id | int64 | 职称ID |
specialty_tags | object | 专业标签 |
specialty_tags_type | object | 标签类型 |
total_comment | int64 | 总评论数 |
practice_experience | object | 执业经历 |
academic_experience | object | 学术经历 |
professional_profile | object | 专业简介 |
hospital_id | int64 | 医院ID |
hospital_name | object | 医院名称 |
department_id | int64 | 科室ID |
department_name | object | 科室名称 |
location_name | object | 所在地名称 |
location | int64 | 详细地址 |
hospital_info_tag | object | 医院标签 |
hospital_info_type | object | 医院类型 |
years_experience | int64 | 从业年限 |
expert | int64 | 是否专家 |
certified_expert | int64 | 是否认证专家 |
self_desc | object | 自我描述 |
send_word | object | 医生寄语 |
reply_count | int64 | 回复患者数 |
patient_count | int64 | 患者总数 |
received_count | int64 | 接诊量 |
star_sum | int64 | 星级评分总和 |
follower_count | int64 | 粉丝数 |
average_rating | float64 | 平均评分 |
avg_response_time | object | 平均响应时间(分钟) |
prescription_count | int64 | 处方数量 |
consult_price | float64 | 图文咨询价格 |
phone_price | float64 | 电话咨询价格 |
video_price | float64 | 视频咨询价格 |
new_user_price | float64 | 新用户价格 |
hot_counsel_tags | object | 热门咨询标签 |
comment_tags | object | 评论标签 |
department | object | 科室大类 |
anonymous_name | object | 匿名用户名称 |
rating | int64 | 评分(星级) |
comment_time | object | 评论时间 |
comment_content | object | 评论内容 |
labels | object | 评论标签 |
has_replies | int64 | 是否有回复(1有/0无) |
comment_length | int64 | 评论长度(字数) |
is_positive | int64 | 是否积极评价(1是/0否) |
三、 探索性数据分析 (EDA)
通过对核心字段的描述性统计分析,我们勾勒出丁香医生平台医生的整体画像,其主要特征如下:
3.1平台医生整体特征分析


3.2 核心发现与业务洞察
洞察一:探索性分析的核心洞察
分析显示,医生的从业经验与职称等级存在高达0.58的强正相关性。同时,这两者均与服务价格显著正相关。这表明平台的定价体系在很大程度上遵循了传统医疗领域“论资排辈”的价值逻辑,资历是医生服务价值的核心体现。

洞察二:平台流量分布呈现显著的“马太效应”
服务量相关指标,如total_comment(总评论数)和patient_count(服务患者数),均呈现严重的长尾分布。少数头部医生占据了平台绝大部分的患者与流量资源,而超过半数的医生服务量相对较小。这揭示了平台生态中流量高度集中的现状。


相关文章

原文链接:https://tecdat.cn/?p=41907
洞察三:价格敏感带清晰,200元是重要心理价位。
绝大多数在线图文咨询服务的定价集中在50至150元人民币区间。服务定价超过200元的医生占比仅为2.0%,表明高价位服务在当前市场环境下仍属小众,平台的主流用户对价格较为敏感。

洞察四:“三甲”光环并非患者满意度的绝对保证
尽管三甲医院的医生在数量上占绝对优势(90%),但在核心的患者满意度指标average_rating上,非三甲医院医生的平均表现与三甲医生并无统计学上的显著差异(p=0.13),甚至略高。这初步表明,医院的“金字招牌”并不能完全等同于线上的服务体验质量。


洞察五:用户选择行为呈现“声誉导向”与“性价比导向”的分化
交叉分析显示,平台流量最大的医生群体组合是“三甲医院背景且无医保资质”,而平均服务价格最低的群体组合是“非三甲医院背景且有医保资质”。这暗示平台可能存在两类主流用户:一类是追求顶尖医疗资源、对价格不敏感的“声誉优先型”用户;另一类则是寻求基础医疗保障、对价格敏感的“性价比优先型”用户。




群体 5: 顶尖科室精英领袖 - 规模极小 (0.4%),拥有最高的平均从业年限(24年),在临床与学术两方面均有卓越建树,且半数任职于全国顶尖科室,代表了行业金字塔的顶端力量
群体 7: 顶尖科室核心专家 - 该群体几乎全部(99%)在全国排名前十的顶尖科室工作,平均拥有约15年经验,是国内顶级医疗机构的中坚骨干。
群体 4: 资深学术临床型领军人物 - 具备非常资深的从业经验(平均21.6年),在临床和学术领域均表现出极高的活跃度,是大型医院的学科带头人。
群体 3: 学术临床双修型中坚力量 - 作为平台规模最大的群体(26.8%),平均拥有约10年经验,是正在崛起的“青壮派”。他们在临床实践与学术研究上双线发展,代表了行业的未来潜力。
群体 6: 经验丰富的临床实干家- 拥有近20年的丰富从业经验,其职业路径更侧重于临床实践,是解决复杂临床问题的资深专家。。
群体 0 & 2: 均衡发展型医师 - 两个稳健的中坚群体,从业经验在14-17年之间,在临床与学术领域均有涉猎,但活跃度不及“双栖中坚力量”。
群体 1: 资深非一线/转型专家 - 一个庞大且特殊的群体(23.0%),虽拥有16年的资深履历,但其当前的临床和学术活跃度指标极低。这可能表明该群体成员已部分转向管理、公共卫生或相关产业领域。
K-Means聚类分析不仅验证了平台医生群体的内在异质性,更重要的是,它超越了单一维度的标签,识别出了具有不同职业发展路径的医生群体。例如,“双栖发展型”、“临床实践型”与“转型期专家”等画像,为平台实施人才分层运营提供了清晰的目标客群。平台可据此进行精准的资源匹配、内容合作邀约及个性化的职业发展支持。
4.2 LDA主题建模:洞察患者核心诉求
针对平台积累的海量非结构化评论文本,本研究采用潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)主题建模技术。通过对分词、去停用词等预处理后的文本进行建模,旨在自动地从大规模语料中发现患者在评价医生服务时所共同关注的潜在主题结构。
通过对33个科室的评论数据进行建模与分析,我们成功提炼出四大跨科室的共性主题,这些主题共同构成了患者评价体系的核心框架
主题一:专业素养与服务态度 (Professionalism and Service Attitude)
主题二:情绪价值与心理慰藉 (Emotional Value and Reassurance)
主题三:具体病症与诊疗过程 (Specific Symptoms and Diagnosis Process)
主题四:治疗方案与后续指导 (Treatment Plans and Follow-up Guidance)
LDA主题分析深刻揭示,患者对在线医生的评价是一个多维度的综合考量,其不仅看重医生的“硬技能”(专业知识与诊疗水平),也同样倚重其“软技能”(沟通技巧、共情能力与情绪价值的提供)。这一核心发现为平台提供了明确的价值提升方向:
本章旨在通过构建一个高精度的机器学习模型,对医生的平均评分(average_rating)进行预测。其核心目标并非仅为预测本身,而是通过对模型的解释,识别并量化影响医生评分的关键驱动因素,从而为平台提升整体服务质量和患者满意度提供数据洞察。
本研究遵循标准的机器学习建模流程:
通过5折交叉验证,模型展现出卓越且稳定的预测性能:
相关视频
视频讲解:CatBoost、梯度提升 (XGBoost、LightGBM)心理健康数据
通过分析LightGBM模型的特征重要性,我们识别出影响医生评分的关键因素,并将其归纳为三个梯队:

第一梯队:服务体量与社会认同(核心驱动力)
star_sum (获赞总数) 和 received_count (接诊量) 等指标占据了重要性的顶端。这表明,医生的服务广度(服务了多少人)和获得的显性认可(收到了
多少赞),是其高评分的最直接体现。这揭示了一个强烈的正向反馈循环:高服务量带来高曝光和更多评价机会,而优质服务则沉淀为高赞誉,进一步巩固其高评分。
第二梯队:服务效率与专业资历(关键影响因素)
response_minutes (响应时长) 的重要性高居前列,印证了患者对于服务即时性的高度敏感。此外,years_experience (从业年限) 和 title_id (职称) 等代表医生专业深度的资历指标,也是影响评分的重要因素
第三梯队:服务价格与专业标签
服务价格、是否具备处方权以及其他专业背景标签,虽然对评分亦有影响,但其重要性次于直接反映服务过程和结果的动态指标
该预测模型深刻地揭示出,医生的评分并非由其静态背景(如医院、学历)单方面决定,而是由其在平台上的动态服务行为(服务体量、响应速度)和不断累积的社会认同(获赞数、评论数)共同塑造。
基于此,该模型的价值不仅在于预测新入驻医生的潜力评分,更重要的是为平台运营提供了明确的指导:
六、多元回归分析: 探究医生服务定价的稳健驱动因素
6.1研究目标与方法论
本章旨在通过多元线性回归模型,量化识别影响丁香医生平台图文咨询服务(consult_price)定价的关键因素。为确保模型结论的稳健性(Robustness)和可解释性(Interpretability),我们采用了严谨的建模策略:
1. 多重共线性诊断与处理:
2. 最终模型构建与评估:
基于剔除共线性后的变量集,我们构建了最终的优化回归模型。本报告的所有结论均基于此稳健模型。
模型评估:
6.2 核心发现:服务定价的决定因素
优化后的回归模型揭示了一套清晰且符合商业逻辑的定价体系。下述所有结论均在统计上显著(p < 0.05)。
发现一:稀缺性品牌资产是定价的“核心引擎”
发现二:职称体系的相对价值被精准量化
模型以“主任医师”为参照基准,清晰地量化了不同职称等级间的价格差异:
解读: 结果呈现出清晰的等级阶梯效应。相较于主任医师,职称每降低一个等级,其基础定价相应减少。特别地,药师群体的服务定价显著低于医师群体,这符合两者在服务范畴上的差异。
发现三:经验价值恒定,但医保与部分服务量指标呈负相关
发现四:可沉淀的口碑是服务量的唯一增值项
6.3 结论与商业启示
本章通过构建一个稳健的多元回归模型,为丁香医生的服务定价策略绘制了一幅清晰的图景:
塔尖由稀缺性品牌(顶尖科室/城市/医院)决定核心溢价;塔身由职称与经验构建价格阶梯;塔基则由医保属性与市场策略(口碑积累 vs. 薄利多销)进行调节。
七、逻辑回归:高流量医生成功模式的解码与画像分析7.1 研究目标与升维分析策略
为深入探究平台“马太效应”背后的驱动机制,本章旨在通过逻辑回归模型,解码影响医生获取高流量(定义为平台接诊量排名前20%)的关键因素。我们采用了创新的升维分析策略:
第一层:识别普适性成功法则。
首先,构建一个基础逻辑回归模型,识别出适用于所有医生的、影响流量获取的普适性关键特征(如评分、价格、响应速度等)。
第二层:探究群体成功的差异化路径。
随后,将第四章K-Means聚类得出的八类医生画像作为虚拟变量引入模型。此举旨在进行一次升维分析,探究在控制了所有个体特征之后,医生所属的“群体画像”本身,是否对其流量获取能力具有独立的、显著的影响。
7.2 模型性能:精准识别高潜力医生
我们最终构建的逻辑回归模型表现出色。其AUC(ROC曲线下面积)值高达0.84,远超0.5的随机水平,表明模型拥有强大的区分能力,能有效识别出具备高流量潜力的医生。同时,模型通过了VIF检验与L2正则化处理,确保了结论的稳健性。
7.3 核心发现(一):高流量的普适性“成功法则”
模型首先揭示了所有医生在流量竞争中都需遵循的共性规律:
维度一:质量为王——解决问题的核心能力
维度二:定价有道——“冰与火”的服务模式
维度三:体验至上——不可或缺的服务细节
维度四:品牌加持——“光环效应”的价值
7.4 核心洞察(二):不同医生画像在流量竞争中的差异化表现
在控制了上述所有个体特征后,引入“医生画像”变量,得到了本次分析最深刻的洞察:
1. 流量获取的冠军画像——“均衡发展型医师”(画像2):
这是最关键的发现。在流量获取上最具潜力的,并非履历最顶尖的“精英领袖”,而是这批拥有14-17年经验、在临床与学术上均衡发展的中坚力量(优势比OR ≈ 1.72)。他们正处于知识、经验和精力的“黄金结合点”,既有足够的资历赢得患者信任,又有充足的精力投入线上服务,是平台生态中“性价比”与“可靠性”的最佳平衡。
2. 流量获取的潜力画像——“经验丰富的临床实践专家”(画像6):
这类拥有近20年经验的纯粹临床专家,其深厚的实战能力同样受到线上患者青睐(OR ≈ 1.13),代表了以极致临床实用性取胜的成功路径。
3. 面临流量挑战的画像:
7.5结论与升维商业建议
本次分析通过结合监督与非监督学习,成功地从“特征”和“画像”两个维度解码了高流量医生的成功模式。
八、因果推断分析——服务行为对患者满意度的净效应评估
8.1 研究问题的深入:从“相关”到“因果”
在前面的章节中,我们通过探索性分析和相关性模型,初步观察到医生的服务行为(如响应速度)与患者评价之间存在关联。然而,这种关联是否等同于因果关系?即,究竟是“优秀的医生倾向于提供好服务”,还是“好服务本身造就了患者满意”?这是一个困扰平台运营的核心问题。
为回答这一问题,本章将分析层次从相关性探索提升至因果效应评估。我们旨在通过严谨的因果推断方法,剥离所有与医生背景相关的混淆因素,从而精准地量化“高水平服务行为”本身对“患者深度满意度”的净因果效应(Net Causal Effect)。
8.2 研究设计:基于倾向性评分匹配的准实验
为有效解决“选择性偏误”(即背景优秀的医生可能更倾向于提供高质量服务)这一核心挑战,本研究采用了倾向性评分匹配(Propensity Score Matching, PSM)方法。该方法旨在通过统计学手段,模拟一场“随机对照实验(RCT)”,其核心设计如下:
1. 定义处理组与对照组:
2. 定义结果变量与混淆变量:
3. 匹配过程:
8.3分析结果:效应的量化与显著性检验
发现一:协变量平衡性显著改善,为因果推断奠定基础

上图的平衡性检验结果(Love Plot)展示了倾向性评分匹配(PSM)在改善组间可比性方面的显著效果。
我们同样注意到,少数变量如hosp_type_医保和video_price在匹配后的SMD值虽然有所降低,但仍略高于0.1的严格阈值。这在真实世界数据的PSM分析中是常见现象,它提示我们匹配可能未能完全消除所有可观测变量的差异。然而,核心在于PSM已经将整体的组间差异从一个非常不平衡的状态,改善到了一个高度近似平衡的状态。这为我们进行下一步的因果效应评估,提供了一个远比原始数据更公平、更可靠的比较基础。
发现二: “高水平服务”的因果效应巨大且高度显著,结论稳健

在经过PSM平衡处理后的两组医生中进行比较,结果揭示了服务行为的巨大影响力:
由此计算出,高水平服务行为对患者感谢数的平均处理效应(ATT)高达 +630.74。这一效应不仅在数值上是巨大的,在统计上也极度显著(配对T检验 p-value < 0.0001)。
结论的稳健性讨论: 考虑到匹配后仍存在微小的残余不平衡,一个自然的问题是:这个巨大的效应是否会被这些微小差异所解释?答案是否定的。我们观察到的效应量(差异为630.74)是基础值(363.53)的1.7倍之多。如此巨大的效应差异,远远超过了由hosp_type_医保等变量的微小不平衡所可能带来的影响。换言之,即使考虑到这些残余偏误,它们也完全不足以推翻“服务行为是主导因素”这一核心结论。因此,我们可以满怀信心地认为,本研究的结论是稳健的(robust)。
8.4 结论与战略建议
核心结论:服务为王。 本研究通过严谨的、并经过审慎评估的因果推断分析,证实了驱动在线医疗平台患者深度满意度的根本引擎,是医生可培养、可激励的服务行为,而非其固有的身份标签。即便在考虑了匹配过程中的微小不完美后,服务行为带来的巨大积极效应依然是压倒性的和不容置疑的。
基于此结论,我们为平台提出以下三点战略建议:
1. 战略层面:重塑价值导向,从“争夺名医”到“培育优服”
2. 算法与产品优化:让优质服务被看见、被奖励
3. 生态建设与医生赋能:从“少数精英”到“全员优质”
九、 项目总结与展望
9.1 总体结论:构建多维度的平台生态认知
本项目通过一个系统化的数据科学流程,从数据采集与处理、多模型探索性分析,到最终的因果推断,对丁香医生平台的生态系统进行了全面而深入的剖析。研究成果不仅验证了传统认知,更揭示了许多深层次、反直觉的规律。
本研究的核心结论可归纳为一个三维度的综合模型,即一个成功的在线医生,是其“静态禀赋”(Static Endowment)、“动态行为”(Dynamic Behaviors)和“累积声誉”(Accumulated Reputation)三者相互作用、共同塑造的结果。
9.2 核心洞察与业务价值
本项目的系列分析,从不同角度相互印证,共同为丁香医生平台提供了具备高度可行性的商业洞察:
9.3 项目创新性与未来展望
本项目的创新性体现在其分析框架的整合性与递进性。研究并非孤立地应用各类模型,而是将非监督学习(画像构建)、监督学习(因素量化)与因果推断(效应评估)有机地串联起来,形成了一个相互验证、层层深入的分析闭环。特别是将聚类画像作为特征引入监督学习模型,以及从相关性分析最终走向因果推断,体现了高阶的数据分析思维。
展望未来,本研究可在以下方向进一步深化:
综上所述,本项目不仅完成了既定研究目标,更通过严谨的分析为丁香医生平台提供了兼具战略高度与战术可行性的数据驱动决策支持,充分展现了大数据技术在赋能现代医疗健康服务领域的巨大潜力。


在此对 Jiasen Chen 对本文所作的贡献表示诚挚感谢,他在南京大学完成了工业工程专业的相关学业,专注深度学习、数理金融与数据采集分析领域。擅长 R 语言、Python、C++,同时在数据采集分析与深度学习应用方面具备扎实的技术能力。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。