首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >基于元路径的异构信息网络相似度搜索

基于元路径的异构信息网络相似度搜索

原创
作者头像
用户11764306
发布2026-02-22 18:10:53
发布2026-02-22 18:10:53
640
举报

某机构学者孙怡舟(Yizhou Sun)近日荣获非常大型数据库(VLDB)基金会颁发的“经受时间考验奖”,获奖的是她在2011年发表的一篇论文。该论文引入了一种基于元路径的系统性解决方案,用于处理任意异构信息网络。该方案已发展成为一种普遍适用的数据模型,可应用于众多实际场景。

这篇名为“PathSim:异构信息网络中基于元路径的Top-K相似度搜索”的论文,首次引入了网络模式的概念来定义通用的异构信息网络,并提出了元路径的概念,以基于两个实体间的连接性来系统地定义它们之间的相似性。具体来说,该工作提出了PathSim(即“基于元路径的相似度”)作为一个实例,展示了如何使用元路径来定义实体间的相似度,从而促进相似性搜索。

孙怡舟和她的合著者——伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系的Abel Bliss教授韩家炜、UIUC信息技术Wexler讲席教授兼计算机科学教授俞士纶、加州大学圣塔芭芭拉分校计算机科学系Venkatesh Narayanamurti讲席教授闫浳枫,以及某机构工程经理吴天一——试图解决一个基本问题:如何在不适用独立同分布(i.i.d.)设定的数据点之间定义相似性。如今,该方法论广泛应用于各行各业,包括医疗保健、学术研究、社交网络和电子商务等领域。

“人们逐渐意识到,当我们谈论数据时,它已经超越了通常印象中的表格,”孙怡舟说。“数据可能复杂得多。数据点之间可以相互作用,而这些相互作用为我们理解每一个数据点提供了强大的能力。”

在学术环境中,一些看似独立的数据点之间也存在着模式,例如相互引用的研究论文、作者、关键词以及论文发表的场所。理解这些复杂联系的能力对于医疗保健应用也至关重要,这些应用可以利用围绕患者的数据,如疾病症状、药物、基因和其他因素。

“在某机构的环境中,我们有客户、产品、广告以及许多其他不同类型的实体,”孙怡舟说。“这就是为什么我们想研究这些新型的网络数据,我们将其命名为‘异构信息网络’。”

VLDB会议是数据库领域最负盛名的会议之一。VLDB基金会从10到12年前发表的论文中评选出“经受时间考验奖”的获得者,这些论文不仅对学术界产生了影响,还具有显著的商业价值。自发表以来,孙怡舟的论文已被引用超过1600次,引发了大量后续的学术研究和商业应用。

孙怡舟在北京大学获得计算机科学和统计学双学士学位,随后于2007年获得北京大学智能科学系工学硕士学位。在发表她2011年获奖论文一年后,她在伊利诺伊大学厄巴纳-尚佩恩分校获得计算机科学博士学位。她的博士论文《挖掘异构信息网络》荣获了计算机协会知识发现与数据挖掘特别兴趣组(ACM SIGKDD)2013年最佳博士论文奖。

孙怡舟于2013年至2016年在东北大学计算机与信息科学学院担任助理教授。她于2016年6月加入加州大学洛杉矶分校任教,目前正从该校计算机科学副教授的职位上休假。

孙怡舟还两次获得某机构研究奖。该奖项提供无限制的资金和某机构计算服务 promotional credits,以支持学术机构和非营利组织在与某机构使命(即推进以客户为中心的科学研究)相符的领域开展研究。她于2018年从某机构产品图谱团队获得该奖项,并于2020年从深度图学习团队再次获奖。这项研究持续为她自2021年6月起担任某机构学者的工作提供信息。

“我们努力将学术界的东西转化为工业界的应用——不仅是方法论,还包括如何将想法和算法部署到像某机构这样的超大规模数据集中,”孙怡舟说。

在担任某机构学者期间,孙怡舟在某机构广告团队内工作,基于某机构的广告数据构建一个异构信息网络。她希望利用机器学习为客户创造更好的推荐,从而改善客户体验。

“借助这些新工具,我们可以增强向消费者推荐广告产品的能力,并改进向商业客户提供的活动推荐,”孙怡舟说。“我们将能够帮助客户从某机构的数据中获取更多价值,并为他们提供更好的服务,让他们长期受益。”

孙怡舟和她的合著者还发表了一篇关于该奖项的受邀论文,题为“异构信息网络:过去、现在与未来”。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档