编辑 | KING 发布 | ATYUN订阅号 Netflix的数据科学团队已将其Metaflow Python库开源,该库是“以人为中心”的机器学习基础架构的关键部分,用于构建和部署数据科学工作流。 Metaflow背后的想法是使Netflix数据科学家能够及早查看原模型是否会在生产中失败,从而使他们能够解决所有问题并理想地加快部署时间。 Netflix在2月份透露,Metaflow已将部署时间从四个月缩短到了仅仅7天。 在S3中对代码进行快照的功能使Metaflow能够实现自动版本控制和实验跟踪,因此开发人员可以安全地检查和恢复Metaflow的执行情况。 ? Metaflow还与基于AWS容器的计算平台Batch集成。Netflix 认为,AWS上的Metaflow可以让开发人员提高在笔记本电脑上进行开发的速度,同时可以在云中使用更深的计算资源。
二、开源的高度自动化可观测性平台 开源的可观测性方案非常多,比如 OpenTelemetry、 SkyWalking、Elasticsearch、Prometheus等,每一种可观测性解决方案都有最擅长的地方 4.png MetaFlow Agent支持集成广泛的开源Agent和SDK的观测数据。 MetaFlow拒绝造轮子,因此对于Telegraf、Prometheus、SkyWalking、OpenTelemetry、Sentry、Loki等开源社区优秀的可观测性数据源,MetaFlow都能集成进来 四、结语 在存储方面,作为第一个MetaFlow的开源版本,默认提供ClickHouse的选项,开发者也可以组合、扩展更多的数据库选项。 希望MetaFlow的开源,能够帮助开发者构建一个自动化的可观测性平台,彻底释放开发者的生产力,带来自由。
AWS 上以人为中心的数据科学 Netflix 在 2019 年开源 Metaflow[9]时,我们使用亚马逊网络服务提供的服务提供了一条毕业路径: AWS Batch 为第二阶段提供了一个简单的解决方案 今天,我们很高兴地宣布 Metaflow 原生支持 Kubernetes 路径,作为 AWS 原生路径的同等替代: 值得强调的是,Kubernetes 的好处针对的是工程师,而不是使用 Metaflow 参考资料 [1] Metaflow: https://docs.metaflow.org/ [2] 将计算扩展到 Kubernetes 集群: https://docs.metaflow.org/metaflow //docs.metaflow.org/going-to-production-with-metaflow/scheduling-metaflow-flows [9] Netflix 在 2019 年开源 CNCF(云原生计算基金会)致力于培育和维护一个厂商中立的开源生态系统,来推广云原生技术。我们通过将最前沿的模式民主化,让这些创新为大众所用。
最后,对于开源支持库而言,它的技术支持文档也非常不错。说真的,去看一下吧! 4. Metaflow 项目网址: https://docs.metaflow.org/introduction/what-is-metaflow Metaflow 这个支持库实在太新了,差点就没赶上 2019 Metaflow 这个 Python 支持库能帮助数据科学家与数据工程师开发在现实世界中应用的实战项目。 结论 这一年,或者说又一个10 年马上就要过去了,开源社区这些年的对世界的贡献将对今后几年产生深远的影响。 想要了解这些年的优秀开源库,就来看下我们这几年的榜单吧:2015、2016、2017、2018。
两年前,Netflix 开源了 Metaflow,这是一个基础设施抽象工具,使他们的数据科学家能够开展全栈工作,而不必担心底层基础设施。 Metaflow 像 Kubeflow 和 Metaflow 这样的基础设施抽象工具,旨在将运行 Airflow 或 Argo 通常需要的基础设施模板代码抽象出来,帮助你在开发和生产环境中运行工作流。 从用户体验的角度来看,我认为 Metaflow 更胜一筹。 在 Metaflow 中,你可以使用 Python 装饰器@conda来指定每个步骤的需求——所需的库、内存和计算资源需求——Metaflow 将自动创建一个满足所有这些要求的容器来执行该步骤。 Metaflow 让你可以在同一个 notebook/ 脚本中实现开发和生产环境的无缝衔接。
寻找图 G 的等价图 G' 的过程在一个名为 MetaFlow 的系统中实现,其可被用于优化已有的深度学习框架的 DNN 计算图,即 MetaFlow 是用于 DNN 的宽松化图替代优化器。 蓝线是没使用 MetaFlow 的优化图的三个基准框架得到的最佳结果,红线是 MetaFlow 结果。 ? 图 2:MetaFlow、TensorFlow、TensorFlow XLA 和 TensorRT 的端到端性能比较 可以看到,MetaFlow 速度更快,优于已有的深度学习推理引擎。 表 2:MetaFlow 和 TensorRT 在不同指标上的性能比较 相比于 TensorRT,MetaFlow 能够减少整体的内存访问量以及核启动的数量。 子图性能指标是用于确定 MetaFlow 能否提升 DNN 中单个子图的性能。实验中测试比较了不同的设备,以确定给定一个输入图时,MetaFlow 能否在不同设备上发现不同的优化图。
使用 Python 分析电脑上的 100 GB 数据 链接: https://t.co/52y7IjNSqm 使用 Python 的开源库 Vaex 来可视化并分析 100 GB 的表格数据。 减少 Pandas 的内存使用量#2:有损压缩 链接: https://pythonspeed.com/articles/pandas-reduce-memory-lossy/ 有趣的项目,工具和库 Metaflow 链接: https://metaflow.org/ 在 Netflix 上开发的用于现实数据科学的框架。 Metaflow 使构建和管理现实中的数据科学项目变得容易快捷。
Metaflow Metaflow 是一个对用户友好的 Python 库和后端服务,可以帮助数据科学家和工程师构建和管理可用于生产的数据处理、机器学习训练及推理的工作流。 在撰写本条目时,Metaflow 和 AWS 服务高度集成,例如使用 S3 来做数据存储,step functions 来做编排。除 Python 以外,Metaflow 还支持 R 语言。 其核心功能都是开源的。 如果你正在 AWS 上构建和部署生产环境的机器学习和数据处理流水线,作为一个轻量级的全栈框架,Metaflow 可以替代例如 MLflow 这类更复杂的平台。 相比之下,Comby 是一个用于自动化重复性任务的轻量级开源命令行工具。由于 Sourcegraph 是一个托管服务,它能持续监测代码库,并在成功匹配时发出警报。 它是一个开源软件, 在 macOS、Linux、Windows 和 Docker 均可访问,开箱即用支持 AWS 、 GCP 和微软 Azure 的定价。
您将了解如何使用现有的云基础设施、一堆开源软件和惯用的Python提高数据科学家的工作效率。在整个过程中,您将遵循以人为中心的方法,重点关注用户体验和满足数据科学家的独特需求。 第一章: 介绍 第二章: 数据科学的工具链 第三章: 介绍Metaflow 第四章: 计算层的扩展 第五章: 实践可扩展和性能 第六章: 进入生产阶段 第七章: 处理数据 第八章: 使用和运作模式 第九章
六、metanoindex + follow 为了防止集合转移权重,我们可以在页面上使用metaindex 和 metaflow,这样页面就不包括在内,而是可以流出权重,这是一个不错的办法。
适用于:在Kubernetes上运行和管理AI工作流程2.MLflow特点: 用于管理机器学习生命周期的平台 提供实验跟踪、模型打包、部署等功能 支持多种机器学习框架 适用于:跟踪和管理机器学习实验3.Metaflow
六、metanoindex + follow 为了防止集合转移权重,我们可以在页面上使用metaindex 和 metaflow,这样页面就不包括在内,而是可以流出权重,这是一个不错的办法。
定义: 开源软件(OSS)是一种商业软件,只需同意遵守附带的 OSS 许可证即可获得全部所有权,无需立即进行第三方验证。 关键词: FOSS、自由开源软件、开源软件、OSS MITRE SE 角色和期望: MITRE 系统工程师 (SE) 应了解将开源软件 (OSS) 和相关支持流程应用于大型系统的构建和系统系统的潜在好处 背景 在系统工程的软件工程领域和工程信息密集型企业中,很少有主题比开源软件更容易引起更强烈的反应。 白宫开发者网站 [4] 将软件开发者引导至 GitHub 上的白宫项目(分布式开源开发)[5] 和Drupal(开源博客)网站 [6, 7]。 该网站涉及 DoD 对开源的政策、关于开源的联邦角色和法律地位的常见问题,以及早在 2003 年就 OSS 对 DoD 的广泛流行和重要性的调查。
TKEStack是腾讯开源的一款集强壮性和易用性于一身的企业级容器编排引擎,以极简的向导式界面提供了容器应用的全生命周期管理能力,帮助用户在私有云环境中敏捷、高效地构建和发布应用程序。 此次TKEStack开源,会将腾讯内部各BG在容器领域的使用经验和技术大量融入。 同时TKEStack将通过技术开源和发展生态协同,不断拓展技术领域边界,构建健康良好向上的生态协同环境,为AI 、Big Data、边缘计算、IoT等技术提供理想的底层支撑平台。 架构设计 ? 真诚开源 我们后续会继续完善和优化功能,提升平台稳定性;同时引入Service Mesh、大集群优化、在离线混部、AI/Big data on K8s等进阶能力。 腾讯工蜂源码系统为开源开发者提供完整、最新的腾讯开源项目国内镜像 ?
官网:http://www.coevery.com/ 源码:https://github.com/Coevery/Coevery 演示:http://coeverydemo.novasoftware.cn/ Coevery是一款基于Web的信息管理平台,以数据为中心,并特别强调数据之间的联系,有效地利用数据。 Coevery独具的开放性,使普通用户也能快速地在系统中添加新的数据,添加新的功能。同时支持手机、平板、PC等各种移动终端,满足用户随时随地使用的需求。Coevery完全免费,帮助用户用最少的成本搭建
开源字面意思是公开源代码,过去我们通常是指公开某款软件项目的源代码。 这里姑且不再细抠,总之,过去软件开源给我们的印象就是,甭管什么阆苑仙葩,只要一开源就能人手一份,而且很快还会有各种换皮魔改,同人逼死官方。往好了说,这叫开源带来澎湃力量。 但大语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI,就算哪天良心发现,真的要找回自己做一个名副其实的OpenAI,洗心革面把GPT-4给开源了。 那么,现在很多研究者在呼吁的开源,到底是要开源什么呢?开源模型,具体来说,是开源训练好的模型参数。模型参数拿到手,基本上就能完整复现能力了。 最后多说两句开源。开源很重要,人工智能能有今天的进步,开源功不可没。人工智能的研究成果大概有几种,首先就是论文。学术论文是要钱的,但是在人工智能领域,很多作者都免费公开了论文。
某些公司或者高校会有一些内部论坛需求便于内部交流,刚好这里有个开箱即用的开源论坛Flarum,可以作为线上社区或者内部社区使用。Flarum具有搭建门槛低,服务器硬件配置要求低,对新手友好的特点。 公开且自由:秉持开源精神,Flarum在MIT许可协议下发布,这意味着它是完全免费的,并鼓励开发者和社区成员共同参与改进与发展,确保了持续创新的动力源泉 Flarum中文社区 https://discuss.flarum.org.cn
开源的重要性从未如此明显。它对于我们今天构建软件至关重要,并且随着时间的推移只会变得越来越突出。问题在于,我们过去将开源引入市场的方式已经不再适用。 2022 年,我写了“开源的未来,或为什么开放核心已死”。从那时起,多家公司已经放弃了开放核心模式,导致了几个重大的失败。我亲眼目睹了围绕开源的混乱和质疑不断加剧,同时也亲眼目睹了开源的巨大影响力。 开源项目(比如我正在参与的 OPAL)不断发展壮大,这强化了真正的开源项目的强大影响力和协作精神。 这导致公司不得不与自己的 开源社区 竞争,对他们施加限制,甚至完全退出开源产品。 Elastic 就是一个典型的例子。 新希望 - 回到真正的开源 虽然开放核心和源代码可用模型曾一度流行,但公司开始意识到真正开源价值的重要性,并正在找到回归的道路。
我们当时就表明了 OSI 的立场 —— OSI 谴责俄罗斯军队在普京的指挥下对乌克兰的攻击,但有一个新的发展,直接影响到开源社区,它需要一个新的评论。 开放性和包容性是开源文化的基石,而开源社区的工具是为全球访问和参与而设计的。 总的来说,开源文化和工具 —— 问题追踪、信息传递系统、资源库 —— 提供了一个独特的信号渠道,可以绕过暴君为掌握权力而施加的审查制度。 开源社区有很多渠道可以发挥创意,而不会伤害到每个碰巧加载更新的人。 我们鼓励社区成员以创新和明智的方式利用开源的自由和工具,让俄罗斯公民了解强加给乌克兰公民的现实伤害,并支持乌克兰境内的、以及支持乌克兰的人道主义和救济工作。
延迟开源发布(DOSP)的做法,是首先以私有许可证发布软件,然后按计划过渡到开源许可证。 一种混合专有和开源许可的方式正在变得越来越受欢迎,并且对开源软件构成了威胁。 这种方法首先在专有许可下发布软件,然后按计划过渡到开源许可。 这些程序通常首先作为开源软件发布,然后承诺最终重新出现为开源程序而重新发布。 Qt 的许可历史非常复杂,简而言之,它现在可在商业和开源 GPL 2.0、GPL 3.0 和 LGPL 3.0 许可下获得。 如何使用延迟开源发布 研究人员发现延迟开源发布有三种类型。 在延迟开源发布的早期,OSI 的研究人员发现延迟开源发布“通常是关于垄断直接商业收入: 许可证会授予开源所需的大多数权限,但关键是不允许商业使用该软件。”