这里开源编排平台dagster[5]提供了一个检测思路 —— 他们使用一种被称为unsupervised clustering(无监督聚类)的机器学习技术。 基于以上原理,dagster成员新建了个仓库,并高价刷了star: 这么做的目的是用那些点star的Github账号做聚类分析,标记出一个类。 如果你也想用dagster的方式检测其他开源库,可以参考这里[8]。 /fake-star-detector/blob/main/fake_star_detector/assets/simpler_model.py [5] dagster: https://dagster.io /blog/fake-stars#lets-go-star-shopping [6] dagster: https://github.com/dagster-io/dagster [7] okcash
最近,开源编排平台 Dagster 分享了在抽查一部分代码仓库后,发现了的几位“嫌疑人”,而在 Dagster 披露后,一些账户已经被删除。 Dagster 建立了一个虚构的代码仓库(frasermarlow/tap-bls)并买了一堆 star。 在此之前,Dagster 的代码仓库只有 3 颗 star。由于 Baddhi Shop 的价格更便宜,所以 Dagster 在这个渠道上订购了 500 颗 star,而一周之内对方同样成功履约。 根据这类账户的活动分享日期数(x 轴)和所交互的代码仓库总数(y 轴)可得出下图: 这里列出的就是 Dagster 那个“钓鱼”代码仓库的统计结果,项目得到的 star 几乎 100% 是假的: Dagster 针对一组已知假 star 得到的启发图——几乎 100% 匹配 据实验团队所知,Dagster 项目应该没买过 star,所以他们用 Dagster 代码仓库做了对比。
作者 | Shalabh Chaturvedi 译者 | Sambodhi 策划 | 褚杏娟 背 景 我们使用 Serverless Dagster Cloud 来开发和部署 Dagster 当提交更改到 GitHub 时,GitHub Action 会直接构建和部署代码到 Dagster Cloud,然后可以在界面上查看并与 Dagster 对象进行交互。 Docker 镜像存在的问题 当我们在 GitHub 上构建 Docker 镜像并将其部署到 Dagster Cloud 时,每次提交需要 3~5 分钟才会在 Dagster UI 中显示。 例如,我们可以将 dagster 包和其依赖项打包成单个文件,然后运行它: % pex dagster --python=python3.8 -o dagster.pex% . % pex pandas -o pandas.pex% pex dagster -o dagster.pex% PEX_PATH=pandas.pex .
在无服务器 Dagster 云上,不需要建立本地开发环境或云基础设施,就可以开发和部署 Dagster 代码。 当你向 GitHub 提交修改时,GitHub Action 会直接构建和部署你的代码到 Dagster 云。你可以在用户界面中查看和互动你的 Dagster 对象。 当我们在 GitHub 上构建 Docker 镜像并将其部署到 Dagster 云时,每次提交都需要3到5分钟才能在 Dagster 用户界面上显示出来。 例如,我们可以把 dagster 包和它的依赖项捆绑成一个文件,然后运行它。 % pex dagster --python=python3.8 -o dagster.pex% . % pex pandas -o pandas.pex% pex dagster -o dagster.pex% PEX_PATH=pandas.pex .
/investool webserver 无代码操作 (TODO) 体验下来,dagster是很适合金融数据采集、处理,还有机器学习的场景。 dagster-daemon run & dagit -h 0.0.0.0 -p 3000 策略 部分未整理。。。
Oracle 和 MSSQL 等数据库;Tableau、Superset 和 Metabase 等仪表板服务;消息服务,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster
Oracle 和 MSSQL 等数据库;Tableau、Superset 和 Metabase 等仪表板服务;消息服务,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster
付费:Prefect.io 免费和开源替代品:Apache Airflow、Dagster 可视化和分析 为了更好地了解和解释来自不同数据源的数据。
数据管道与工作流编排使用Airflow, Prefect, Dagster等工具,构建可靠、可调度、可监控的数据处理管道,负责数据的清洗、转换和特征生成。
Oracle 和 MSSQL 等数据库;Tableau、Superset 和 Metabase 等仪表板服务;消息服务,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster
Oracle 和 MSSQL 等数据库;Tableau、Superset 和 Metabase 等仪表板服务;消息服务,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster
Chain → Agent → Tool)MCP(模型控制平面):统一管理多个模型版本控制路由策略(A/B 测试、灰度发布)监控延迟、吞吐、错误率Workflow 引擎:Prefect、Airflow、Dagster
后来出现了Apache Airflow、Prefect、Dagster这些工具,将工作流正式化为DAG,支持监控、重试、模块化和可观测性。
v=JwO08Pk6S_Q&t=4s [148] 使用 GPT3、LangChain 和 Python 构建 GitHub 支持机器人: https://dagster.io/blog/chatgpt-langchain
技术方案需要专门的工作流编排工具(如ApacheAirflow、Dagster)。它们允许数据工程师以代码的形式定义、调度和监控这些复杂的作业依赖关系(DAGs-有向无环图)。
DataOps相关增强的呼声:一些客户表示不知道Informatica的数据集成工具如何与流行的第三方或开源编排和任务工作流管理工具(如dbt、Apache Airflow、Luigi、Prefect和Dagster