我的机器学习数据集在DVC中。用DVC + git对dataset进行版本比较简单。
现在,由于所有的培训和部署已经转移到顶点AI,我正在尝试版本我的数据集。
我的数据集变化很大,例如,每个月我都必须从生产中获取新特性,它将成为dataset的新版本,或者可能是新特性的添加。
目前,我正在通过UI手动上传数据集,但我没有找到用新版本更改/更新数据集的任何选项。
发布于 2022-10-05 18:55:11
目前没有任何版本可供选择的数据集。如果底层数据相同,则可以导出注释集(查看注释集时右上角的“雪人”菜单中的第一个选项),导入注释集,并手动跟踪/标识版本。这有点麻烦,肯定不是一个最佳的用户体验,但它可以工作。
如果您需要对整个数据集进行版本化,那么在不手动管理/命名/跟踪数据集的情况下,目前没有一种很好的方法来做到这一点。
根据您的用例,BigQuery可能作为源,然后数据可以从那里导入到顶点数据集中。这可能会有帮助:https://christianlauer90.medium.com/how-to-realize-data-versioning-in-google-bigquery-fb5044a0691f
https://stackoverflow.com/questions/73909298
复制相似问题