互联网资讯 / 人工智能 · 2023年11月27日 0

免费托管工具上线,支持AI数据集训练类似Git功能

从事机器学习的研究人员常常面临数据管理的挑战。

有时,数据集过于陈旧,必须手动修正标注。

有时,同一数据集的多个版本让人无从下手。

甚至有时根本没有合适的数据集,需要自己创建。

像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

在国外,一位名为SiMon LoUSky的程序员深感不便,开发了一款用于机器学习的数据版本控制工具——数据版本控制(Data Version Control,简称DVC)。

该工具支持一键调用数据集和查看编辑历史,最重要的是,它背后有一个类似GitHub的数据托管社区。

在他的学生时代,SiMon LoUSky就体验到了机器学习数据集管理的诸多不便。

当时,他的模型需要植物和花朵的数据进行训练,但所找到的开源数据集始终无法达到理想效果。

于是,他花费了几个小时逐一修正数据集中大量过时和不合理的标注,最终获得了令人满意的训练结果。

像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

除了这个项目,他随后对许多数据集进行了修正、增补和创建的工作,并将这些耗时的过程称为“数据集的调试与试错”。他开始有意识地记录操作历史。

他逐渐意识到,自己的项目在数据管理方面总是混乱不堪,而依赖GitHub托管的代码则始终保持整洁。

那么,为什么不开发一个类似GitHub的工具,专门用于数据管理呢?

像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

于是,DVC应运而生。

这是一款预装的工具库,具备调用数据集、查看历史操作信息等功能。

它的出现彻底改变了研究人员在本地“死”数据集上训练模型的方式。

用户可以将项目链接到在线托管的数据集(或任何文件),实现实时、准确的连接。数据集的任何更新都会及时通知,极大地方便了项目的开展。

像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

例如,现在有一个名为Repository A的“活”数据集,其中的元数据文件指向存储在专用服务器上的真实大文件。

用户可以将数据集文件组织到目录中,并添加包含实用函数的代码文件,以便于调用。

与此同时,还有一个Repository B,代表相应的机器学习项目,项目代码中包含使用DVC导入数据集的指令。

只需创建一个数据注册表,就能建立A和B之间的联系:

Mkdir My-dataset && cd My-dataset && git init && dvc init

此时,数据集目录将呈现如下:

像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

需要查看数据集相关信息时,只需输入指令:

dvc add annotations && dvc add images && git add . && git commit -m “Starting to Manage My dataset”

数据集的预览将保存在一个目录中,这个目录也会被DVC跟踪。

用户只需将代码和数据推送到托管仓库,即可随时随地访问,并与他人分享。

当然,要充分发挥DVC的作用,离不开其背后的DAGsHub。

像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

DAGsHub是一个类似于GitHub的数据管理版本,由三部分组成:Git仓库、DVC以及机器学习流程平台Mlflow。

用户可以提交自己的项目,DAGsHub会自动扫描提交内容,并提取有用的信息,如实验参数、数据文件和模型链接,并将它们整合到一个简洁的界面中。

像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

DAGsHub允许浏览和比较代码、数据、模型及实验,无需下载任何文件。此外,它还可以生成可视化数据管道、记录数据操作历史并跟踪模型性能,自动且美观。

如何在机器学习项目中使用“活”数据集

使用DAGsHub非常简单,只需注册并登录即可。

像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

通过以下命令安装DVC:

pip3 install dvc

在DAGsHub上找到想要使用的数据集,如何将其导入到自己的模型中呢?

首先,从托管的数据集中导入一个目录,并将其视为原始文件:

Mkdir -p data/Raw && dvc import -o data/Raw/images https://dagshub.com/SiMon/baby-yoda-segmentation-dataset data/images && dvc import -o data/Raw/annotations https://dagshub.com/SiMon/baby-yoda-segmentation-dataset data/annotations

这样,图片和注释将被下载到你的项目中,并保留历史信息。

像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

如果你想查看数据集的变更历史,只需运行命令:

dvc update

可视化结果将返回并保存在默认目录:

像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

是不是非常方便?

值得一提的是,无论是DVC还是DAGsHub,均为开源且免费的,快来试试吧!