Skip to content

【开源任务】GraphNet 计算图收集 #44

@JewelRoam

Description

@JewelRoam

一、GraphNet:向庞大计划迈出第一步

你愿意成为 下一代 AI Infra 机床 的共创者吗?
我们欢迎所有开发者,加入 Graphnet 贡献墙。

当前,深度学习模型数量日益庞大,却严重依赖于手动内核优化(如算子融合),使得模型和编译器算法与特定硬件紧密相关,严重增加了高性能开发的成本。而 AI for Compilers 通过将深度学习集成到张量编译器后端中,从而快速探索出最优性能。可以预计,随着大语言模型的快速发展,智能编译器将在各种硬件平台上自动传输算子融合模式,实现 AI Infra 的端到端优化。我们称之为 AI Infra 机床:“A machine tool that builds tools”。

为了支持此愿景,受 ImageNet 之于 CV 领域的启发,我们提出 GraphNet,计划构建一个 大规模计算图集合,包含逾百万张计算图,覆盖跨越NLP、CV和多模态的50余个模型类别,旨在作为训练和验证 AI 驱动的张量编译器的标准数据集。为了确保样本规模、正确性和丰富度,我们设计了一套简洁而强大的约束规则,确保计算图抽取过程可复现,并支持编译器评测与性能优化研究。

我们坚信,GraphNet 将为 “AI for Systems” 以及 “System for AI” 的新一代研究奠定基础。

参与本项活动,您将了解 GraphNet 开源数据集的设计,以及我们后续的 AI4C 张量编译机床构想,学习 Pytorch / Paddle 框架组件的调试技能,并积累向 Paddle 开源社区贡献的经验。

二、任务注册

由于 GraphNet 计划优先增广数据集的丰富度、拆解粒度,同时避免更新延迟导致重复劳动,开发者需要预先登记目标任务(例如特定模型on特定框架):

  1. 检索该任务是否已被注册,任务列表见 腾讯文档

  2. 按照文档内格式填写

    1. 区分不同模型类型的工作表(多模态、CV、NLP、语音、RL & Robotics、其它)
    2. 填写模型名称、来源框架、认领人 Github id
  3. 等待 GraphNet 团队审核(请关注 “任务注册审核” 列)

    1. 我们将第一时间处理,至少每天1次——对于大部分任务将保持开放,从而保证效率;
    2. 少数情况下,例如一类已收集过多数据且被判定为低价值的模型,我们有可能需要跟您商量调整;
    3. 如需加急审核,请在微信群里@我们。
Image
  1. 审核通过,请开始推进任务;审核未过,请调整任务
  2. 对于成功注册(领取)的任务,我们将锁定一周并不允许其他人重复注册;在一周后若未能完成,则可以被其他人领取。

三、贡献流程

请参阅中文的 共创者指引 或英文的 Co-Creation Tutorial

四、验收标准

我们的检查过程基于CI工具,如果 GitHub Actions 工作流显示 绿色成功状态,PR 可给 GraphNet 团队 Review,Approve 后可被合并;
Image

若失败,开发者需根据 PR 的 Checks 标签页 中的错误日志,更新提交 PR 触发新的检查。

其核心检查环节与 Validation API 一致,验证8项 GraphNet 数据集约束(Dataset Construction Constraints)。

其它的要求:

  1. 1个 PR 只包含1个模型修改(计算图或脚本)
  2. 遵守 PR 填写模版
  3. 没有重复先前已完成的工作

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Projects

Status

Done

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions