杨红霞离职深度解析:原达摩院M6带头人为何选择个人发展?
阿里巴巴达摩院智能计算实验室资深算法专家、M6大模型原负责人杨红霞,已于今年9月初因家庭原因离职。
杨红霞的履历勾勒出一条顶尖AI研究者的典型路径。她于2007年毕业于南开大学统计学专业,随后赴美国杜克大学统计科学系深造,师从David Dunson教授并获得博士学位。此后,她先后在IBM全球研发中心担任Watson研究员,在雅虎担任首席数据科学家,积累了深厚的工业级研发经验。
2016年,杨红霞回国加入阿里巴巴达摩院。期间,她专注于可规模化落地的人工智能技术,并带领团队向认知智能这一前沿方向进行探索。
她领导的团队研发了包括AliGraph、M6、洛犀在内的一系列有影响力的人工智能开源平台与系统。团队在顶级会议及期刊上发表论文超百篇,申请中美专利逾30项,并屡获重要奖项:2019年获得世界人工智能大会最高奖SAIL奖,2020年斩获国家科学技术进步奖二等奖及杭州市创新领军团队称号。杨红霞本人也于2022年6月入选福布斯中国科技女性50榜。
在她众多技术贡献中,大模型M6是最为瞩目的成果。据了解,杨红霞此次离职纯属个人家庭原因,达摩院M6团队的后续研发工作将正常推进。
M6:从千亿到十万亿的突破之路
M6模型于2021年3月首次发布,是国内首个公开的千亿参数多模态大模型。其亮相在业界引发广泛关注,OpenAI前政策主管Jack Clark曾评价,该模型的规模与设计“令人惊叹”,并认为这标志着中国AI研究机构的快速崛起。
作为通用AI大模型,M6具备多模态理解与多任务处理能力,在设计、写作、问答等场景表现卓越,在电商、制造、文创、科研等领域拥有广泛的应用潜力。杨红霞曾指出,多模态预训练是下一代人工智能的基石,而M6在训练效率和生成质量上的多项创新,使其一度成为众多中文多模态下游任务的性能标杆。
团队的创新并未止步。2022年6月,杨红霞团队发布了参数规模达万亿级别的M6模型。其关键突破在于训练效率——仅使用480块GPU即实现了万亿参数的智能运算,相比早期的百亿参数模型,功耗降低80%,效率提升达11倍。
四个月后,纪录再次被刷新。团队使用512块GPU,在10天内成功训练出参数规模高达10万亿的模型。这一规模与当时知名的GPT-3相当,但训练能耗仅为其1%。这一成果将高效低碳的大模型训练技术推向了新的高度。
目前,M6模型已实现规模化应用。它不仅服务于阿里巴巴内部近50个业务单元,在阿里新制造平台“犀牛智造”中发挥作用,也通过阿里云对外提供技术服务。其突破性进展被收录于《麻省理工科技评论》2021年度中国AI突破技术报告。
杨红霞的离职是她个人职业生涯的一个节点。而她与团队在M6模型上实现的技术跨越——从千亿到十万亿参数的突破,以及对训练能效比的极致优化,已成为中国AI大模型发展历程中的一个重要里程碑。