商汤发布“日日新”大模型体系,根据真人视频生成数字人,还能对话“商量”
上海财经网【上海财经号】:
今天举行的技术交流日活动上,商汤科技分享了以“大模型+大算力”推进AGI(通用人工智能)发展的战略布局,并发布了“日日新SenseNova”大模型体系。
这个体系包含自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力,如语言大模型“商量SenseChat”具有多轮对话和超长文本的理解能力,还能帮助开发者更高效地编写和调试代码;又如“如影SenseAvatar”数字人视频生成平台,仅需一段5分钟真人视频素材,就可以生成声音和动作自然、口型准确、会说多语种的数字人分身。
AI大装置支撑大模型研发
当前,开发人工智能大模型成为业界潮流,对大算力的需求非常旺盛。商汤历时5年建设了AI大装置SenseCore,装置上共有27000块GPU芯片卡,可以输出5.0exaFLOPS总算力,每秒能完成百亿亿次浮点运算,是亚洲最大的智能计算平台之一。基于大装置的能力,商汤构建了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型。
“在AI大模型时代,数据、算法和算力这三要素在经历新的演变,大模型参数量将以指数级的速率提升,而数据量随着多模态的引入也将大规模增长,必然会导致算力需求的剧增。”商汤科技董事长兼首席执行官徐立说,“我们利用AI大装置打造了‘日日新SenseNova’大模型体系,这个名字寓意‘苟日新、日日新、又日新’,希望在模型的迭代速度及处理问题的能力上日日更新,不断解锁AGI的更多可能。”
商汤科技联合创始人、首席科学家王晓刚表示,AGI催生了新的研究范式,即基于一个强大的多模态基模型,通过强化学习和人类反馈不断解锁基模型新的能力,从而更高效地解决海量的开放式任务。AGI将实现从“数据飞轮”到“智慧飞轮”的演进,最终迈向人机共智。目前,公司已建立全栈的大模型研发体系,并在多个行业场景中落地。“我们将持续推动基础设施建设,期待与合作伙伴一起投入AGI的时代大潮。”
据介绍,“日日新”为政企客户提供了多种灵活的API接口和服务,包括图片生成、自然语言生成、视觉感知通用任务与标注服务。客户可根据实际应用需求,调用大模型的各项AI技术能力,低门槛、低成本、高效率地实现各类AI应用。
具有视听和语言多模态能力
这个大模型体系已为商汤自身的业务带来了诸多突破。如在智能驾驶领域,基于视觉大模型,商汤实现了可识别3000类物体的BEV环视通用感知算法的实车量产,并构建了感知决策一体化的自动驾驶多模态模型,带来更强的环境、行为、动机解码能力。
除了视觉能力,“日日新”也包含语言大模型“商量SenseChat”。这是一个千亿级参数的自然语言处理模型,经过大量数据训练,并充分考虑了中文语境,能更好地理解和处理中文文本。
活动现场,“商量”展示了多轮对话和超长文本的理解能力,还展示了语言大模型支持的几项创新应用:编程助手,可帮助开发者更高效地编写和调试代码;健康咨询助手,为用户提供个性化的医疗建议;PDF文件阅读助手,能从复杂文档中提取和概括信息。
“日日新”还有AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用。其中,“秒画”文生图创作平台具有光影真实、细节丰富、风格多变的文生图能力,可支持6K高清图生成;“如影”数字人视频生成平台仅需一段5分钟的真人视频素材,就可以生成出来声音和动作自然、口型准确、会说多语种的数字人分身;“琼宇”和“格物”3D内容生成平台可以高效、低成本地生成大规模三维场景和精细化物件,为元宇宙、虚实融合应用打开新的想象空间。
无论是语言大模型,还是文生图或数字人生成,都离不开大规模AI基础设施的算力支持。目前,SenseCore大装置最多可支持20个千亿参数量大模型同时训练,最高可支持万亿参数超大模型的训练;已支持超过10个大模型训练项目,为8个客户提供了大模型训练服务。
未来,基于AI大装置和“日日新”大模型体系,商汤将向行业伙伴提供涵盖自动化数据标注、自定义大模型训练、模型增量训练、模型推理部署、开发效率提升等多种大模型服务,促进行业生态繁荣,共同实现通用人工智能的技术突破。