不得了!“沪牌”大模型,给人形机器人装上大脑、眼睛、耳朵和嘴巴了!
傅利叶通用人形机器人GRx,能辨别眼前的两瓶饮料,还能根据“想减肥”的需求,给出选择矿泉水而非可乐的建议。
另一位具身智能机器人“飞燕”,能准确地描述“所见所闻”,包括室内环境如何、人们在做什么。
这些多模态能力,来自商汤科技最新发布的新一代“日日新SenseNova V6”大模型。
技术交流日现场,傅利叶通用机器人和观众互动
在10日的商汤技术交流日上,日日新V6风头十足,实现“长思维链+数理能力+推理能力+全局记忆”的能力升级,包括最长64K思维链、大幅领先GPT-4o的数据分析能力、多模态深度推理国内第一、10分钟长视频理解及深度推理等强项。
“AI之道,在于百姓之日用。商汤日日新V6将跨越多模态边界,释放推理与智能的无限可能。”商汤科技董事长兼首席执行官徐立如是说。
商汤科技董事长兼首席执行官徐立发布全新升级的“日日新SenseNova V6”
自研训练技术“硬啃”多模态能力
2025年,大模型发展有三大重要技术趋势:效率至上、多模态、深度推理。
徐立说,有人预计互联网上可用的人类文本数据将在2028年耗尽,但这不代表整个知识都“学完”了——很多知识都蕴藏在大量的图像、视频,甚至3D等其他模态中。
“从人类学习的路径来讲,即使知识的含量一样,多模态的学习方式效率也会更高。”他指出。
这也是为什么,商汤要“硬啃”多模态的原因了。
记者了解到,全新升级的日日新V6原生多模态通用大模型,采用混合专家架构(MoE),拥有6000亿参数,做到三合一:多模态长思维链+多模态强化学习+多模态全局记忆。
商汤科技“办公小浣熊”
技术交流日上,商汤也展示了日日新V6与OpenAI、谷歌、DeepSeek等先进模型在纯文本、多模态、纯文本推理、多模态推理上的具体分数对比,可以看到纯文本任务综合性能优秀,比肩国际一线模型;多模态性能领先,各方面性能突出;具体分数上略有参差。
商汤科技联合创始人、执行董事及人工智能基础设施和大模型首席科学家林达华告诉新民晚报记者,日日新V6采用了自研的原生多模态融合训练技术——这是一种能够将多种模态信息在模型架构和训练过程中进行深度融合的AI模型架构。
“与传统的将语言模型和多模态模型分立的方式不同,它通过桥接技术,如补充训练数据和模态关联机制来实现模态间的协同,避免传统方法中‘跷跷板效应’——增强某一模态能力导致另一模态能力下降。”林达华解释。
现场展示搭载了“日日新V6”的各项应用
视频理解打破限制
只需“喂”上一段柯南片段,日日新V6就摇身一变成“名侦探”展开剖析——它会对整个视频的内容先做一个总结,再按照秒级,对视频片段做内容上的推演。
再给日日新V6“喂”上一段《黑神话悟空》的打斗片段,它不仅能将精彩时刻剪辑出来,还会秒变资深解说员……
技术交流日上,日日新V6在视频理解上的表现,赢得了阵阵掌声。徐立介绍,凭借“全局记忆”能力,它打破了传统模型仅支持短视频的限制,可支持10分钟级视频全帧率解析。
“商汤自研技术可将视觉信息、听觉信息、语言信息和时间轴逻辑进行对齐,形成多模态统一时序表征。”徐立解释,“在此基础上通过细粒度级联信息压缩和内容敏感的动态过滤,实现长视频的高比例压缩,10分钟视频可以压缩到 16K tokens,仍然保留关键语义。”
林达华透露说,今年商汤将把视频理解支持时长进一步提升到1小时。
现场演示了给小朋友辅导数学题的场景,传统大模型只会提供千篇一律的标准答案,无法基于不同的解题思路提供指导;而日日新V6不但能识别手写体,还能够提供针对错误点的一对一引导式讲解,并给予精准辅导。
在家庭场景,很多家长没有时间读绘本,或者得绞尽脑汁地给孩子讲故事——现在也可以由大模型代劳了。日日新V6能实现连续记忆与时序逻辑理解,讲述更完整生动的故事,还能挖掘故事深意,升华主旨。
泰州学派提出,“圣人之道无异于百姓之日用”。在徐立看来,“AI之道无异于百姓之日用”——在通用人工智能时代,大模型变成了老百姓的日用品,在很多的细分场景中能带来价值闭环。
日日新V6的多模态能力可用于文旅
实现更生动、更智能人机互动体验
商汤认为,大模型在商业应用上有两个关键价值:融入真实的业务应用,优化与人交互体验。
真实世界发生的对话,不会像和大模型“沟通”时那般把每个指令都描述得完整清晰,可能随手指着一个东西提问:“那个是啥?”“这有什么用?”
对应到机器人亦是如此。技术交流日上,商汤还开启了与多家具身智能头部企业的战略合作——多模态大模型可以成为机器人的大脑和眼睛,增强感知能力,像人一样进行深入思考和自然表达,还有更强的记忆力。
傅利叶与商汤科技战略合作签约
“通过合作,傅利叶GRx实现了更生动、更智能的人机互动体验,显著增强了它在导览咨询、医疗康复、教育培训等多样化应用场景中的表现。”现场展台工作人员表示,伴随大模型技术的进步与演进,GRx也将持续优化机器人本体能力,更好地适应复杂环境,完成更多元任务的能力,加速人形机器人更广泛地融入日常生活。
上海归墟机器人科技有限公司也把日日新搭载到了“飞燕”机器人上,使其具备全景视界感知、情感交互及心理健康筛查功能。
值得一提的是,大模型技术的高效落地与规模化应用,离不开高效稳定的算力底座。商汤科技联合创始人、大装置事业群总裁杨帆透露,商汤大装置已经将多模态推理应用的成本降到和大语言模型一样。
据悉,国产芯片参与了日日新V6的训练,而商汤也将持续对进口及国产芯片做适配和优化,希望能提供市场最优的性价比。
商汤大装置宣布今年发放1亿代金券,全栈赋能场景落地
“日日新”,源自我国古代经典《礼记·大学》中的名句“苟日新,日日新,又日新”。其本意是如果一天能够自新,就该天天自新,持续不断地革新。回过头来看,从V1到V6版本,商汤日日新的发展速度确实做到了“日日新”:平均3—4个月便会有一次迭代。新民晚报记者了解到,当前,商汤正致力于通过基础设施、大模型和应用的协同迭代,成为“最懂算力的大模型服务商”和“最懂大模型的算力服务商”。