首钢园具身智能持续进化!他山科技携手图灵奖顶尖学者激活数字科创“触觉引擎”
当具身智能成为下一代AI的核心战场,如何赋予机器“人类级”的感知与学习能力?
身处北京未来数字空间创新试验区的创新前哨,首钢园园区企业——他山科技给出了令人振奋的答案:回归触觉,回归强化学习。近日,他山科技正式签约图灵奖得主理查德·萨顿教授,双方将通过“机器人幼儿园”模式,探索一条不同于传统模仿学习的“进化路径”。
此次合作不仅助力企业攻克具身智能核心技术,更彰显试验区汇聚全球高端智力、培育前沿科创生态的强大实力,为区域数字产业协同创新树立优质样板。

触觉:具身智能的“最后一厘米”和“最初一厘米”
具身智能与纯数字AI的本质区别在于“具身”二字——智能体必须与物理世界发生真实的、双向的互动。而物理交互之基础、也非常容易被忽视的一层,是接触。视觉能告诉机器人“杯子在哪里”,但无法告诉它“捏多大力才不碎”;语言模型能教会机器人“拿起杯子”这条指令的语义,但无法传递“玻璃表面光滑、需要调整握力”这类物理信息。这些都属于触觉感知攻克的范畴。

他山科技的技术切入,正是在这个产业重要需求点上。公开信息显示,他山科技已自主研发覆盖三维力、摩擦力、材质形变、软硬程度等全维度物理信息的触觉感知技术,其核心能力从底层芯片延伸到信号处理、模态融合、算法适配等全栈环节。与业内常见的“外购传感器+算法集成”模式不同,他山科技选择了一条更具底层控制力的路径。在数据算法层面,“机器人原生”是其中的关键词。人类的触觉经验难以直接迁移给机器——人的手指拥有数千个神经末梢,而机器人的触觉需要从零重建。所谓“机器人原生”数据,意味着采集自机器人自身的传感器系统、记录的是机器人本体在真实环境中交互产生的信号,而非模拟或嫁接的人类数据。
这是触觉作为具身智能“最初一厘米”的技术含义,也是萨顿教授提出的强化学习的核心逻辑。
强化学习,一条以“经验”替代“模仿”的技术路径
具身智能行业目前的主要思路,可以大致概括为“模仿学习+大模型驱动”:采集人类示教数据(如人手操作视频、遥操作轨迹),用大语言或视觉模型进行特征提取和行为映射,让机器人“模仿”人类行为。这一路径在过去两年取得了可观的进展,特别是在结构化环境下的操作任务中表现突出。

萨顿教授提供了一个不同的思考维度。作为强化学习理论体系的奠基人之一,萨顿与导师安德鲁·巴托在20世纪80年代构建的核心框架,其基本理念是:智能体不应仅仅复制人类行为模式,而应通过与环境的直接交互、从自身行动的结果中持续学习。将这一思想延伸至具身智能领域,逻辑是清晰的:如果机器人只学习“人类怎么做”,它优秀的表现也只是无限逼近人类水平。但要应对真实世界中无穷尽的非标场景——比如抓取一个从未见过的异形零件、在光照剧烈变化的仓库中精准分拣——机器人需要一套“自己做、自己试、自己学会”的机制。这正是触觉与强化学习交汇的价值所在。
双方此次合作的初步落地规划,是建立一座“机器人幼儿园”。机器人在放置了工具、食物、植物等丰富真实物品的环境中,自由探索、碰撞试错,依据触觉反馈持续调整行为。“机器人幼儿园”并非简单的数据采集场所,而是一个分阶段的渐进训练体系,从基本的身体自我认知与运动控制,到简单物件操作,再到复杂工具运用与多步骤任务规划逐步进化。这套技术路径与模仿学习路线的本质区别在于:经验直接属于机器人自身,而非人类的二次转录。每条触觉信号、每次失败的抓取、每次逐步优化的施力策略,都被记录为机器人的“成长记忆”,成为其后续决策的基础。

在签约现场,萨顿教授和他山科技特别强调了“开放”一词,希望建立起一个开放的触觉数据共享机制,为整个具身智能的算法迭代提供一个稀缺的公共基础资源。但需要清醒认识的是,这条路径并非坦途。触觉信号的模态复杂度远超视觉,数据标准化进程仍在推进,从单一任务泛化到开放场景的路径仍不清晰。
此次他山科技与萨顿教授的合作,长远意义或许并不在于短期内实现产品级突破,而在于为具身智能铺设一条基础扎实的技术轨道——跳出单纯“模仿”的范式,确立“经验学习”作为一条独立且不可替代的技术路线。推动具身智能从示范性的“能力展示”迈向产业级的“持续进化”。
他山科技的创新探索,为具身智能开辟了全新技术路径,彰显了首钢园培育新质生产力、打造未来产业集群的坚定决心。未来,依托北京未来数字空间创新试验区辐射效应,首钢园将持续优化科创生态、集聚全球资源,鼓励企业勇闯技术“无人区”。期待更多企业汇聚首钢园、扎根试验区,与顶尖学者、产业链伙伴深化协同,让创新成果在这片沃土上持续涌流!
来源:创新石景山
