具身智能机器人数据采集与训练基地。 ■记者 张军/摄
走进北京亦庄一栋灰色建筑,仿佛闯入了一个正在高速运转的“机器人寄宿学校”。一侧是家庭厨房,灶台上的炒锅还温热;另一侧是商超货架,矿泉水、橙子、洗衣液琳琅满目;转角处是标准办公室,工位、会议桌一应俱全。穿梭其间的“学员”——双足人形机器人“天工”正在货架前反复抓取饮料,轮式机器人“天轶”在办公区练习避障,几只机械臂不知疲倦地重复着“抓取—放置”的动作。
这里是由京城机电牵头成立的北京人形机器人创新中心所属的具身智能机器人数据采集与训练基地。自一期建成投用不到半年,这座近5000平方米的“数据工厂”,正以每月最高1.5万小时的速度,产出全球稀缺的高质量机器人实采数据,向着“全球首个百万小时高质量数据集”的目标全速冲刺。
“方言”不通 场景割裂 机器人“上学”先过三关
外人看来井然有序的场景,在北京人形机器人创新中心具身天工事业部负责人、具身智能机器人数据与训练基地负责人蒋未来眼中,却是另一番图景:“真实世界的每个变量,都可能成为算法的‘拦路虎’。”
这正是人形机器人从实验室走向千行百业的核心难题。不同品牌机器人“方言”不通——A品牌的数据B品牌无法使用;场景千差万别——家庭厨房的操作逻辑无法直接迁移到商超货架;数据质量参差不齐——任何一个采集环节的偏差都可能产出“垃圾数据”。
这座基地正是为破解这些难题而生。从家居到商超,从办公到工业,从医药到康养,30余个典型应用场景被“搬”进室内,每一个场景都不是静态的,而是可动态配置的“数据工厂”——光照条件能调,物体摆放能换,人员动线能改。与之匹配的,是全国构型最丰富的机器人矩阵:超过120台主流机器人设备,既有北京人形自主研发的“天工”“天轶”,也有Aloha、宇树、优必选、Franka等国内外品牌,双足人形、轮式、机械臂、复合型机器人同场“学习”,只为产出能跨越不同本体、适应不同环境的多源异构数据。
每一个场景布置都遵循着“真实、泛化、可复用”的数据采集原则。基地内还建有约200平方米的专业光学动作捕捉场地,通过高精度动捕技术,为机器人拟人化动作的精细度与流畅度提供“显微镜”级的采集标准。
从50%到95% 一场数据质量的“攻坚战”
在基地的数据中控大屏上,实时跳动着每台机器人的工作状态、数据采集进度和质量合格率。目前,这个数字稳定在95%以上。“三个月前,只有50%左右。”蒋未来毫不讳言那段“至暗时刻”。
为了把合格率从50%提升到95%,基地建立了一套完整的“工业化”数据生产流程:采集环节,操作员上岗前需通过标准化动作考核,确保同一任务在不同时间、不同人员执行下的一致性;标注环节,建立多层复核机制,关键动作节点双重校验,只有结果一致才进入下一环节;质检环节,实施“三审制”——一审动作完整性,二审标注准确性,三审场景泛化性。
更重要的是,质检发现的问题会“追溯”回前端。“曝光问题出现后,我们就制定了灯光角度和遮光规范;操作流畅度不够,就细化动作分解标准。”蒋未来形容这像工厂里的“全面质量管理”,让每一个环节的问题都能驱动源头改进。
如今,这座“数据工厂”的质检体系已经能够识别从操作规范到环境干扰、从动作轨迹到标注精度的数十类潜在问题,确保每一条出厂数据都经过严格把关。北京人形通过牵头制定国内首个具身智能数据集行业标准《人工智能具身智能数据采集规范》,明确标准化专业化的采集流程,数据基地已为多家头部企业及科研机构交付超数万小时高质量数据,整体数据合格率稳定在95%以上。
全栈采集能力 让机器人习得“物理直觉”
在基地一角,几名穿着动作捕捉服的工作人员正在执行精细操作任务。他们的动作轨迹被高精度摄像头实时捕捉,同步传输给旁边的机器人。200平方米的专业光学动捕场地内,从关节细微转动到指尖力度变化,都被完整记录。“真机数据能精准还原力觉反馈、触觉信息、环境干扰等仿真难以复制的细节,这些‘物理直觉’只能通过真机采集的多模态数据来训练。”蒋未来解释。
这里配备的全栈式采集装备矩阵堪称豪华:头环式、夹爪式等轻量化采集设备适用于快速部署与规模化采集;高精度动作捕捉服X-sense、动捕手套可精准捕捉人体关节的细微转动,让机器人习得“人的手感”;远程遥操驾舱则支持操作员在千里之外实现真机同步操控。基于此,基地具备了真机遥操作、开放环境采集、动作捕捉采集三大核心采集能力——三者互为补充,可满足不同算法路线对数据模态的差异化需求。
两万小时交付背后 “数据飞轮”加速转动
截至目前,这座“数据工厂”已对外市场化交付超两万小时高质量实采数据,服务客户涵盖多家头部企业及科研机构。数据下载量与交付能力均位居行业前列。
这些数据流向哪里?约70%的产能用于服务外部客户,以模型研发团队为主。“他们要训模型,需要足够的数据源。无论是训练VLA (视觉语言动作)模型,还是训练‘大脑’层面的认知能力,对高质量实采数据的需求都非常大。”蒋未来说。
随着通用机器人平台“天工”在越来越多场景落地应用,这里的“数据飞轮”效应正在加速启动——更多场景带来更多数据,更多数据吸引更多开发者与算法模型,反过来推动数据需求的指数级增长。
走出基地大门,夕阳洒在亦庄的街道上。不远处,越来越多机器人产业链企业正在这片区域聚集。从整机到零部件,从硬件到具身智能服务,一个围绕人形机器人的产业生态正在悄然成形。
发表评论 取消回复