提出了一个具有70亿参数的具身多模态动作模型 EMMA-X,通过在有根据的链式思维(CoT)推理数据上微调 OpenVLA 创建而成。 通过合成构建了一个层次化的具身数据集,该数据集来自现有的机器人操作数据集,包含了3D空间运动、2D夹爪位置和有根据的推理。 提出了 ...
从全新的视角系统地对各种编辑指令进行分类,并创新性地引入了一个统一的编辑框架,该框架利用自适应编辑 pipeline自动收集不同场景下的多样化高质量编辑数据,从而以可扩展的方式进行处理。 构建了一个多类型、多场景的数据集AnyEdit,并为其设计了相应 ...