谷歌DeepMind于6月24日发布的Gemini Robotics On-Device模型,确实是一个重要的进步,它为机器人技术领域带来了几个关键的优势:
1. 自主性和灵活性:该模型允许机器人在没有云端连接的情况下运行,极大地提高了机器人的自主性和灵活性。
2. 隐私和安全性:由于数据处理完全在本地进行,这减少了将敏感数据(如家庭或医疗环境中的视觉数据)上传至云端的需求,从而增强了隐私保护和数据安全。
3. 多模态理解能力:Gemini Robotics On-Device模型是一个集成的视觉语言动作(VLA)模型,能够处理视觉输入、自然语言指令和动作输出,这种多模态理解能力使得机器人能够对全新的指令和场景进行泛化理解和响应。
4. 泛化能力:与需要云端支持的模型相比,On-Device模型在多项泛化能力基准测试中的表现非常接近,甚至在某些情况下优于之前的本地化模型。
5. 可适应性和通用性:谷歌强调,这是其首个开放给开发者进行微调的机器人VLA模型,开发者可以根据特定需求对模型进行定制化训练。
6. 跨平台通用性:该模型不仅在谷歌自家的ALOHA双臂机器人上进行训练,还成功适配到了多种第三方机器人上,显示出良好的跨平台通用性。
7. 安全性考量:谷歌建议开发者采用多层安全策略,包括利用Gemini Live API的安全层进行语义和内容审查,以及在硬件层面部署安全控制器,以确保机器人的行为安全、可控、可预测。
8. 受信任的测试者计划:谷歌启动了“受信任的测试者计划”,邀请开发者和研究人员使用Gemini Robotics On-Device模型及其软件开发工具包,进一步推动该技术的发展和应用。
总的来说,Gemini Robotics On-Device模型的发布标志着机器人技术向更高级别的自主性和智能性的迈进,同时也为未来的机器人应用提供了更多可能性。