Facebook用逼真物理建模构建智能具身化AI、AR

查看引用和消息源请点击:映维网

释放AR眼镜的潜力,并帮助人们更好地理解周遭的世界,同时以强大的新方式帮助人类进行沟通和协作。

映维网 2019年06月15日)当AI机器人穿过房间时,它会经过两个沙发,一张咖啡桌和数张棕褐色椅子。在地毯打转一番后,它朝研究人员所要求的钥匙径直走去。

但这实际上是Replica项目的一次数字模拟。对于这项研究,Facebook Reality Labs(FRL)针对18个样本空间创建了照片级真实感的副本,如办公室和双层房屋。

为了帮助AI研究人员向机器提供真实物理世界的感知,FRL开发了所述的虚拟空间 ,而这是开发出更强大的现实助手,以及下一代增强现实和虚拟现实体验的重要一步。Facebook的想法是,如果研究人员能够训练人工智能系统在一个逼真的数字客厅中定位一组虚拟钥匙,机器人最终将能够在真实房间中定位真实的钥匙。如果AR/VR应用程序可以学习如何与不同的物理环境进行交互,未来我们将能够通过照片级真实的数字化身来参加远方亲人的生日聚会。

研究人员相信,如果模拟环境能够捕捉到细微的细节(如镜面反射和地毯纹理),他们将能最大化训练效果。这正是FRL开展Replica项目的原因。

这个视频显示了Replica模拟与真实世界空间(左边是真实世界;右边是数字副本)

“Relica数据集为真实空间的三维重建真实性和质量设定了新标准。”FRL科学家朱利安·斯特拉布(Julian Straub)如是说道。斯特拉布曾在德国研读了电子工程学,并在麻省理工学院获得了计算机科学博士学位,然后加入FRL并专攻机器感知。首席科学家迈克尔·亚伯拉什则指出,FRL的使命是开发帮助AR和VR成为下一个计算平台所需的技术。诸如Replica这样的项目将在实现这一愿景的过程中发挥重要作用。

这是FRL创建的一个数字Replica环境

Replica精确性和保真度得益于精心设计的摄像装置,深度捕获系统,SLAM系统,以及密集重建系统的有机组合。利用以红外线投射到场景中的点,FRL的高精度深度捕获系统能够捕获桌子和椅子等大型物体和遥控器等小型物体的精确形状。

定制的SLAM和密集重建系统可以将摄像装置捕获的原始视频流转换为真实空间的副本,而即使是最为细心的用户都难以区分真假。(更多细节请参阅Replica数据集白皮书,以及团队于2018 SIGGRAPH大会的演讲介绍 )。

研究人员在陌生的Relica环境生成了一个虚拟机器人。位置随机(蓝点),然后它将要导航到目的地(红点)。研究人员向机器人给出相对于其起始位置的指令,例如“向北10米和向西15米” ,但不提供地图。机器人必须仅利用感官输入(常规RGB摄像头,某些情况包括深度摄像头)来完成目标。

1. 一小时内练习数百万次任务

Replica可以加载到AI Habitat。AI Habitat由Facebook AI开发,是一个用于具现AI研究的全新开源平台,同时旨在成为研究人员在模拟空间中训练和测试AI机器人的最强大和最灵活方式。AI Habitat允许研究人员将机器人置放于Replica环境中,并学习如何处理不同的任务,比方说“看看我的笔记本电脑是否放在厨房的桌面上”。这种任务对于人类来说非常简单,但机器人则不然,因为它们必须识别对象,理解语言,并有效地进行导航。今天的机器人(如智能扫地机)可以响应命令,但无法像人类那样理解和适应周围的世界。AI Habitat可以帮助研究人员开发能够理解物理世界的机器人。但它同时是创造下一代AR体验的重要研究工具。如果我们能够训练AI系统理解你周围的物理空间,未来有一天我们或许可以将它融入至AR眼镜。例如,它可以将你奶奶的数字副本逼真地置放于沙发之上,或者当你走过餐馆或商店时显示相关的用户评价。

Replica提供了逼真的3D数据,而AI Habitat则为模拟提供了速度和灵活度。尽管其他模拟引擎通常能够以每秒50帧到100帧的速度运行,但AI Habitat的运行速度超过每秒10000帧(单个GPU的多进程)。这使得研究人员能够更加快速地测试机器人。如果说另一个模拟器需要运行数个月的时间,Habitat只需数小时即可完成。Facebook AI研究实习生、佐治亚理工学院博士后埃里克·韦杰曼斯(Erik Wijmans),以及AI Resident巴瓦纳·杰恩(Bhavana Jain)利用这个系统来进行最先进的研究,用超过10亿帧的体验来训练机器人。虚拟机器人同时可以不断犯错,但无需担心损坏的风险,如撞墙摔倒等等。

Facebook现在已经开源了AI Habitat并发布Replica数据集,所以社区中的任何人都能够以其作为基础进行探索,尝试新方法,比较结果并从其他人的研究中学习。(关于Habitat的技术细节请访问这个页面Replica环境则托管至GitHub。)。Facebook表示,不同企业和组织的研究人员之间的信息公开共享是自然语言理解,计算机视觉等人工智能技术进步的关键,而Facebook AI和FRL相信这对AI Habitat和Replica而言同样如此。

为了建立可供所述领域中的所有人使用的性能基准,Facebook AI最近组织了一次Habitat Challenge挑战赛,邀请来自AI社区的工程师和研究人员为机器人完成特定导航任务寻找最佳的方式。

Replica数据集数能够识别并标记在虚拟空间中确定的对象,为不同类别的对象分配不同的颜色,如“椅子”或“墙壁”。AI研究人员可以利用这种“语义分段”数据来开发出更智能的系统。

Habitat团队负责人、Facebook人工智能研究科学家兼乔治亚理工学院教授领杜鲁弗·巴特拉(Dhruv Batra)认为,这种技术有朝一日可以帮助机器人学会如何智能地适应现实世界,不再仅仅局限于我们的智能手机或笔记本电脑。他与同事将其描述为从“互联网人工智能”变成“具身化人工智能”。这意味着在训练机器不仅要利用静态数据集(如汽车照片),同时需要采用交互式环境(如充满模拟汽车的模拟停车场)。巴特拉和众多AI研究人员都认为,这种交互式对于构建能够在物理世界和数字世界中帮助我们的全新智能工具浪潮而言非常有必要。

2. 打造能够创建“社交临场感”的工具

利用AI Habitat等开放式平台模拟来训练系统,研究人员可以在具身化人工智能技术方面取得进展。例如,巴特拉认为未来的工具可以帮助视障人士更好地导航周遭环境。

FRL研发总监理查德·纽科姆(Richard Newcombe)指出,其中一个令人兴奋不已的应用是将“社交临场感”带到物理世界。今天的虚拟现实能够允许用户与数百公里之外的朋友共享虚拟空间。纽科姆正致力于通过通过AR眼镜为体验带来进一步的逼真感,并在日常生活中实现社交临场感。有了这项技术,朋友和家人在未来将能以莱雅公主般的逼真全息图出现在你身边。为了创造这种社交临场感,AI系统需要支持数字化身自然而逼真地来与物理空间进行交互,或者能够将你传送至一个仿如真实的模拟环境。

纽科姆解释说:“就像FRL在研究虚拟人类时所实现的人类临场感捕获与传输一样,我们的重建研究能够实现仿佛置身于一个地方的感觉,如办公室,家里,商店,博物馆或咖啡店。”这位Facebook的研究人员热衷于开发能够感知和理解世界情景的技术。他16岁就开始涉足这个领域,并在埃塞克斯大学攻读机器人,计算机视觉和机器学习,并于伦敦帝国理工学院获得了博士学位。他于四年前加入Facebook,然后开始领先致力于实现AI和XR应用程序机器感知未来的研究和孵化团队。Replica的面世是实现这一目标的重要一步。

另一个Replica环境能够捕获诸如电源插座和书柜玻璃门背后的物体等细节。

3. 一种负责任的开源方式

打造诸如社交临场感之类的体验将需要硬件方面的突破,以及Replica和AI Habitat等训练资源的持续进步。但纽科姆指出,这同时存在重要的隐私和安全考量。

他指出:“我们必须孜孜不倦的地生成重建,场景理解,以及AI推理系统。”。研究人员和工程师,以及外部专家和公众需要通过合作来解决变革性技术对社会和个人的影响。要做到这一点,企业必须保持公开透明的态度,并分享最新的进展。在F8大会,Facebook介绍了最近关于道德设计和解决偏见的研究,而这对于AR体验和具身化AI的研究进展非常重要。

对于Replica扫描,研究人员将匿名数据,删除可识别个人的任何详细信息(例如家庭照片)。在构建这种3D重建技术时,FRL研究人员同时需要确保这是一个强大的安全系统。例如,数据安全地存储在服务器中,而且只有有限数量的研究人员能够访问。另外,团队定期与隐私,安全和系统方面的专家进行联合审查,从而确保他们遵循相关安全协议并实施最新和最严格的保障措施。只有在完成所述步骤后,他们才会向更广泛的研究社区提供扫描数据。

在AR社交临场感和高级AI助手等技术成为现实之前,我们需要更多的技术突破。例如,Facebook AI研究人员正在探索通过AI Habitat构建逼真物理建模的方法,从而帮助AI机器人理解当它碰到虚拟桌面上的虚拟玻璃杯时会发生什么情况。随着这个项目的开展,Replica和AI Habitat的研究人员相信它们将在Facebook的未来中发挥重要作用。通过实现下一代具身化AI,这种技术将能释放AR眼镜的潜力,并帮助人们更好地理解周遭的世界,同时以强大的新方式帮助人类进行沟通和协作。

纽科姆最后说道:“通过将AR眼镜作为一个平台,社交临场和AI助手将能帮助你实现最高的效率,并为你呈现你所希望看到的世界。”

本文链接https://news.nweon.com/62369
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

更多阅读推荐......

资讯