想象一下,如果每次你需要完成一项复杂的体力任务时都有一个世界级的专家来指导你完成整个过程,告诉你关键的步骤和注意事项,并且能够根据你的技能组合调整说明,在正确的时间提供指导,并适应过程中可能出现的任何错误、困惑或干扰。
构建一个可以帮助你完成现实世界中任何任务的交互式人工智能系统需要什么?为了开始探索这样一个系统所需要的核心能力,微软开发并发布了一个用于研究混合现实任务辅助的开源研究平台和试验台原型:情境交互式指导、监测和辅助系统SIGMA。
微软表示,SIGMA为研究人员探索、理解和开发在物理世界中实现步骤式任务辅助所需的能力提供了基础。
团队指出,生成式人工智能和大型语言、视觉和多模态模型的最新进展可以为开放领域知识、推理和生成能力提供基础,以帮助实现这种开放式任务辅助场景。然而,构建与现实世界中的人协作的人工智能系统需要的不仅仅是生成相关指令和内容的能力。为了发挥作用,相关系统同时需要物理智能(physical intelligence)和社交智能(social intelligence)。
物理智能和社交智能
为了帮助人工智能系统与现实世界中的人们流畅地合作,它们必须不断地以多模态的方式感知和推理周围的环境。这个要求不仅仅是检测和追踪对象。物理世界中的有效协作需要理解哪些对象与手头的任务相关,它们的可能用途是什么,它们如何相互关联,哪些空间约束在起作用,以及所有这些方面如何随着时间的推移而演变。
和对物理环境进行推理一样重要的是,系统同时需要对人进行推理。这种推理不仅应该包括关于身体姿势、言语和动作的low level推理,同时应该包括关于认知状态和实时协作行为的社会规范的high level推理。例如,上面设想的人工智能助手需要考虑以下问题:用户是否感到困惑或沮丧?他们会犯错误吗?他们的专业水平如何?他们是否仍在执行当前的任务,还是已经开始并行地做其他事情?现在是打断他们或提供下一个指令的好时机吗?……
情境交互式指导、监测和辅助系统SIGMA
所以,微软开发了SIGMA,并将其作为一个平台来调查相关挑战并评估开发新解决方案的进展。
SIGMA是一个交互式应用程序,支持HoloLens 2设备。它结合了各种混合现实和人工智能技术,包括大型语言和视觉模型以指导用户完成程序任务。任务结构化为一系列步骤。其中,相关步骤既可以在任务库中手动预定义,又可以使用GPT-4等大型语言模型动态生成。
在整个交互过程中,SIGMA可以利用大型语言模型来回答用户在过程中可能遇到的开放式问题。另外,SIGMA可以使用像Detic和SEEM这样的视觉模型来检测和追踪环境中与任务相关的对象,并在适当的时候向用户指出它们。
在人工智能和混合现实的交叉点进行研究
SIGMA设计为一个研究平台。微软将系统开源的目的是帮助其他研究人员跳过将全栈交互式应用程序组合在一起的基本工程挑战,并允许他们直接关注未来有趣的研究挑战。
相关设计选择旨在支持构思的研究目标。例如,系统实现为一个客户端-服务器架构:一个轻量级的客户端应用程序运行在HoloLens 2设备。它捕获各种多模式数据流,并将其实时发送到一个更强大的桌面服务器。
桌面服务器实现应用程序的核心功能,并向客户端应用程序传输信息和命令,以便在设备渲染。这种架构使得研究人员能够绕过当前头显的计算限制,并为将应用程序移植到其他混合现实设备创造了机会。
SIGMA以Platform for Situated Intelligence作为基础。其中, Platform for Situated Intelligence(PSI)这个开源框架为开发和研究多模态集成人工智能系统提供了结构、工具和组件。底层PSI框架支持快速原型设计,并提供高性能的流媒体和日志基础架构。这个框架为数据重播提供了基础设施,支持在应用级别进行数据驱动的开发和调优。最后,平台的定位智能工作室提供了广泛的支持可视化,调试,调优和维护。
SIGMA目前的功能相对简单,但系统为发现和探索混合现实和人工智能交叉领域的研究挑战提供了一个重要的起点。从计算机视觉到语音识别,一系列的研究问题,特别是当涉及到感知时,都可以基于收集的数据集进行研究。最近行业对以自中心数据和相关挑战的兴趣增加,这为推进所述技术的发展提供了重要的动力。然而,众多与交互和实时协作有关的问题只有在实时端到端系统中才会出现,并且最好在与实际用户的交互情景中进行研究和理解。
微软指出,SIGMA是公司对探索人工智能和混合现实持续承诺的证明。微软同时为一线员工提供了一个企业级的混合现实解决方案Dynamics 365 Guides,并已经集成结合Copilot。对于Copilot in Dynamics 365 Guides,人工智能和混合现实正共同为一线工作人员提供逐步的程序指导和工作流程中的相关信息。Dynamics 365 Guides是面向企业客户的功能丰富的产品,面向执行复杂任务的一线工作人员。相比之下,SIGMA是一个仅用于探索性研究目的的开源测试平台。
如果你有兴趣在自己的研究中学习更多和使用SIGMA,请访问这个页面。微软表示:“我们非常高兴与开源研究社区合作,在这个令人兴奋和充满挑战的领域取得更快的进展。”