Meta的虚拟现实(VR)和增强现实(AR)如何通过人工智能(AI)进行转型

Meta's VR and AR transformation through AI

随着科技界的每个人都宣布人工智能涵盖一切,并且苹果为明年准备了首款VR/AR头戴设备,Meta在最近的开发者专属Connect大会上发布的最新消息同时涉及了这两个领域。从某种意义上说,所宣布的产品非常直接:本月稍后将推出新的图形增强版Quest 3以及改进的配备摄像头和音频功能的Ray-Ban眼镜。Meta还宣布推出了一系列以人格驱动的人工智能聊天机器人,以及一款名为Emu的生成式人工智能图像和贴纸制作工具。

自从Oculus被Facebook收购之前,我就一直关注Meta在虚拟现实和增强现实领域的动态,并且去年还参观了Meta的研究实验室,以了解未来的发展方向。但是在2023年年底,我们似乎更加清楚地认识到我们所熟知的“虚拟现实”和“智能眼镜”正在发生转变。Quest 3具有类似于苹果Vision Pro的混合现实功能,有时感觉就像是AR眼镜的虚拟现实形式。明年的眼镜将开始搭载人工智能,能够识别物体并翻译文本,几乎像是没有显示屏的Google Glass或某种早期的AR眼镜原型。而且,由于高通最新一代更强大的芯片,两者都应该能够运行谷歌的对话式人工智能,可能还有更多功能。

观看这个视频:

为了更好地了解Meta如何将虚拟现实、增强现实和人工智能结合起来,我采访了Meta的首席技术官兼产品负责人Andrew Bosworth,询问了关于未来的问题。关于三星的预期设备怎么样?Quest 3上的眼球追踪技术呢,它在Quest Pro上有,但在Quest 3上却没有了?以及混合现实中的Beat Saber呢?

以下对话进行了轻微编辑以提高清晰度和长度。

您认为Meta的Quest 3、智能眼镜和人工智能之间的关系如何? Bosworth:如果你画一个框和箭头的架构图,我们长期以来一直展望的增强现实的其中一个框就是人工智能……(笑)。在这个行业中,很少有一种技术能够解决你的问题而不需要你积极追求它。但是这种情况似乎发生了(对于人工智能而言)。

如果你在两年前或者甚至去年问我和Meta现实实验室的首席科学家Michael Abrash,AR能否成功的最大风险是什么……虽然这些显示器很难做到,渲染也很难做到,但最大的风险是人工智能。作为人类,你期望拥有一个能够看到你所看到的界面,能够听到你所听到的声音,具备常识的界面。而我们提供常识的能力很低。这就是问题所在。

我们对[这款新的Meta人工智能]感到非常满意,它真正解决了我们的问题。人工智能一直是我们愿景中的关键部分,只是现在我们真正能够将其付诸实践。

Meta一直承诺推出能够看到你所看到的人工智能助手智能眼镜。明年的Ray-Ban眼镜上这些功能将如何实现?Bosworth:目前,从功耗的角度来看,你需要激活这些眼镜。随着时间推移,我们正在努力达到这样的目标:拥有足够低功耗的传感器,能够检测触发意识到、从而激活人工智能的事件。这真的是我们正在努力实现的梦想。我们正在研究这些传感器,我们正在研究这种事件检测。以前我们之前称之为“指挥者”的东西,也就是决定…现在是个好时机吗?你和我正在面对面交谈,所以我们可能应该把界面清除掉[在未来的AR眼镜上]。如果我妻子给我发短信说要买东西,就不要显示出来。但如果你给我发短信说孩子生病了,需要我立即帮助,就应该显示出来。那么,你如何做到这一点呢?

我们从第一代到第二代,再到这些Ray-Ban Meta眼镜,学到了很多东西。我们在硬件方面取得了进展,逐步在使事物变得更好、更便宜方面做得更好。同时,我们在解决人工智能方面的一个关键软件问题。

Meta的带有人格和名人面孔的人工智能聊天机器人将出现在Facebook应用程序和Quest 3上的虚拟现实中,但还没有出现在智能眼镜上。

Scott Stein/CNET

这些人工智能眼镜也会有个性吗,还是只是一个普通的助手?Bosworth:Meta人工智能更像是一个代理模型。所以我认为人工智能的未来可能是代理和个人助手之间的分离——代理是外部的东西,你去找它们,它们有自己的氛围,你去与它们互动;而个人助手则是我所说的个人助手。

AR眼镜将能看到我看到的一切;他们将能看到我发送的每条私密消息。他们将能看到我访问的每个网站。我希望他们这样做,因为这将帮助他们帮助我,那将是很棒的。他们需要保密。真的很保密。你懂的,真的很谨慎。

通过插件,他们还能为我安排预约吗?当然可以。他们还能替我回复消息吗?当然可以,我可以信任他们。但他们需要属于我。我的私人个人代理。而不是Meta AI助手。Meta AI是您的通用代理。我可以来和它聊天,你知道,一些通用的事情。这是我们要从这里开始的。我认为最终会在AR中出现的是一个非常个人化的版本。它有希望拥有扩展记忆的能力,能够学习和了解您…以及非常多的谨慎。

Quest 3看起来是混合现实发展的起点。但还有很多可以发展的地方,比如增强现实,那些小工具[你宣布的]。你对Quest 3的看法是怎样的?Bosworth:人们忘记了当[Rift]推出时,没有人知道如何在VR中进行移动。没有人知道如何做这些基本的事情。一个游戏会碰巧发现一个很棒的机制。然后每个游戏都会模仿那个机制。消费者学会了那个机制。现在他们知道了,这并不困难。

我们有很多理由认为[混合现实]很棒。我们正在做很多事情。我认为我们还没有了解其中一半。开发人员将会发现新奇的事物。混合现实的某些方面我认为已经更加发展成熟。我们有一个外星人入侵的游戏,《First Encounters》,外星人从墙上出现。我们将这些理解为经典游戏的一部分。混合现实的某些方面只是我们已经很熟悉的事物的酷炫版本。这是第一天的价值。然后还有增强:我们来试试看。

我们现在开始这项工作如此重要的原因之一是,随着时间的推移,它最终会成为AR生态系统。从这里到那里的时间会很长,但你不能越早开始越好。

很快将有很多适合Quest 3的游戏,但还没有Beat Saber。

Scott Stein/CNET

为什么混合现实中还没有Beat Saber [在Quest 3上]?因为那似乎是如此完美的应用。还有Supernatural,你们的健身应用。Bosworth:我们确实在内部看过混合现实版本的Beat Saber。它比你想象的要困难。当那些立方体离你很远时,当你有一个非常黑暗的背景时,你能够看到它们,而你的大脑对此非常依赖,这一点你没有意识到。当你有一个繁忙、明亮的环境时,可能很难看清楚。我的意思是,这是你认为,哦,这是拖放操作…然后你这样做了,你会发现,实际上,这比我们意识到的要复杂微妙得多。所以你只需要继续努力。再说一遍,让开发者尽快使用这个设备非常重要,这样他们就可以开始做这项工作。

你觉得离人们不再需要一直使用控制器的时候越来越近了吗?你觉得这款[Quest 3]硬件能够实现更多的这种理念吗?Bosworth:我们继续认为这是可能的,尤其是因为人们在社交环境中花费了如此多的时间。超过一半的时间[在VR中]是在社交中度过的:其中一部分是在使用控制器的社交游戏中,但并不是全部。问题不在于’它是否有效?’,很明显,它可以有效。但现在肯定有相当多的内容,人们想要获得的内容需要使用控制器。

如果在某个时候,你说,嘿,有足够多的内容可以只用手来完成,那就是一个完全可行的产品,而不是让人们再去商店另外购买他们希望拥有的控制器…我们一直在考虑这一点,以便以更低的价格将设备提供给人们。

Meta Quest 3有升级,但没有内置眼动追踪。

约翰·金/CNET

我想问一下你对眼动追踪的看法,因为它在Quest Pro、Vision Pro和PlayStation VR 2上都有(但Quest 3没有)。就Quest平台的界面而言,你认为怎么样? Bosworth:我可能还是会在会议中使用我的Quest Pro,因为我喜欢眼动追踪和面部追踪。我们多年来一直在研究眼动追踪和凝视加手势作为用户输入界面。眼动追踪只会给硬件增加很多成本和复杂性。你至少需要每只眼睛两个摄像头来做好眼动追踪,更不用说场上照明了。苹果的Vision Pro是一款很棒的设备,他们已经做到了场上照明,所以照明是透过镜片实现的。如果通过镜片进行追踪,就不能戴眼镜了。因此需要配方光学镜片。

随着时间的推移,眼动追踪最终将成为核心平台的一部分;我认为它是一个很棒的工具。对我们来说,这总是一个成本效益的问题。这个权衡是什么?对于我们试图吸引的普通消费者来说,他们是否会觉得为了这个好处而增加额外的重量、成本、热量和电池消耗是值得的?

现在有很多关注开放性和兼容性的事情:Microsoft的合作伙伴关系,Office 365和云游戏。你是否认为这些硬件的发展会与之相互协调?在苹果和谷歌与三星合作开发的硬件之间,理想情况下,它们之间会有相互作用的方式。 Bosworth:我们在Connect上已经做了10年的工作,把它公之于众。已经销售了数千万台设备。支付给开发者的数百万美元。其他人一无所有。

我并不是说这是不可能的。我们确实希望使用很多开放标准。Open XR、Vulcan、glTF。我们已经在标准游戏上努力了很长时间,并试图以公开方式并使其变得简单。我们的操作系统是基于Android的。谷歌或其他人将2D应用商店带到平台上将变得非常简单。甚至不难。我们很乐意接受它们。我希望人们能支持这个生态系统。他们只需要拿起电话给我们打个电话。

Meta的眼镜可以拍照和录像,但不能进行空间视频拍摄。也许以后会有。

Meta

Ray-Ban眼镜能拍摄空间视频吗? Bosworth:Ray-Ban Stories的第一个版本在每个眼镜腿上都有一个摄像头,从硬件上来说可以进行立体捕捉。我们从未开发过相应的软件。这在消费者中并不受欢迎。我们进行了一些用户测试和立体图像,甚至在Facebook和Instagram上,你可以播放酷炫的立体重放,也可以在头戴设备中观看。人们并没有花时间去看立体照片。所以我们最终决定不开发这个功能,以节省供电第二个摄像头所需的能量,使其电池寿命更长,捕捉体积更小。我们用LED取代了第二个摄像头。

我有多个VR摄像头。我和我儿子做了整整一年的VR科学星期六录制,并将其上传到网上。作为一个创作者,我对此非常热衷。我迫不及待地想要开始。显然,现在还没有准备好的条件。但我认为对于我们来说,最重要的是充分发挥这些眼镜的功能,了解使用这些眼镜的人并不一定是想成为VR创作者的人。那些想成为VR创作者的人可能有更好的工具。

和高通的雨果·斯瓦特(Hugo Swart)谈论Quest 3和Ray-Ban眼镜中的芯片时,似乎有更多的传感器带宽用于与其他设备配对。也许是手表。他提到了可穿戴传感器。你对此有何看法? Bosworth:我们有巨大的抱负进入这个领域。我们对神经接口的开发一直是公开的。我们目前主要是基于手腕的。我认为这些东西必须放在其他地方。所以这里有机会。现实情况是,几乎我们所有的头戴设备都有热量限制。我们在芯片、带宽、输入/输出、通道数、管道数方面并没有限制。这不是主要瓶颈。非常重要的是:如果没有XR芯片,我们无法做到我们做的传感器数量。但一旦你跨越了这个障碍,你实际上是受到在脸上产生热能的能力的限制。所以这是我们面临的主要障碍。