案例展示

这里有最新的公司动态,这里有最新的网站设计、移动端设计、网页相关内容与你分享!

李飞飞最新万字专访:变形金刚或将在未来五年?

文字| 11月24日,斯坦福大学教授、世界实验室创始人李飞飞参加播客采访,详细阐述了他的空间智能概念,并讨论了他和杨立坤对世界模型的不同看法。在世界模型构建方面,李飞飞和前Meta首席科学家Yann Lecun的思想常常被视为世界之外的两个流派。杨立坤更喜欢模型知道世界的抽象“隐式表示”,而不必恢复每一帧的像素;而李飞飞的大理石试图从抽象的内部表征生成显式表征,清晰地输出一个可视化的3D世界。李菲菲并不认为两人是对立的。他说,如果最终要构建一个通用的世界模型,最终需要隐式表示和显式表示。 World Labs 使用“有意”的清晰输出是因为其商业目的se是为游戏开发、视觉效果、建筑设计等领域的人类创造者服务。他们的日常工作需要可视化、交互式的 3D 输出结果。但在模型内部,RTFM 还包含隐式表示。他相信未来的架构将是两者的混合体。作为World Labs的创始人,李飞飞在采访中透露了公司的第一款产品Marble,以及其背后的技术基础——“实时帧模型”(RTFM)。与简单生成视频的模型不同,Marble 专注于生成具有一致性和持久性的 3D 空间。它的模型不仅是多模态的,支持文本、图像、视频甚至粗略的3D布局作为输入,更重要的是,它在推理过程中试图保持对象的一致性。他表示,目前的LLM主要是通过海量文本数据来学习。虽然语言模型很神奇,但是人类的大量知识并不能仅通过语言来获取。到要发展真正的通用人工智能,人工智能必须超越文本的限制,通过视觉和行动体验物理世界。人类的学习过程是内在体现的。我们与世界进行广泛的互动,无需语言、感知光、触觉、重力和空间关系。当被问到当前的人工智能是否真正“理解”了物理世界时,李飞飞认为,大​​多数生成视频中显示的水流或树木摆动并不是基于牛顿力学计算,而是基于海量数据的统计发生。尽管人工智能可以通过数据拟合运动定律,但当前的变压器架构尚未证明足够的证据来达到爱因斯坦相对论所建议的抽象水平。对于技术演进的速度,李飞飞认为,五年之内,我们可以期待看到物理世界中人工智能的理解取得重大进展。他描绘了未来的图景e 基于“多元宇宙”:通过大幅降低3D内容的生成门槛,人们可以低成本地创作出无限的3D内容。许多平行世界、数字平行世界将是人类物理体验的无限扩展,重新配置娱乐、教育、远程协作、科学探索等许多领域的场景。 1.空间智能是关键。仅靠语言不足以构建通用人工智能(AGI)。人类的大量智力(例如空间推理、急救反应)都是非语言的。人工智能必须获得“空间智能”,像生物一样具备深度感知的空间能力,建立看、做、想的完整闭环。 2、世界模型的新范式 World Labs产品的主打弹珠产品与普通视频生成模型最大的区别在于“物体永久性”。在大理石构成的世界里,当你转身时再回去,你身后的事物依然存在,保持原状,而不是像梦一样随机放慢速度。李飞飞团队提出了“实时帧模型”(RTFM),旨在在单个H100 GPU的计算能力限制内实现高效的3D空间推理。这是为了构建一个几何上一致、时间上连续的“数字容器”,为未来能够理解物理定律的人工智能奠定基础。 3、与杨丽坤主张世界的模型应该是抽象理解的“隐性表征”不同,李飞飞的大理石试图从抽象的内部表征中生成隐性表征。李飞飞认为,隐式表示和显式表示应该结合起来,但目前世界各地的实验室都会刻意选择输出显式3D表示来赋能人们。未来的AI不应该是黑匣子,而是游戏开发的“神经空间引擎”私奔者、建筑师和艺术家。它将传统物理机器的确定性规则(不真实)与生成式人工智能的统计创造力相结合,让普通人能够瞬间构建复杂的 3D 交互世界。 4. 视觉领域中的“下一个令牌”问题 理想的语言模型以“猜测下一个令牌”作为目标函数。但在视觉领域,“下一帧预测”虽然强大但并不完美,因为它迫使三维世界变成二维并丢失结构信息。在视野中寻找“通用任务功能”仍然是一个未解之谜。 5. AI目前不懂物理。人工智能产生的物理现象(如重力和碰撞)往往来自对统计规律的模仿,而不是对物理规律的因果理解。现有的变压器架构可能很难生成高级抽象,例如“关系”。未来五年,业界需要找到新的架构突破,让人工智能能够从统计相关性飞跃到真正的因果逻辑和物理推理。以下为李飞飞采访实录: 主持人:欢迎收看本期播客。在本期节目中,我很荣幸能与人工智能先驱李飞飞博士进行对话。几年前我在播客上播过《飞飞》,我推荐大家都听听那一集。节目季。在今天的对话中,让我们探讨他对世界模型和空间智能重要性的看法——空间智能是构建真正理解现实世界并与现实世界互动的人工智能的关键要素。虽然大规模语言模型(LLMS)令人惊叹,但大量(甚至大部分)人类知识并不是用文字来捕捉的。为了实现更强大的人工智能,模型需要亲身体验世界,或者至少从视频中学习。我们还讨论了他的初创世界实验室和他们的第一个产品 Marble。大理石n 从模型的内部表示生成极其复杂的 3D 空间。 1. 从计算机视觉到空间智能的演变 主持人:我想先脱离弹珠和你的新模型(可以为 mwatch walk 生成一致且连续的 3D 世界),更多地谈谈为什么你关注世界模型和空间智能。为什么有必要超越仅仅学习语言?另外,您的做法与杨丽坤有何不同?您目前在世界模型方面的工作是您之前在环境智能方面工作的延伸,还是另一条并行的路线?李飞飞:我近年来提出的空间智能工作实际上是我整个职业生涯对计算机视觉重点的延续。我之所以强调“空间智能”,是因为我们的技术已经发展到了一个阶段,其复杂性和能力深度已经不再停留在仅仅“盯着”图像的水平,甚至超越了简单的视频。Ø 理解力。现在主要的一个是深度感知的空间,它与机器人技术密切相关,已经体现了kintelligence(体现AI)和环境智能。从这个角度来看,这确实是我在计算机视觉和人工智能领域职业生涯的自然延伸。主持人:正如您和其他许多人所指出的,语言模型是从文本中编码的人类知识中学习的,但这只是人类知识的一个非常有限的子集。人类的学习是通过与没有语言的世界的广泛接触来实现的。因此,如果我们要超越目前令人印象深刻但仍然有限的大型语言模型,那么开发能够更直接地体验世界、更直接地向世界学习的模型就显得尤为重要。说到具体方法,以大理石为例,你的做法是利用模型所学到的世界的内部表征,并创建相应的外部视觉现实。杨丽坤的方法主要是建立内部表示,以便模型可以学习诸如物理运动定律之类的东西。这之间有相似之处吗?这两种方法是互补的还是重叠的?李飞飞:首先我不会跟杨丽坤对着干。我认为我们处于相同的智力连续体上,只是在空间智能和世界建模方面采取了不同的切入点。如果你读过我最近关于“空间智能”的长文(我称之为宣言),我在这一点上非常清楚。我认为,如果你最终要构建一个通用的、通用的世界模型,隐式表示(implicitrepresentation)和某种程度的显式表示(explicitrepresentation)最终可能都是必要的,特别是在输出层。例如,currentWorld Labs 的世界模型 Marmol 显式输出 3D 表示,但在模型内部,它还包含隐式表示。老实说,我认为两者最终都是必要的。输入方式也是如此。是的,从视频中学习非常重要,毕竟整个世界都可以被视为大量连续帧的输入。但真正的智能,无论是动物还是机器,都不仅仅涉及被动观察。它还包括运动和接触的具体体验,以及触摸、声音、气味、体力、温度等。所以我认为它本质上是深度多模态的。大理石作为模型只是第一步。在我们几天前发布的技术报告中,我们想明确一点:多模态既是一种学习范式,也是一种输入范式。目前学术界对此有很多讨论,这表明该领域正处于早期且令人兴奋的阶段。可以说,我们对建筑和表现的精确模型的探索还远未停留在表面。 2. 超越文本:多模态输入和学习范式调节器:在您的世界模型中,输入主要是视频吗?李飞飞:如果你体验过大理石,你就会发现我们的输入世界模型是相当多模态的。您可以使用纯文本,也可以使用一张或多张图像,可以处理视频,也可以输入粗略的 3D 布局(例如框或体素)。它是多式联运的,我认为随着我们的发展,它的能力将会加深。文字只是一种形式。是的,但这就是我们离题的地方。大多数动物不会学习复杂的语言,但人类会。然而,我们的人工智能世界模型(World Models)将从大量的语言输入和其他模式中学习。它不仅仅是通过语言压缩和传输信息。主持人:这也是大型语言模型(LLMS)的一个局限性,就是模型的参数在训练之后就固定下来了。所以他们不会持续学习,尽管在测试期间的理解过程中有一些学习。这是您在构建世界模型时试图解决的问题吗?因为我们可以想象,世界模型在遇到新环境时必须不断学习。李飞飞:是的,持续学习范式确实非常重要。对于生物来说是如此,这也是人们学习的方式。即使在生物学研究中,在线学习和离线学习之间也存在差异。在我们当前的世界模型形式中,这更多的是批量或离线学习模式。但我们当然是开放的,特别是在未来的在线学习和多模式整合方面。主持人:那会是什么样子呢?是完全不同的架构,还是只是工程实现的问题?李菲菲:明天我会小心的。我认为这将是两者的混合。显然这需要良好的工程实现,例如修复和在线学习,但新的架构也可能出现。主持人:您能谈谈实时帧模型吗?你在世界模特界的工作呢?李飞飞:你指的是我们几周前发布的技术博客,致力于深入讨论我们的实时帧模型。世界实验室是一个以研究为导向的组织。虽然我们也关心产品,但现阶段很多工作都是模型优先。我们专注于如何推进空间智能。这项特别的工作真正关注的是如何实现具有尽可能多的几何一致性和持久性的基于框架的生成。在早期基于帧的生成操作中,当您移动视点时会丢失该对象。在这种特殊情况下,我们试图实现平衡,并在推理过程中以计算高效的方式进行,在推理过程中仅使用单个 H100 GPU。我们不了解其他基于帧的模型,因为它们不会透露它们使用多少芯片进行处理,但我们假设有大量的计算能力。 3. 寻找空间智能的“通用函数”。主持人:您在《宣言》中谈到了需要“一般工作功能”。这类似于语言模型中的“下一个令牌预测”。它有可预测的元素吗?李飞飞:生成式人工智能最重大的突破之一实际上是目标函数“下一个代币预测”的发现。这是一个非常好的表达方式,因为语言以序列化的方式存在,你可以将语言标记转换成这种序列化的表示形式。用于预测下一个标记的学习函数正是推理所需的。无论是人类语言还是计算机生成的语言,实际上都是一次推进一个代币。拥有与最终实现的实际工作完全(100%)一致的目标函数是高效的,因为它允许优化完全有针对性。但在计算机视觉或世界建模中,事情就没那么简单了。语言本质上是由人类创造的。你所凝视的“语言”在自然界中并不存在。即使你最终学会了阅读,我是因为它发达了。但我们与世界的关系更加多态:世界就在那里等待着你观察、解释、推理并与之互动。人类还拥有“心灵之眼”,可以构建不同版本的现实、想象并编出故事。情况更复杂。主持人:那么,这个普世作品的定义是什么?换句话说,我们可以使用的功能的一般用途是什么?有没有像“下一个代币预测”一样强大的东西?是3D重建吗?李飞飞:这是一个非常深刻的问题,有些人实际上会认为世界建模的普遍任务可以以 3D 方式重建世界。如果这是目标函数并且我们实现了它,那么很多事情都会水到渠成。但我不这么认为,因为大多数动物的智力不一定能够进行精确的三维重建,而老虎或人类在太空中是非常强大的视觉代理。 “下一帧预测”有一定的威力。首先,还有e是大量的训练数据;其次,要预测下一帧,你需要知道世界的结构,因为世界不是白噪声,帧之间有很多结构联系。但也不高兴,因为你将世界视为二维的,这是一种非常糟糕的压缩方式。即使您做得很完美,3D 结构也只是隐式的,并且在这种基于框架的方法中会丢失很多含义。所以这方面还有很大的探索空间。主持人:我得问你,你把这个模型命名为RTFM(实时帧模型)。这是一个笑话吗?李飞飞:这真是一场精彩的“表演”。这个名字不是我选的,而是我们的一位研究人员选的,他确实很有命名天赋。我们认为用这个名字开玩笑会很有趣。主持人:但是RTFM预测下一帧,并且是三维一致的,对吧?李飞飞:是的。主持人:这就是内部表示学习模型变得有趣的地方。例如,什么当我看着电脑屏幕时,即使我看不到背面,我也知道它是什么样子,因为我的脑海里有它的内部表征。这就是为什么你可以在屏幕的二维表面上移动某些东西,但仍然可以看到它的另一面。该模型具有三维对象的内部表示,即使其当前视图看不到对象的背面。如果你谈论的是空间智能,是否包括自然的物理定律?就像意识到你无法进入固体物体一样?或者,如果它站在悬崖边缘,它是否知道边缘,如果它行走,它会掉下来而不是漂浮吗?李飞飞:你所描述的内容既有物理层面的,也有语义层面的。从悬崖上掉下来很大程度上取决于重力定律,但在墙上行走则基于材料和语义(固体与非固体)。目前作为现有模型,RTFM 并不关注显式物理。许多“物理学”实际上源于统计学。有男人生成视频模型显示的水流或树木的运动不是基于牛顿力学定律和质量计算,而是遵循大量统计模式。世界实验室目前仍然专注于构建和探索静态世界,但我们还将探索动态世界,其中大部分将是统计学习。我不认为今天的人工智能有能力在不同层面进行抽象并推导出物理定律。另一方面,我们有像 Unreal 这样的空间物理引擎,其中有明确的物理定律在起作用。最终,这些游戏/物理引擎将与世界生成模型相结合,我称之为“神经空间引擎”。我们正在朝这个方向前进,但现在还处于早期阶段。 4.清晰表达的价值:为创作者和行业中介赋能:Hin我不想让你反对杨丽坤。但你似乎专注于从抽象的内部表征构建显式表征,而杨丽坤只关注y 侧重于内部表征。李飞飞:我觉得他们会完全结合起来。我们一起探索了两者。提出明确的表示实际上是一种非常深思熟虑的方法,因为我们希望对人们有用。我们希望它对那些创造、模拟和设计的人有用。如果您看看当今的行业,无论您是在制作视觉效果 (VFX)、开发游戏、设计内饰,还是为机器人或自动驾驶汽车创建模拟(数字孪生),您都会发现这些行业的工作流程都严重依赖 3D。我们希望这些模型对个人和企业绝对有用。主持人:又回到继续教育的话题了。例如,机器人中的模型通过在世界各地移动相机来获取数据。最终不仅要学习场景,还要了解空间物理,然后与语言结合起来?是否需要继续教育?李飞飞:当然。特别是当接近美国时在这种情况下,持续学习很重要。这可以通过多种方式实现:在语言模型中,上下文本身作为一种持续学习(如记忆)作为输入提供;除了在线学习和微调。在空间智能领域,无论是个性化的机器人,还是具有一定风格的艺术家,最终都会推动技术更加响应不同的时间尺度,以满足特定使用场景的需求。 5. 未来展望:AI Models 的技术跨越 主持人:您现在的进步非常快,特别是考虑到您曾经在新泽西州经营过一家干洗店。虽然时间很短,但是这个飞跃实在是太惊人了。您对五年后这项技术会发展到什么程度有判断吗?例如,模型中是否会内置某种物理引擎,或者是否具有更长的时间尺度学习能力来构建更丰富的内部表示?也就是说,开始了解t他是物理世界的模型吗?李飞飞:其实作为一名科学家,很难给出准确的时间预测,因为有些技术的进步比我预想的要快,有些则慢一些。但我认为这是一个非常好的目标,五年确实是一个合理的时间估计。我不知道我们是否会更快到达那里,但我认为这比预测五十年更可靠,当然也比预测五个月更好。主持人:您能谈谈为什么您认为“空间智能”(lligence)是下一个前沿领域吗?众所周知,文本中包含的人类知识只是所有人类知识的一个子集。尽管内容很丰富,但你不能指望人工智能模型仅通过文本来理解世界。您能具体谈谈为什么这很重要吗?世界各地的大理石和实验室与这个更大的目标有何关系?李飞飞:从根本上来说,科技应该帮助人。同时,理解智力科学本身也是关键。我能想象到最令人着迷、大胆和雄心勃勃的科学追求。这是属于21世纪的课题探索。无论你是被科学好奇心所吸引,还是被使用技术来帮助人们的动机所驱动,这一切都指向一件事:我们的很多智慧,以及我们工作中的很多智慧,都是通过语言传递的。我曾经半开玩笑地说,你无法用言语来扑灭大火。在我的宣言中,我举了几个例子:无论是空间推理、DNA双螺旋结构的推导,还是急救人员在瞬息万变的情况下团队合作灭火,其中很多都是无法言喻的。所以,从应用的角度来看就很清楚了;作为一项科学探索,我们必须尽最大努力确定如何发展空间智能技术,使我们更上一层楼。从宏观角度来看,这是推动我前进的双重动机:发现科学并创造有用的工具人类。我们可以更深入地探讨它的实用性。无论您谈论的是创造力、模拟、设计、沉浸式体验、教育或医疗保健,甚至是制造,您都可以利用空间智能做很多事情。我真的很兴奋,因为很多关心教育、沉浸式学习和体验的人告诉我,大理石(我们必须发布的第一个模型)启发了他们思考如何使用它来实现沉浸式体验,使学习更具互动性和乐趣。这是很自然的,因为还不会说话的孩子完全通过沉浸式体验来学习。即使作为成年人,我们的大部分生活都沉浸在这个世界中,这个世界虽然包括听、说、读、写,但也包括技巧、沟通和享受。主持人:是的。大理石给每个人留下深刻印象的是,它不仅生成下一帧,而且在插槽中移动,并且仅在 H100 GPU 上运行。我听过你谈论“体验多元宇宙”在你的其他谈话中。一开始大家都很兴奋,直到意识到这需要大量的计算,而且成本高昂。您认为这是朝着创建教育虚拟世界迈出的一步吗?因为你似乎减少了计算负担。李飞飞:首先,我真的相信我们在认识上会加速,我们会变得更好、更好、更大、更高质量。这是技术的趋势。我也相信多元宇宙的概念。众所周知,人类历史的全部经验只存在于一个世界,特别是世界的物质存在。尽管很多人已经登上了月球,但关于它。我们在 3D 空间中建立文明、生活、做一切事情。但随着数字革命和数字爆炸,我们正在将生活的一部分转移到数字世界,两者之间存在很多交叉。我不想描绘一幅我们放弃物质世界的反乌托邦图画,我也不希望我不想画一个极端的乌托邦虚拟世界,每个人都戴着头盔,无法欣赏现实世界,而现实世界才是生活中最好玩的部分,两种极端我都拒绝。但从现实的角度和对未来的愿景来看,数字世界是永恒的。它是永恒的,给我们更多物理世界不允许的维度和体验。例如,我们谈论学习。我真的很想以一种更具互动性和身临其境的方式学习化学。我记得大学的化学课涉及分子排列、理解分子结构的对称性和不对称性。我想在身临其境的体验中亲自感受这些东西。我遇到的很多创作者,我意识到他们每时每刻都有很多想法,但他们受到工具的限制。例如,使用虚幻引擎,需要花费数周甚至数小时的工作才能表达您脑海中的世界。无论您是在创作奇幻音乐无论是为新生儿设计一间卧室,如果我们允许人们像在物理世界中一样利用数字宇宙进行实验、交流和创造,那将会很有趣。此外,数字时代还帮助我们打破物理界限和劳动力限制。 Like remote control of robots.我可以想象创作者通过具体化身、通过机械臂或任何形式以及数字空间与世界合作,这使他们能够在物理世界和数字世界中工作。电影业也将发生变化。今天的电影是一种被动的体验,尽管它们很好,但娱乐方式的改变也会改变。 So everyone needs multiple worlds.主持人:还有讲到机器人的隐形传送或者遥控操作。例如,有人谈论那些小行星中的稀土。如果你不需要亲自到场,但机器人可以远程操作,那么就可以在那些空间里实现。你在说什么ut 正在创建人们可以体验的 3D 空间的隐式表示。在你的模型中,模型本身在多大程度上“理解”它所在的空间?它是否内化了这些信息,或者它是一个开放项目?这是一个向真正理解世界的人工智能努力的过程。不仅具有三维空间的表征,而且真正理解物理定律,理解所看到的东西,甚至价值、用处,以及如何操纵物理世界。您认为您现在对此了解有多少?为了让这些模型被世界真正理解,还需要发生什么?李飞飞:这个问题问得好。 “理解”是一个非常深刻的词。当人工智能“理解”某件事时,它与人类的理解本质上是不同的。部分原因是正确与错误的存在方式不同。人是具体化的,存在于肉体中。例如,如果我们真的理解“我的朋友很高兴”,那么不仅仅是抽象的理解。您可以感觉到体内发生化学反应,释放快乐荷尔蒙,您的心跳加快,您的情绪发生变化。这种理解水平与抽象人工智能代理有很大不同。人工智能代理能够正确分配含义并建立联系。例如,在我们的产品大理石中,您可以进入高级世界生成模式并对其进行编辑。您可以预览世界并说:“我不喜欢粉红色的沙发,请将其改为蓝色。”并将其更改为蓝色。它理解“蓝色沙发”和“变化”这两个词的含义吗?是的。因为如果没有这种认识,它就无法履行其使命。但它能像你我一样了解沙发的一切吗?它是否包括沙发的用途,甚至无用的信息?它有关于沙发的记忆吗?它能将“沙发”的概念扩展到许多其他东西吗?不,作为一个模型,它的功能有限,只能创建一个包含蓝色沙发的空间。所以我认为理解是拟人化的,是在人的层面上的理解,而不是理解光照射到视网膜上会产生一种体验。主持人:我看到了您与 Peter Diamandis 和 Eric Sc​​hmidt 的讨论。对我来说最突出的事情之一是关于人工智能可能具有创造性或用于帮助科学研究的讨论。当时给出的类比是:如果人工智能在爱因斯坦发现相对论之前就已经存在,那么人工智能是否可以为这一发现负责?人工智能在科学推理层面上拥有这种创造力,还缺少什么?李飞飞:我觉得我们更接近于让AI推导出双螺旋结构,而不是提出狭义相对论。部分原因是我们已经看到了许多关于蛋白质折叠的优秀工作。推断的双螺旋结构的表示更多地植根于空间和几何。狭义相对论的表达是抽象的。一切我们在物理学中看到,从牛顿定律到量子力学,抽象都深入到因果的层面。质量和力等概念已被抽象到不再是纯粹的统计模型生成的水平。语言可以是统计的,3D 或 2D 世界的动态可以是统计的,但力、质量、磁力和因果关系的抽象并不是纯粹的统计,而是深刻的因果和抽象。埃里克和我在台上说,如果我们将天体观测和卫星数据中的所有数据汇总起来,并将其输入到今天的人工智能中,就可以推导出牛顿运动定律并通过这些数据进行拟合。主持人:既然人工智能可以在给定数据的情况下推导出运动定律,那么您认为为什么它不能推导出相对论呢?李飞飞:当我们讲那些孩子们“推导”的时候,牛顿要获得并抽象出“力”、“质量”、“加速度”等概念以及基本常数。这些概念处于我还没有达到的抽象水平在当前的人工智能中可见。今天的人工智能可以利用大量数据,但没有太多证据表明它可以达到抽象表示、变量或关系的水平。我并不了解人工智能所发生的一切,如果我被证明是错的,我很乐意承认。但我还没有听说过任何工作在 Transformer 模型架构中实现了这种抽象级别。我不明白这种抽象从何而来,这就是我持怀疑态度的原因。它需要发展内部抽象的内部表示,以及应用逻辑知识的规则。可能需要我们在基础设施和算法方面做更多的开发。主持人:这正是我想问的。你和人们谈论后变压器架构。您是否看到一种新架构的出现将释放其中一些功能?李飞飞:我同意,我认为我们会有架构上的突破。我不认为 Transformer 是人工智能的最后一个发明。在宏观上从时间尺度来看,与宇宙的历史相比,人类的存在时间并不长,但在我们短暂的历史中,我们并没有停止变化。所以我不认为 Transformer 是 AI 最终的算法架构。主持人:您曾经提到,您认为如果能有一个人工智能系统来标记图像或生成字幕,那将是您职业生涯的亮点。当然,你早已超越了它。那么现在,您认为从现在开始,您未来职业生涯的巅峰是什么?李飞飞:我觉得开启“空间智能”很重要。创建一个真正连接感知和推理的模型:从“看到”到“做”,包括规划和思考,将想象转化为创造。那真是太棒了。同时完成这三项任务的模型。 特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。这个平台只提供信息存储服务。 注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。

Copyright © 2024-2026 蘑菇吃瓜官网-蘑菇吃瓜料每日爆料-蘑菇吃瓜官网黑料爆料 版权所有

网站地图

沪ICP备32623652号-1