Meta 的 ImageBind AI 可以模仿人类感知

Meta 将代码以开放存取人工智能的名义发布图片绑定，它预测数据之间的关系类似于人们如何感知或想象他们的环境。虽然 Midjourney、Stable Diffusion 和 DALL-E 2 等图像生成器将文字绑定到图像，让您可以仅基于文本描述创建视觉场景，但 ImageBind 不止于此。它可以链接文本、图像或视频、音频、3D 测量值、温度数据和运动数据——并且不需要抓住每一个机会进行预训练。这是一个框架的早期阶段，最终将能够从简单的输入生成复杂的环境，例如文本提示、图像或音频（或它们的组合）。

元界计划

您可以将 ImageBind 视为机器学习对人类学习的近似。例如，如果您站在繁忙的城市街道等动态环境中，您的大脑（大部分是无意识地）会吸收视觉、声音和其他感官感受，以获取有关过往车辆、高楼、天气等信息. 人类和其他动物已经进化到可以处理这些数据以获得我们的遗传优势：生存和传递我们的 DNA。（你对周围环境了解得越多，你就越能避免危险并适应你的环境以更好地生存和发展）。随着计算机越来越接近于模仿动物的多感官连接，它们可以使用这些连接仅基于有限的数据片段生成完全真实的场景。

因此，虽然您可能会使用 Midjourney 来创建“穿着甘道夫服装的巴吉度猎犬在沙滩球上保持平衡”并获得该奇怪场景的相对逼真的照片，但像 ImageBind 这样的多模态 AI 工具最终可能会创建与狗相关的视频声音，包括详细的客厅、室温以及狗和场景中其他人的确切位置。 “这创造了一个极好的机会，可以通过将静态图像与音频提示相结合来从静态图像创建动画，”Meta 研究人员在他们面向开发人员的博客中指出。 “例如，创作者可以将图像与闹钟和打鸣的公鸡结合起来，并使用音频提示来分割公鸡或闹钟的声音来分割时钟并在视频序列中制作动画。”

至于这款新玩具还能做些什么，它清楚地指向了 Meta 的核心野心之一：VR、混合现实和元空间。例如，想象一下未来的耳机可以即时构建完全实现的 3D 场景（带有声音、动作等）。或者虚拟游戏开发者最终可以使用它来为自己节省设计过程中的大部分艰苦工作。同样，内容创建者可以仅基于文本、图像或音频创建具有逼真的配乐和动作的沉浸式视频。还很容易想象像 ImageBind 这样的工具如何通过生成实时多媒体描述来帮助有视觉或听觉障碍的人更好地了解他们的环境，从而在可访问性方面打开新的大门。

也很有趣： 基于人工智能的最佳工具

“在典型的人工智能系统中，每个相关模态都有一个特定的嵌入（即可以表示数据及其在机器学习中的关系的数字向量），”Meta 说。 “ImageBind 表明，可以为多种模态创建一个通用的嵌入空间，而无需使用每个单独的模态组合对数据进行训练。这很重要，因为研究人员无法创建包含例如来自繁忙城市街道的音频数据和热数据，或深度数据和海边悬崖文本描述的样本的数据集。”

Meta 认为，这项技术最终会超越目前的六种“感官”，可以这么说。 “虽然我们在当前的研究中调查了六种模式，但我们相信引入连接尽可能多的感官的新模式——例如触觉、语音、嗅觉和 fMRI 大脑信号——将允许更丰富的以人为中心的人工智能模型。” 有兴趣探索这个新沙盒的开发人员可以从深入研究 Meta 的开源代码开始。

另请阅读：

Dzherelo瘾科技

注册

0 评论

嵌入式评论

查看所有评论

其他文章

Meta 的 ImageBind AI 可以模仿人类感知

最近的评论