“Gemini 是 Google 团队（包括我们 Google Research 的同事）大规模协作的结果，”—— 谷歌 DeepMind 首席执行官兼联合创始人丹尼斯·哈萨比斯 (Dennis Hassabis) 说道。 “它是从头开始构建的多模式，这意味着它可以概括并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。”

也很有趣：并非所有我们称为 AI 的东西实际上都是人工智能。这是你需要知道的

谁创建了模型？

正如你可能已经猜到的，Gemini 是由 Google 和 Google 母公司 Alphabet 创建的，是该公司迄今为止最先进的人工智能模型。谷歌的DeepMind部门也为其发展做出了重大贡献。目前尚不清楚有多少员工参与了开发，为此分配了哪些资金，但了解谷歌的能力，我们可以确定数量非常大。

也很有趣： Windows 12：新操作系统是什么

机会

正如我上面提到的，它是一个多模式模型，这意味着它可以理解、操作和组合不同类型的数据，包括文本、代码、音频、图像和视频。与以前的人工智能系统相比，它提供了更好的理解、思考和编码技能。

该模型的主要功能是：

用于翻译、摘要和对话等任务的自然语言处理
数学思维和解决问题
能够生成代码和文档
了解图像、音频和视频
不同领域的多任务处理

正如您所看到的，这些功能优于其他型号。

在语言理解、数学思维和编码测试中，Gemini Ultra 的表现优于 GPT-4 等模型。特别是，它是第一个在大规模多任务语言理解 (MMLU) 测试中超越人类水平的模型，准确率达到 90% 以上。

在一项大型语言模型研究的 32 项学术测试中，Gemini 的表现优于 GPT-4。在 30 个案例中，谷歌的新语言模型比竞争对手更好。这证明了模型完全理解该语言的能力。

另请阅读：人脑计划：模仿人脑的尝试

有不同的版本吗？

谷歌将这种人工智能描述为一种灵活的模型，可以在任何设备上工作：从谷歌数据中心到移动设备。为了实现这种可扩展性，Gemini 提供了三个版本：Nano、Pro 和 Ultra。

让我们更详细地讨论一下 Gemini 的不同版本。

双子座纳米：设计用于智能手机，特别是 Google Pixel 8。它旨在执行需要人工智能高效处理的任务，而无需连接到外部服务器，例如在聊天程序中建议答案或总结文本。这个紧凑的设备模型有大约 6 亿个参数。
双子座：在 Google 数据中心运行。 Pro 旨在与最新版本的 Bard AI 聊天机器人配合使用。它能够提供快速响应时间并理解复杂的查询。中型模型大约有 100 亿个参数，是巴德对话式 AI 的核心。 Pro 将通过 Google Cloud 提供。
双子座超：虽然 Ultra 版本尚未广泛使用，但 Google 将其描述为性能最佳的模型，“在大型语言模型 (LLM) 研究中使用的 30 项广泛使用的学术测试中，有 32 项超过了当前最先进的水平。 ” 作为最大、最强大的版本，Ultra 将接收超过 1 万亿个参数。它将位于数据中心。 Ultra 适合企业使用。该版本旨在执行非常复杂的任务。谷歌计划在当前测试阶段结束后发布它。也就是说，目前还没有提供给用户最强大的版本。

也很有趣： Google Bard AI：您需要了解的一切

如何进入双子座？

Nano 和 Pro 版本的 AI 现已分别在 Google 产品中使用，例如 Google Pixel 8 智能手机和 Bard 聊天机器人。谷歌计划最终将其整合到其搜索引擎、广告、Gmail电子邮件服务、Chrome浏览器和其他服务中。

从 13 年 2023 月日开始，开发者和企业客户将能够通过 Google AI Studio 和 Google Cloud Vertex AI 中的 Gemini API 访问 Pro。开发商 Android 将可以通过 AICore 访问 Nano 版本模型，该模型将在早期预览中提供。

另请阅读： Samsung Galaxy 翻转5 vs Motorola Razr 40 Ultra：两个横尊之战

Google Bard 的 Gemini：会发生什么变化？

根据演示期间提供的信息，该模型将使 Google Bard 能够更好地处理更复杂的问题，如下所示：

“我们设计 Gemini 时，该模型自然是多模式的，并且从一开始就针对多种模式进行了预训练。然后，我们通过添加更多多模式数据来改进它以提高性能。因此，Gemini 比以前的多模式模型更容易理解和推断，并且在几乎所有领域都拥有最先进的能力。

Gemini 非凡的多模式功能可帮助您理解复杂的文本和视觉信息。当从庞大的数据集中提取特定信息时，它们特别有用。该模型具有通过阅读、过滤和分析数十万份文档来提取信息本质的非凡能力，这无疑将有助于从科学到金融等各个领域获得闪电般的新发现。”

在演示过程中，演示了一个复杂研究的示例，其中包含超过 200 万条记录，其中一些记录必须根据新数据进行更新。正如您可能已经猜到的那样，手动执行此操作将非常耗时，因此研究作者使用 Gemini 准备代码来获取输入并进行必要的更新。另一个更现实的例子是使用谷歌的语言模型来解释数学或物理问题。

这里的输入数据是学校课程作业的照片/扫描件。该系统能够处理存储在其中的图形和文本，然后指示作业的哪些部分完成正确，哪些部分需要更多注意。该演示显示，用户可以反复要求 Gemini 解释一项任务，并且随后的每次尝试都必须用更简单的语言进行解释。当然，双子座的准确性和正确性将由感兴趣的人检查，但直接从照片读取和处理文本的能力令人印象深刻。正如演示期间所补充的：

“双子座被教导要同时识别和理解文本、图像、声音等。因此，他可以更好地理解信息的细微差别，并能够回答复杂的问题。它对于解释与数学和物理相关的话题特别有效，因此可以作为个人作业的帮手“。

Google Pixel 智能手机中的 Gemini

谷歌还吹嘘Gemini“学习”了新的TPUv5芯片组，并计划在2024年初推出Gemini Ultra，它将使用Bard Advanced，这是巨人语音模型的消费版的新版本。 Gemini Ultra 目前正在测试中，并且已经可供选定的安全专家使用。

最后一个重要信息是在 Google Pixel 8 智能手机中引入 Gemini，这将允许通过消息应用程序中的 Gboard 应用程序创建快速回复。第一个是 WhatsApp，但明年此类解决方案将出现在与通信相关的其他应用程序中。然而，这只是一个开始，谷歌已经宣布了许多适用于 Pixel 8 智能手机的新 AI 工具，未来它们还将在其他一些设备上使用。 Android。不过，这些都是进一步的计划，目前尚未提供任何细节。

Gemini 与其他 AI 模型（例如 GPT-4）有何不同？

谷歌的新 Gemini 模型看起来是迄今为止最大、最先进的人工智能模型之一，尽管 Ultra 模型的发布将确定这一点。与目前使用人工智能聊天机器人的其他流行模型相比，Gemini 以其自己的多模态功能脱颖而出，而 GPT-4 等其他模型则依靠插件和集成来实现真正的多模态。

对准确性和公正性的担忧

尽管Gemini在人工智能能力发展方面取得了重大飞跃，但它也与其他主要语言模型一样存在缺陷。首先，这是制造虚假信息的可能性。偏差还基于新语言模型可用的训练数据。还值得一提的是对现实世界的了解有限。谷歌承认，新的 Gemini 模型可能会犯错误，提供没有证据的事实并违背常识。

还需要更多的测试，特别是对于 Gemini Ultra，它具有尚未完全探索的新功能。 Google 致力于仔细评估 Gemini，以最大程度地减少潜在危害。

也很有趣：关于一切 Microsoft 副驾驶：未来还是方向不对？

未来与双子座同在

谷歌推出Gemini，开启了人工智能发展的新时代。与之前的模型和人类基线相比，Gemini 具有最佳的性能，指出了人工智能未来的可能性，但仍需要更多的研究来解决某些缺点。

未来，您可以期待Gemini在Google产品中提供更多有用和智能的功能。展望未来，该公司计划继续将 Gemini 扩展到英语以外的领域，并以其核心模型方法为基础。

我们只能袖手旁观，希望谷歌知道它在做什么。

另请阅读：

Yuri Svitlyk

喀尔巴阡山脉之子、不为人知的数学天才、“律师”Microsoft，实用的利他主义者，左右

下一篇文章 Acer 宣布推出 Predator Extreme 电动滑板车、新款游戏显示器和笔记本电脑 »

上一篇文章 « 《家园 3》发布推迟至 2024 年月

发表评论

标签：谷歌已选择人工智能

08/02/2024 22:28

什么是 Gemini：关于谷歌新人工智能模型的一切

什么是谷歌双子座？