© ROOT-NATION.com - 本文由人工智能自动翻译。如有不准确之处,敬请谅解。若要阅读原文,请选择 English 在上面的语言切换器中。
谷歌刚刚发布了其最强大的人工智能模型 Gemini。它是什么以及它能做什么?在我们的文章中查找所有内容。
谷歌多年来一直在开发自己的人工智能工具。随着 OpenAI“ ChatGPT-3,管理着世界上最受欢迎的搜索引擎的公司,谷歌也创建了一个名为Bard的类似工具。然而,这个工具仍然落后于竞争对手,这对谷歌来说是不可接受的。因此,世界最近看到 Gemini,这是 Google 的一个新语言模型,我们从演示中了解到了这一点。

它的设计不仅是为了增强之前的大型语言模型 (LLM) 巨头,而且还提供文本、图形和音频处理方面的全新功能。
那么,让我们仔细看看谷歌的新语言模型, Gemini.
什么是谷歌 Gemini?
这是谷歌推出的一种全新且强大的人工智能模型,不仅可以理解文本,还可以理解图像、视频和音频。它被描述为一种多模态模型,据说能够处理数学、物理和其他领域的复杂任务。此外,它可以理解并生成各种编程语言的高质量代码。
目前, Gemini 可通过与 Google Bard 和 Google Pixel 8 集成来访问,并将逐步纳入其他 Google 服务中。
“Gemini 这是谷歌团队广泛合作的结果,包括来自谷歌研究部门的同事。” 谷歌 DeepMind 首席执行官兼联合创始人丹尼斯·哈萨比斯 (Dennis Hassabis) 说道。 “它是从头开始构建的多模式,这意味着它可以概括并无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。”
另请阅读: Microsoft 副驾驶:游戏规则改变者还是错误道路?
谁创建了模型?
你可能已经猜到了 Gemini 由谷歌和谷歌母公司 Alphabet 共同创建,是该公司迄今为止最先进的人工智能模型。谷歌的 DeepMind 部门也为其发展做出了重大贡献。目前尚不清楚有多少员工参与了开发,以及为此拨出了多少资金,但了解谷歌的实力,我们可以肯定这是一笔非常可观的资金。
能力
如前所述,它是一个多模态模型,这意味着它可以理解、操作和组合不同类型的数据,包括文本、代码、音频、图像和视频。与以前的人工智能系统相比,这提供了增强的理解、推理和编码能力。
该模型的主要功能包括:
- 用于翻译、摘要和对话等任务的自然语言处理。
- 数学思维和解决问题。
- 能够生成代码和文档。
- 了解图像、音频和视频。
- 跨不同领域的多任务处理。
我们看到它的能力超越了其他型号。
在语言理解、数学思维和编码测试中, Gemini Ultra 的表现优于 GPT-4 等模型。具体来说,它是第一个在大规模多任务语言理解 (MMLU) 测试中超过人类水平的模型,准确率超过 90%。
在32项学术测试中,大型语言模型的研究 Gemini 取得了比 GPT-4 更好的结果。在 30 个案例中,谷歌的新语言模型表现优于其竞争对手,展示了该模型在全面语言理解方面的能力。
阅读: 人脑计划:尝试模仿人脑
有不同的版本吗?
谷歌将这种人工智能描述为一种灵活的模型,能够在任何设备上运行,从谷歌的数据中心到移动设备。为了实现这种可扩展性, Gemini 发布三个版本:Nano、Pro、Ultra。
让我们深入研究一下 Gemini.
- Gemini 纳米:设计用于在智能手机上运行,特别是 Google Pixel 8。它专为需要高效的设备上 AI 处理而无需依赖外部服务器的任务而设计,例如在聊天应用程序中建议响应或总结文本。这个紧凑的设备模型拥有大约 6 亿个参数。
- Gemini 专业版:在 Google 数据中心运行。Pro 旨在与最新版本的人工智能聊天机器人 Bard 配合使用。它可以提供快速响应时间并理解复杂的查询。这个中型模型有大约 100 亿个参数,是对话式人工智能 Bard 的核心。Pro 将通过 Google 提供 Cloud.
- Gemini 超级:虽然 Ultra 版本仍无法广泛使用,但谷歌将其描述为最有效的模型,超越了“大型语言模型 (LLM) 研究中应用的 30 个广泛使用的学术基准中的 32 个的当前最先进结果。 ”作为最大、最强大的版本,Ultra 将拥有超过 1 万亿个参数。它将托管在数据中心并专为企业使用而设计,旨在处理高度复杂的任务。谷歌计划在完成当前测试阶段后发布该版本,这意味着功能最强大的版本尚未提供给用户。
如何进入 Gemini?
谷歌已在其产品的 Nano 和 Pro 版本中提供人工智能,例如 Google Pixel 8 智能手机和 Bard 聊天机器人。谷歌计划随着时间的推移将其整合到其搜索引擎、广告、Gmail 电子邮件服务、Chrome 浏览器和其他服务中。
开发人员和企业客户将能够通过 Gemini Google AI Studio 和 Google 上的 API Cloud Vertex AI,从 13 年 2023 月 日开始。 Android 开发人员将可以通过 AICore 访问该模型的 Nano 版本,该模型在早期预览版本中提供。
Gemini Google Bard 中:将发生什么变化?
根据演示期间提供的信息,该模型将使 Google Bard 能够更好地解决更复杂的问题,如下所示:
“我们设计了 Gemini 从一开始就自然地多模态,并在不同的模态上进行预训练。然后我们通过添加更多多模态数据对其进行微调,以提高性能。得益于此, Gemini 比以前的多模式模型理解和得出结论的能力更强,在几乎所有领域都拥有最先进的能力。
非凡的多式联运能力 Gemini 有助于理解复杂的文本和视觉信息。在从庞大的数据集中提取特定信息时,它们特别有价值。该模型通过阅读、过滤和分析数十万份文档,从中提取信息精髓,其非凡能力无疑将为从科学到金融等各个领域的突破性发现做出贡献。”
在演示过程中,展示了一项综合研究的示例,其中包含超过 200,000 条记录,其中一些记录需要根据新数据进行更新。可以想象,手动执行此任务将非常耗时,因此研究人员应用了 Gemini 生成利用输入数据并包含必要更新的代码。另一个更实际的例子是使用 Google 的语言模型来解释与数学或物理相关的任务。
本例中的输入数据包括学校课程作业的照片/扫描件。系统成功处理了存储的图形和文本,然后指出作业的哪些部分做得正确,哪些部分需要额外注意。演示表明,用户可以反复询问 Gemini 解释任务,并且每次后续尝试都需要更简单的语言来解释。 Gemini当然,这还有待有兴趣的人验证,但直接从照片中读取和处理文本的能力令人印象深刻。正如演示过程中提到的:
“Gemini 经过训练,它可以同时识别和理解文本、图像、声音等。这使它能够更好地掌握信息的细微差别并响应复杂的查询。它在解释与数学和物理相关的主题方面特别有效,使其成为家庭作业的宝贵个人指南。”
Gemini 在 Google Pixel 智能手机中
“谷歌还夸口说 Gemini 在新的 TPUv5 芯片组上进行了“训练”,并计划推出 Gemini Ultra 将于 2024 年初推出,它将采用 Bard Advanced,这是该巨头消费级语言模型的新版本。目前, Gemini Ultra 正处于测试阶段,并已向选定的安全专家开放。”
最新的重要信息是整合 Gemini 谷歌 Pixel 8 智能手机将采用人工智能技术。这将允许通过即时通讯应用 Gboard 创建快速回复等。第一个受益者是 WhatsApp,但明年,其他与通信相关的应用程序也将采用此类解决方案。然而,这只是一个开始,因为谷歌已经宣布了许多适用于 Pixel 8 智能手机的新 AI 工具,未来它们将在其他一些智能手机上可用 Android 设备。不过,这些都是未来的计划,目前尚未提供任何细节。
如何 Gemini 与其他 AI 模型(例如 GPT-4)有何不同?
新的 Gemini 谷歌的模型似乎是迄今为止最大、最复杂的人工智能模型之一,尽管 Ultra 模型的发布肯定会决定这一点。与目前在人工智能聊天机器人中使用的其他流行模型相比, Gemini 以其独特的多模式功能脱颖而出,而 GPT-4 等其他模型则依靠插件和集成才能真正实现多模式。

对准确性和公正性的担忧
而 Gemini 虽然代表了人工智能能力发展的重大飞跃,但它也有缺点,与其他大型语言模型一样。首先,它有可能产生错误信息。偏见也根植于新语言模型可用的训练数据。同样值得一提的是,它对现实世界的理解有限。谷歌承认,新语言模型 Gemini 模型可能会犯错误,提供不基于证据的事实,并且与常识相矛盾。
需要进行其他测试,尤其是 Gemini Ultra 具有尚未充分探索的新功能。谷歌的目标是彻底评估 Gemini 以尽量减少潜在的伤害。
另请阅读: 卫星互联网之战:欧洲面临的挑战 Starlink
未来与 Gemini
推出 Gemini 谷歌的人工智能开创了人工智能发展的新纪元。与之前的模型和人类基准相比,其性能更出色, Gemini 指出了人工智能未来的可能性。然而,它仍然需要进一步研究来解决某些缺点。
未来,我们可以期待 Gemini 为 Google 产品提供更多实用、智能的功能。该公司计划继续扩展 Gemini 以外 English 并建立在其基本模型方法之上。
我们只能袖手旁观,希望谷歌知道它在做什么。
阅读: