谷歌刚刚发布了有史以来最强大的人工智能模型 双子座。 她是什么以及她能做什么? 关于我们文章中的所有内容。
谷歌多年来一直在开发自己的人工智能工具。 随着OpenAI公开发布ChatGPT-3,这家运营全球最受欢迎搜索引擎的公司也创建了类似的工具Bard。 但这个工具仍然输给了竞争对手,这是谷歌不能允许的。 因此,世界最近看到了 Gemini,我们在演示中了解到的 Google 新语言模型也就不足为奇了。
它的设计不仅是为了改进巨人之前的LLM(大型语言模型),而且还为文本处理、图形和声音领域提供了全新的可能性。
那么让我们仔细看看新的 Google Gemini 语言模型。
也很有趣: OpenAI 项目 Q*:它是什么以及该项目为何受到关注
这是谷歌推出的一种新的、强大的人工智能模型,它不仅可以理解文本,还可以理解图像、视频和音频。 这种多模态模型被描述为能够执行数学、物理和其他领域的复杂任务,以及理解和生成各种编程语言的高质量代码。
Gemini 目前可通过与 Google Bard 和 Google Pixel 8 集成来使用,并将逐步纳入其他 Google 服务中。
“Gemini 是 Google 团队(包括我们 Google Research 的同事)大规模协作的结果,”—— 谷歌 DeepMind 首席执行官兼联合创始人丹尼斯·哈萨比斯 (Dennis Hassabis) 说道。 “它是从头开始构建的多模式,这意味着它可以概括并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。”
也很有趣: 并非所有我们称为 AI 的东西实际上都是人工智能。 这是你需要知道的
正如你可能已经猜到的,Gemini 是由 Google 和 Google 母公司 Alphabet 创建的,是该公司迄今为止最先进的人工智能模型。 谷歌的DeepMind部门也为其发展做出了重大贡献。 目前尚不清楚有多少员工参与了开发,为此分配了哪些资金,但了解谷歌的能力,我们可以确定数量非常大。
也很有趣: Windows 12:新操作系统是什么
正如我上面提到的,它是一个多模式模型,这意味着它可以理解、操作和组合不同类型的数据,包括文本、代码、音频、图像和视频。 与以前的人工智能系统相比,它提供了更好的理解、思考和编码技能。
该模型的主要功能是:
正如您所看到的,这些功能优于其他型号。
在语言理解、数学思维和编码测试中,Gemini Ultra 的表现优于 GPT-4 等模型。 特别是,它是第一个在大规模多任务语言理解 (MMLU) 测试中超越人类水平的模型,准确率达到 90% 以上。
在一项大型语言模型研究的 32 项学术测试中,Gemini 的表现优于 GPT-4。 在 30 个案例中,谷歌的新语言模型比竞争对手更好。 这证明了模型完全理解该语言的能力。
另请阅读: 人脑计划:模仿人脑的尝试
谷歌将这种人工智能描述为一种灵活的模型,可以在任何设备上工作:从谷歌数据中心到移动设备。 为了实现这种可扩展性,Gemini 提供了三个版本:Nano、Pro 和 Ultra。
让我们更详细地讨论一下 Gemini 的不同版本。
也很有趣: Google Bard AI:您需要了解的一切
Nano 和 Pro 版本的 AI 现已分别在 Google 产品中使用,例如 Google Pixel 8 智能手机和 Bard 聊天机器人。 谷歌计划最终将其整合到其搜索引擎、广告、Gmail电子邮件服务、Chrome浏览器和其他服务中。
从 13 年 2023 月 日开始,开发者和企业客户将能够通过 Google AI Studio 和 Google Cloud Vertex AI 中的 Gemini API 访问 Pro。开发商 Android 将可以通过 AICore 访问 Nano 版本模型,该模型将在早期预览中提供。
另请阅读: Samsung Galaxy 翻转5 vs Motorola Razr 40 Ultra:两个横尊之战
根据演示期间提供的信息,该模型将使 Google Bard 能够更好地处理更复杂的问题,如下所示:
“我们设计 Gemini 时,该模型自然是多模式的,并且从一开始就针对多种模式进行了预训练。 然后,我们通过添加更多多模式数据来改进它以提高性能。 因此,Gemini 比以前的多模式模型更容易理解和推断,并且在几乎所有领域都拥有最先进的能力。
Gemini 非凡的多模式功能可帮助您理解复杂的文本和视觉信息。 当从庞大的数据集中提取特定信息时,它们特别有用。 该模型具有通过阅读、过滤和分析数十万份文档来提取信息本质的非凡能力,这无疑将有助于从科学到金融等各个领域获得闪电般的新发现。”
在演示过程中,演示了一个复杂研究的示例,其中包含超过 200 万条记录,其中一些记录必须根据新数据进行更新。 正如您可能已经猜到的那样,手动执行此操作将非常耗时,因此研究作者使用 Gemini 准备代码来获取输入并进行必要的更新。 另一个更现实的例子是使用谷歌的语言模型来解释数学或物理问题。
这里的输入数据是学校课程作业的照片/扫描件。 该系统能够处理存储在其中的图形和文本,然后指示作业的哪些部分完成正确,哪些部分需要更多注意。 该演示显示,用户可以反复要求 Gemini 解释一项任务,并且随后的每次尝试都必须用更简单的语言进行解释。 当然,双子座的准确性和正确性将由感兴趣的人检查,但直接从照片读取和处理文本的能力令人印象深刻。 正如演示期间所补充的:
“双子座被教导要同时识别和理解文本、图像、声音等。 因此,他可以更好地理解信息的细微差别,并能够回答复杂的问题。 它对于解释与数学和物理相关的话题特别有效,因此可以作为个人作业的帮手“。
谷歌还吹嘘Gemini“学习”了新的TPUv5芯片组,并计划在2024年初推出Gemini Ultra,它将使用Bard Advanced,这是巨人语音模型的消费版的新版本。 Gemini Ultra 目前正在测试中,并且已经可供选定的安全专家使用。
最后一个重要信息是在 Google Pixel 8 智能手机中引入 Gemini,这将允许通过消息应用程序中的 Gboard 应用程序创建快速回复。第一个是 WhatsApp,但明年此类解决方案将出现在与通信相关的其他应用程序中。然而,这只是一个开始,谷歌已经宣布了许多适用于 Pixel 8 智能手机的新 AI 工具,未来它们还将在其他一些设备上使用。 Android。不过,这些都是进一步的计划,目前尚未提供任何细节。
谷歌的新 Gemini 模型看起来是迄今为止最大、最先进的人工智能模型之一,尽管 Ultra 模型的发布将确定这一点。 与目前使用人工智能聊天机器人的其他流行模型相比,Gemini 以其自己的多模态功能脱颖而出,而 GPT-4 等其他模型则依靠插件和集成来实现真正的多模态。
尽管Gemini在人工智能能力发展方面取得了重大飞跃,但它也与其他主要语言模型一样存在缺陷。 首先,这是制造虚假信息的可能性。 偏差还基于新语言模型可用的训练数据。 还值得一提的是对现实世界的了解有限。 谷歌承认,新的 Gemini 模型可能会犯错误,提供没有证据的事实并违背常识。
还需要更多的测试,特别是对于 Gemini Ultra,它具有尚未完全探索的新功能。 Google 致力于仔细评估 Gemini,以最大程度地减少潜在危害。
也很有趣: 关于一切 Microsoft 副驾驶:未来还是方向不对?
谷歌推出Gemini,开启了人工智能发展的新时代。 与之前的模型和人类基线相比,Gemini 具有最佳的性能,指出了人工智能未来的可能性,但仍需要更多的研究来解决某些缺点。
未来,您可以期待Gemini在Google产品中提供更多有用和智能的功能。 展望未来,该公司计划继续将 Gemini 扩展到英语以外的领域,并以其核心模型方法为基础。
我们只能袖手旁观,希望谷歌知道它在做什么。
另请阅读:
发表评论