绝地反击GPT-4，谷歌推出最强大模型Gemini

作者：陈兴华 2023-12-07

来源：爱集微 #谷歌# #大模型# #Gemini#

9.9w

（文/陈兴华）被ChatGPT压制整整一年之后，谷歌展开了最强反击战。12月7日凌晨，谷歌CEO桑达尔·皮查伊（Sundar Pichai）和Deepmind CEO戴密斯·哈萨比斯（Demis Hassabis）在谷歌官网联名发文称，其最新大模型Gemini 1.0（双子星）版本正式上线。在他们看来，Gemini的发布仅仅是一个开始，更大的技术迭代、产品应用和生态构建宏图即将展开。

从测试数据来看，Gemini大模型在知识储备、专业能力和多模态等方面均超越GPT-4，而且部分核心能力首次超越了人类专家，这不仅对OpenAI构成了强有力的冲击和挑战，也标志着AI大模型浪潮进入一个新的阶段。但即使Gemini“效果惊人”，谷歌似乎并没有十足底气，包括没有公布Gemini顶尖大模型的性能数据，不免被质疑吹嘘过度和测试标准偏颇。

首超人类专家，多维领先GPT-4

作为筹备一年之久的GPT-4强力竞品，Gemini 1.0是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型，分别包括Gemini Ultra、Gemini Pro和Gemini Nano三种不同套件。其中Ultra是谷歌最大、最强模型，适用于高度复杂的任务；Pro能力稍弱，是一个可扩展至多任务的模型；Nano则是一款适用于端侧设备运行的模型。

不过，谷歌方面并没有透露Gemini Ultra和Gemini Pro的具体参数大小，只是明确称规模最小的Gemini Nano的参数分别为18亿（Nano-1）和32.5亿（Nano-2）。但有传言称，Gemini Ultra的参数规模达到万亿级别，训练动用的算力是GPT-4的5倍以上。

Gemini发布后，外界尤其关注其对GPT-4的挑战。谷歌DeepMind产品副总裁伊莱·柯林斯（Eli Collins）表示，团队一直在对Gemini进行严格的测试并评估其在各种任务中的性能。从自然图像、音频和视频理解到数学推理，在被大型语言模型（LLM）研究和开发中广泛使用的32项学术基准中，Gemini Ultra的性能有30项都超过了目前最先进的水平。

据MMLU（大规模多任务语言理解数据集）的测试结果，Gemini Ultra的得分率为90%，这款MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目，专门用于测试大模型的知识储备和解决问题能力。作为对比，人类专家的得分率为89.8%，GPT4得分率为86.4%。这说明Gemini Ultra是第一个在MMLU测试中超过人类专家的模型。

在多模态方面，Gemini Ultra在权威MMMU基准测试中也获得了59.4%的SOTA分数，高于GPT-4V的56.8%。这项基准测试是由跨不同领域的多模式任务组成，需要大模型进行深思熟虑的推理过程，而谷歌Gemini大模型多模态背后的技术原理也引发业界关注。对此，谷歌DeepMind首席科学家杰夫·迪恩（Jeff Dean）团队撰写了60页技术报告来阐述。

以往，多模态大模型是将纯文本、纯视觉和纯音频模型拼接在一起，例如OpenAI的GPT-4、DALL·E和Whisper等，但这并不是最优解。据戴密斯·哈萨比斯透露，Deepmind团队将Gemini设计为原生多模态，从一开始就在不同模态上进行预训练。然后，利用额外的多模态数据对其进行微调，以进一步提高其有效性。这有助于Gemini从最初阶段就能对输入的各种内容顺畅地进行理解和推理，并优于现有的多模态模型。

谷歌方面称，Gemini将通过其系列产品推向数十亿用户，其中谷歌聊天机器人Bard由Gemini Pro微调版本驱动，在170多个国家和地区提供英语服务并持续扩展，这是Bard自推出后的最大升级。而谷歌的Pixel 8 Pro将成为首款搭载Gemini Nano的智能手机，明年年初将推出Bard Advanced，提供Gemini Ultra模型的最佳性能。此外，值得注意的是，在Gemini亮相同时谷歌还推出了专为大模型设计的新一代TPU——Cloud TPU v5p。

“复仇者联盟”坐镇，竞争行业王座

一定程度上，谷歌发布Gemini多少让外界有些意外。在今年5月谷歌的开发者大会上，谷歌便高调对外宣布下一代大语言模型Gemini，按照原计划将在12月份对外正式发布。但近期传出谷歌将发布Gemini推迟至明年1月，谷歌方面给出的理由是“在某些非英语任务方面的表现不佳”，这曾引发了外界猜测谷歌在Gemini研发方面遇到了困难和挑战。

过去一年来，全世界的AI公司掀起“对标”GPT热潮，其中谷歌被视为当仁不让的最强大对手，但在与OpenAI的竞争中，回应却总步履蹒跚。或许是迫于外界预期压力以及加速追赶OpenAI，谷歌最终按原计划对外发布了Gemini。无论如何，Gemini的正式登场不仅形成了对OpenAI的有力反击，也意味着AI大模型浪潮进入到一个全新阶段。

从如今公布的Gemini参数和使用效果来看，谷歌的“AI家底”自然不菲。例如在官方技术报告中，谷歌提到是使用TPUv5e和TPUv4对Gemini进行大规模训练，旨在将其打造成可靠、可扩展的训练模型和最高效的服务模型。在TPU上，Gemini的运行速度明显快于其早期规模较小、能力较弱的模型，如被曝参数规模为3400亿的PaLM-2。而最新的TPU v5p一旦纳入运营，将进一步减少谷歌训练Gemini大模型相关的时间投入等。

此外，为了强化技术班底，谷歌曾在今年4月直接把谷歌大脑（Google Brain）和DeepMind合并在一起，其中Google Brain曾经缔造了Tensorflow与Transformer架构，DeepMind则曾凭借AlphaGo掀起上一轮AI热潮、创造了AlphaFold预测蛋白质折叠。由于此前在行业竞争中失利，这一团队也被外界调侃是“AI复仇者联盟”。而正是基于汇合两个顶尖实验室力量的紧密攻关，Gemini才得以在多项指标上实现了对GPT-4的绝地反击。

前不久，OpenAI经历了全球瞩目的戏剧性“董事会内乱”，其CEO山姆·阿尔特曼（Sam Altman）突遭董事会罢免，但最终迅速回归。此后，OpenAI的未来发展增添许多新的不确定性，包括推出的GPT高级版无限期暂停等，这也给了谷歌等公司更多追赶的时间和机会。

目前来看，虽然OpenAI占有先机，通过ChatGPT获得了大量训练数据反馈，但谷歌也依然有着自身的技术和生态优势。据外媒此前报道称，Gemini至少在一个重要方面比GPT-4强，即除了来自网络的公共信息之外，Gemini还利用了来自谷歌旗下产品的大量专有数据。因此，在理解用户特定查询的意图时更准确，而且错误答案（即幻觉）也似乎更少。

在Gemini正式亮相后，业界不乏对其肯定和追捧，其中英伟达AI科学家范麟熙（Jim Fan）表示，迟到总比不做好，OpenAI王座终于有了强力竞争者。但对于Gemini“效果惊人”，也有分析称，谷歌有些吹嘘过度以及测试标准有失偏颇等，包括即便是通过Gemini Ultra对比，但很多项也都仅是略高于GPT-4和GPT-4V等模型。不过，艾伦人工智能研究所前CEO奥伦·埃齐奥尼（Oren Etzioni）则称，“没有理由怀疑Gemini在这些基准上比GPT-4更好，但没准GPT-5会比Gemini做得更好。”

（校对/陈炳欣）