AI革命新篇章:法国天才团队挑战ChatGPT霸主地位

Mistral AI: Guillaume Lample, Arthur Mensch et Timothée Lacroix.

ChatGPT 的霸主地位已被三位来自法国的天才所颠覆!如上图这三个人,其中一位曾在 DeepMind 工作,另外两位来自 Meta,他们联手为 AI 领域带来了革命性的变革

我们可以想象一下,一家仅成立 8 个月的公司,如今已经在这短暂的时间里震撼了整个 AI 行业。

他们推出了新型 AI 模型,不仅与 ChatGPT 一较高下,甚至超越了市场上所有的竞争对手,让公司的估值接近了20亿美元。

更难能可贵的是,他们没有借助任何夸大其词的宣传片或大规模市场活动就取得了这样的成就。

现在,让我们来详细了解这些法国创新者是如何改变现状的,以及我们如何能从他们的突破中获益。

首先,我们不妨先来看一张与 ChatGPT 竞争的顶尖 AI 模型比较表。

LMSys Leaderboard

这张表透露了一些挺有意思的信息。

比如说,ChatGPT 在不同版本间似乎有所退步。

还有一些分数排列得似乎有些不协调,让人感到困惑。

但最引人注目的要数那些被标上“Mixtral”等名字的小黄线——这些名字让人联想到风。

乍一看,这些模型的排名并不显眼,甚至有些偏低。

然而,这样的初步印象却忽视了它们背后所蕴含的革命性影响力。

要知道,评估一个语言模型 (LLM) 的性能有很多方法,并非只有一条路可走。

基准测试,即向 LLM 提出一系列问题来测试其能力,是其中一种方法。

比如,考虑一个哲学问题,需要用到恰当的词汇来替换。

问题在于,尽管模型理论上能在这些基准测试中取得高分,但在实际应用中,它们的表现可能并不如预期。

这种情况并不罕见,就像 Google 的 Gemini 模型,它们在 MMLU 基准测试中得分很高,但在实际使用中,效果却不如 ChatGPT-4,这可能是因为训练过程中数据集的泄露。

尽管基准测试能提供一定的指导作用,但在实际应用场景中,人类的直觉仍然是评估模型效果最可靠的标准。

大语言模型排名更新:2024年1月27日

从最近一周前大模型排行榜来看,Google Gemini Pro 现在在大语言模型排名中位居第二。Mistral 发布了 Medium 版本,在性能上超越了 Mixtral 8x7b。

那么,我们如何对这些 AI 模型进行排名呢?

一种常见的方法是采用类似于国际象棋 ELO 评分系统的评分机制。这涉及到对不同模型的回答进行比较,并根据表现给予相应的分数。

这就引出了前文提到的排名表,这是一种广为人知的模型评级方式。

在这份榜单中,你可以看到AI模型界的佼佼者,包括位于榜首的专有模型 GPT-4,紧随其后的是 Anthropic 的 Claude(该公司由前OpenAI成员创立),以及各种版本的 GPT-3.5。

再往下看,我们发现了Google最近推出的Gemini Pro。这些都属于专有的AI模型。

但我们真正感兴趣的是开源模型。

这些模型通常规模较小,计算需求也更低,我们可以免费下载到本地使用,还可以用我们自己的数据进行再训练。

直到不久前,唯一能与ChatGPT及其衍生模型相媲美的唯一真正竞争对手是 LIAMA 2,它是 Facebook 模型经过精细调校后的一个优化版本。

然而,两个月前,排名图表上出现了代表 Mistral 等模型的小黄线。

Mistral 的推出方式颇为独特。当时还鲜为人知的 Mistral 账户发布了一条推文,里面只有一个磁力链接(一种通过网络分享文件的方式),没有提供任何背景信息或宣传资料。

点击链接之后,就会出现一个有70亿参数的模型。

在这里,理解模型的参数规模至关重要——就像拳击中的体重级别,参数数量(在这个例子中是数十亿)代表了模型的规模。更大的模型需要更多的计算资源和更高级的硬件支持。

例如,GPT-3 和 GPT-4 这样的大型模型可能拥有超过 1000 亿个参数,需要庞大的服务器基础设施来运行。

相比之下,像 LIAMA 2 这样的小型模型提供了不同规模的版本,最大版本拥有 700 亿参数,尽管如此,运行它仍然需要相当强大的硬件。

Mistral 推出的 70 亿参数模型的出现,改变了游戏规则。

起初,大家会因其规模较小而持怀疑态度,但很快发现这个模型的表现异常出色。尽管参数数量相对较少,但它在排行榜上跻身前十名,甚至挑战了那些拥有 700 亿参数的顶尖模型。Mistral 的最新版本,Sterling LM 7b Alpha,不仅超越了 GPT-3.5 的各种变体,甚至超越了 LIAMA 2 的 700 亿参数版本。

参数数量适中的Mistral,排名前十,挑战即使是最好的70-billion-parameter模型。

这一进展激发了社区的热烈反响,大家纷纷下载、实验并改进这个模型。

Mistral 的小巧体积也意味着它可能没有那么庞大的互联网知识库,这可能会让它更容易“产生幻觉”或“捏造”信息。

不过,它的小巧体积也使得它能够在 Mac 和一些 iPhone 设备上本地运行,极大地提升了可用性。

就在半个多月前,又一场革命性的变革诞生了:Mixtral 8x7b 的推出。

这个模型采用了“专家混合”技术,即模型的不同部分专注于不同的领域(比如数学、编程、文学)。

这种架构与 GPT-4 类似,它允许模型在不需要相应的计算能力的情况下,也能享受到一个 8 x 7 模型的优势。

简而言之,你可以用一个 140 亿参数模型的计算成本,享受到一个 560 亿参数模型的优势。

Mixtral 8x7b 的表现非常出色——它就像是轻量级选手在重量级比赛中大放异彩!

最近,Mistral 还推出了Mistral Medium,可以通过他们的云平台使用。

通过初步对比 Mistral Medium 和 GPT-4 显示,尽管 GPT-4 可能因为追求“安全”和“政治正确”而受到限制,影响了其性能,但 Mistral Medium 却能提供更精确、更实用的回答。

Mistral 的创新正在重塑 AI 领域的格局

Mistral 成功开发出了更小巧、更高效的模型,能够与 GPT-4 这样的行业巨头一较高下,这为 AI 的普及化铺平了道路,为开发者和企业开辟了新的可能性。

这家公司值得密切关注,尤其是随着他们在 AI 领域的不断突破。

总结

随着 Mistral 的创新不断涌现,我们看到了 AI 领域的新篇章正在被书写。这些小巧而高效的模型,不仅在性能上挑战了行业巨头,更是在可访问性和实用性上迈出了重要一步。Mistral 的 Medium 版本和 Mixtral 8x7b 的推出,不仅展示了 AI 的新高度,也为开发者和企业提供了前所未有的机遇。在这个快速变化的时代,Mistral 的故事提醒我们,创新的力量是无穷的,而 AI 的未来,正等待着我们去探索和定义。让我们拭目以待,看 Mistral 如何继续在 AI 的舞台上,引领风潮,我们期待更多类似Mistral的企业能够通过创新推动整个行业前行,为人类社会带来更多价值。