衡量 OpenAI 新旗舰模型的英语理解能力

OpenAI 最近发布的 GPT-4o 为人工智能语言模型以及我们如何与它们交互的新时代奠定了基础。
最令人印象深刻的部分是支持与 ChatGPT 进行实时交互,并可中断对话。
尽管在现场演示过程中出现了一些问题,但我对团队所取得的成就感到非常惊讶。
最重要的是,演示结束后,OpenAI 就允许访问 GPT-4o API。
在本文中,我将使用我创建的英文数据集展示我的独立分析,衡量 GPT-4o 与 GPT 4 与 Google Gemini 和 Unicorn 模型的分类能力。
这些模型中哪个模型的英语理解能力最强?

最前沿的是 Omni 模型的概念,旨在无缝理解和处理文本、音频和视频。
OpenAI 的重点似乎已经转向向大众普及 GPT-4 级智能,使免费用户也能使用 GPT-4 级语言模型智能。
OpenAI 还宣布 GPT-4o 涵盖 50 多种语言的增强质量和速度,承诺以更便宜的价格提供更具包容性和全球可访问的 AI 体验。
他们还提到,与非付费用户相比,付费用户将获得五倍的容量。
此外,他们还将发布 ChatGPT 的桌面版本,以方便大众跨音频、视觉和文本界面进行实时推理。
新的 GPT-4o 模型遵循 OpenAI 现有的聊天完成 API,使其向后兼容且易于使用。
从 openai 导入 OpenAI
OPENAI_API_KEY = " ”
def openai_chat_resolve(response: dict, strip_tokens = None) -> str:
如果 strip_tokens 为 None:
strip_tokens = []
如果response和response.choices且len(response.choices) > 0:
内容 = response.choices[0].message.content.strip()
如果内容不是 None 或 content != '':
如果strip_tokens:
对于 strip_tokens 中的令牌:
内容 = content.replace(token, '')
返回内容
引发异常(f'无法解析响应:{response}')
def openai_chat_request(提示: str, model_name: str, 温度=0.0):
message = {'角色':'用户','内容':提示}
客户端 = OpenAI(api_key=OPENAI_API_KEY)
返回 client.chat.completions.create(
模型=模型名称,
消息=[消息],
温度=温度,
)
响应= openai_chat_request(提示=“你好!”,model_name=“gpt-4o-2024-05-13”)
答案= openai_chat_resolve(响应)
打印(答案)
GPT-4o 也可使用 ChatGPT 界面:

OpenAI 的博客文章包含已知数据集(例如 MMLU 和 HumanEval)的评估分数。

从图中我们可以看出,GPT-4o 的性能可以被归类为该领域最先进的——考虑到新模型更便宜、速度更快,这听起来非常有前途。
然而,在去年,我看到多个模型声称在已知数据集上具有最先进的语言性能。
事实上,其中一些模型已经在这些开放数据集上进行了部分训练(或过度拟合),导致排行榜上的分数不切实际。如果您有兴趣,请参阅本文。
因此,使用鲜为人知的数据集(例如我创建的数据集)对这些模型的性能进行独立分析非常重要
正如我在之前的文章中所解释的,我创建了一个主题数据集,我们可以用它来衡量不同法学硕士的分类性能。
该数据集由 200 个句子组成,分为 50 个主题,其中一些句子密切相关,旨在使分类任务变得更加困难。
我手动创建并用英语标记了整个数据集。
然后,我使用 GPT4 ( gpt-4–0613 ) 将数据集翻译成多种语言。
然而,在评估过程中,我们将仅评估数据集的英文版本,这意味着结果不应受到因使用相同语言模型进行数据集创建和主题预测而产生的潜在偏差的影响。
自己去查看数据集:主题数据集。
我决定评估以下模型:
- GPT-4o : gpt-4o-2024-05-13
- GPT-4: gpt-4-0613
- GPT-4-Turbo : gpt-4-turbo-2024-04-09
- 双子座 1.5 专业版:gemini-1.5-pro-preview-0409
- 双子座 1.0:gemini-1.0-pro-002
- Palm 2 独角兽:text-unicorn@001
语言模型的任务是将数据集中的每个句子与正确的主题相匹配。
这使我们能够计算每种语言的准确度分数和每个模型的错误率。
由于模型大多分类正确,因此我绘制了每个模型的错误率。
请记住,错误率越低表明模型性能越好。

从图中我们可以看出,GPT-4o 的错误率是所有模型中最低的,只有 2 个错误。
我们还可以看到 Palm 2 Unicorn、GPT-4 和 Gemini 1.5 接近 GPT-4o——展示了它们强大的性能。
有趣的是,GPT-4 Turbo 的性能与 GPT-4-0613 类似。查看 OpenAI 的模型页面,了解有关其模型的更多信息。
最后,Gemini 1.0 落后了,考虑到其价格范围,这应该是可以预料到的。
多种语言
我最近发表了另一篇文章,衡量 gpt4o 与其他法学硕士(例如 Claude Opus 和 Gemini 1.5)的多语言能力。
文章链接:https://medium.com/@lars.chr.wiik/claude-opus-vs-gpt-4o-vs-gemini-1-5-multilingual-performance-1b092b920a40

大海捞针
我写了另一篇文章,评估 GPT-4o 和 Gemini 1.5 如何使用“大海捞针”框架来记住它们的上下文。使用下面的链接查看一下!
OpenAI 的 GPT-4o 与 Gemini 1.5 ⭐ 上下文记忆评估
https://medium.com/@lars.chr.wiik/openais-gpt-4o-vs-gemini-1-5-context-memory-evaluation-1f2da3e15526
这项使用独特制作的英语数据集的分析揭示了对这些高级语言模型的最先进功能的见解。
OpenAI 的最新产品 GPT-4o 在测试的模型中以最低的错误率脱颖而出,这证实了 OpenAI 对其性能的宣称。
人工智能社区和用户等必须继续使用不同的数据集进行独立评估,因为这有助于更清晰地了解模型的实际有效性,而不仅仅是标准化基准所建议的。
请注意,数据集相当小,结果可能会因数据集而异。性能仅使用英文数据集进行,而多语言比较则需要等待其他时间。
谢谢阅读!
关注以后即可收到类似内容!
如果您有任何疑问,请随时与我们联系!
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。