OpenAI 春季更新:
引入 GPT-4o,并在 ChatGPT 中免费提供更多功能。
我们宣布推出 GPT-4o,这是我们的新旗舰型号,可以实时推理音频、视觉和文本。
GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这类似于人工响应时间(在新窗口中打开)在对话中。它在英语文本和代码上的 GPT-4 Turbo 性能相匹配,在非英语语言的文本上也有显着改进,同时在 API 中也更快且便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 交谈,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的管道:一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着智能的主要来源 GPT-4 会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音,也无法输出笑声、唱歌或表达情感。
借助 GPT-4o,我们在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合了所有这些模式的模型,所以我们仍然只是在探索该模型可以做什么及其局限性的表面。
参考连接:你好 GPT-4o |OpenAI
