苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影动画片视频、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作,平面广告装饰、多媒体广告展厅文化墙装修全包、钰尚文化传媒——合作咨询 联系微信:esay8168 ,联系:电话18888186853微信同号

扫微信二维码

联系

电话18888186853微信同号




这里是文章模块栏目内容页
GPT-4o mini突然上线!该换小模型赛道的OpenAI意欲何为?

声明:本文来自于微信公众号 新火种,作者:小岩,授权站长之家转载发布。

ChatGPT 正式进入了“4”时代。

7月18日,OpenAI 官宣推出了GPT-3.5Turbo的替代品——GPT-4o mini,至此,ChatGPT的更新迭代又近了一步,来到了4字开头的时期。据了解,即日起,ChatGPT的免费用户,Plus用户以及Team用户都能够使用GPT-4o mini,企业版客户也会在随后获得使用GPT-4o mini的权限。

OpenAI杀入小模型赛道!GPT-4o mini究竟有哪些过人之处?

在各大AI企业争相推出产品的当下,OpenAI的更新速度并不算太快。很多人都希望蛰伏许久的OpenAI能够一出手,就干件大事儿,诸如推出一个在各个方面都能碾压上一代产品的GPT-5.0。也正因此,很多人对于GPT-4o mini的出现感到些许失望。

但需要说明的是,GPT-4.o mini不仅不是一无是处,反而是一个极具代表性的产品。OpenAI把GPT-4o mini描述为“一个具有卓越文本智能和多模态推理能力的小模型”,这就对其进行了精准定位:小模型赛道上的领先产品。

图片

据OpenAI介绍,GPT-4o mini目前在LMSYS排行榜上的聊天偏好方面优于GPT-4,在文本智能和多模态推理方面的学术基准测试中超越了GPT-3.5Turbo和其他小型模型,并且支持的语言范围与GPT-4o相同。而GPT-4o mini在函数调用方面也表现出色,可以使开发人员构建获取数据或使用外部系统采取行动的应用程序。

此外,与GPT-3.5Turbo相比,GPT-4o mini的长上下文性能有所提高,已经在几个关键基准上进行了评估,即推理任务,数学和编码能力以及多模态推力。

在推理任务方面,GPT-4o mini在涉及文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准MMLU上的得分为82.0%,而Gemini Flash为77.9%,Claude Haiku为73.8%;在数学和编码能力方面,GPT-4o mini的表现优于市场上之前的小型模型,在测量数学推理的MGSM上,GPT-4o mini得分为87.0%,而Gemini Flash得分为75.5%,Claude Haiku得分为71.7%;在测量编码性能的HumanEval上,GPT-4o mini得分为87.2%,而Gemini Flash得分为71.5%,Claude Haiku得分为75.9%;在多模态推理方面,GPT-4o mini在多模态推理评估MMMU中也表现出色,得分为59.4%,而Gemini Flash为56.1%,Claude Haiku为50.2%。

更重要的是,GPT-4o mini还有一项极具竞争力的优势:价格足够实惠。

OpenAI表示,开发人员使用GPT-4o mini时,每100万个输入tokens需支付15美分,每100万个输出tokens需支付60美分。这个定价比之前的Frontier型号便宜了足足一个数量级。即便与自家的上一代产品GPT-3.5Turbo也要便宜60%以上。

GPT-4o用起来究竟如何?一手测评结果:懂得不算多,但速度绝对快。

当然,理论上的优势说的再多,也不及大家的实际体验来得重要和直观。

目前,GPT-4o mini 在 WildBench 测试上排名第9,优于谷歌的Gemini-flash以及 Anthropic的Claude3Haiku。看得出来,大家对于这款新晋产品还是很感兴趣的。

有网友在GPT-4o mini开放测试的第一时间就赶过去问它了一个问题:9.11和9.9哪个大?

很遗憾,GPT-4o mini没有给出正确的答案,不仅没有给出正确的答案,还在错误的路上越走越远,一本正经地回答9.11大于9.9,因为0.1大于0.9。

图片

随后,网友在 Poe(Quora 开发的应用程序,已经集成了 GPT-4o mini)中输入人物传记电影《Eno》的设计封面,让GPT-4o和GPT-4omini模型进行解读,结果 mini翻车了。GPT-4o mini 直接表示“自己认不出照片上的人”,反而是GPT-4o的回答就比较准确。

不过,说起响应速度,那么GPT-4o mini确实对得起OpenAI给予的“faster”标签。与它进行对话,几乎无需任何等待,输出速度堪称快的离谱。

尽管就目前来看,GPT-4o mini回答问题的准确性还有待提高,但不可否认,它目前已经是性能最为优越的小模型了,完全可以超越GPT-3.5Turbo和其他小模型。据了解,GPT-4o mini的知识更新到去年10月,语言种类和GPT-4o对齐,上下文窗口为128k。

当下的GPT-4.o mini在API中仅支持文本和视觉模态,而在不久的未来,它还将扩展到视频和音频的输入及输出。尽管还没有任何参数规模被披露,但OpenAI的官方直接表示,这是他们目前最经济,最有成本效益的小模型了,微调功能也将很快上线。

小模型的出现,才能真正完成OpenAI的使命?

虽然GPT-4o mini是一个小模型,但相较于大模型,它在性能上并没有做出太大妥协。

得益于优化的架构设计和高效的算法,GPT-4o mini 能够在保留大模型强大性能的基础上,提供更加轻量级的解决方案。这使得它在处理文本生成,对话和翻译等任务时,依然能够表现出色。

但是问题来了,先前一直在做大模型的OpenAI为什么选择转头深耕小模型赛道?

OpenAI API方面的负责人Godement表示,这涉及到一个“优先考虑”的问题。此前,OpenAI专注于GPT-4这样的大模型,而随着时间的推移,OpenAI终于注意到了开发者们渴望对小模型的愿景,才终于决定投入资源。据了解,OpenA对于GPT-4o mini是非常有信心的,认为其一定会非常受欢迎。

事实的确如此。对于渴望低成本构建应用的开发者来说,GPT-4o mini来得太及时了。譬如金融初创公司Ramp在测试中,就用它构建了提取收据上费用的工具,不必费力浏览文本框,模型就会自动对所有内容排序,大大提高了工作效率。

在OpenAI设想的未来里,模型将会被无缝集成到每一个应用程序和每一个网站之上。如今,随着GPT-4o mini的推出为开发者更高效、更经济地构建和扩展强大的AI应用铺平道路。可以看到,AI正在变得更容易访问,可靠,并会融入到所有人的日常体验中。而OpenAI,则会继续引领这一进程。

曾几何时,OpenAI也是一心要走大模型之路的,可惜这条路它们走得并不顺利。尽管相较于上一波AI公司,OpenAI创造了更大的现金流,但从战略上说,它并没有把自己倒腾到一个合适的位置上。

在这种情况下,一味死磕大模型,很有可能给公司造成毁灭性的打击,会导致高昂的人才,训练成本根本找不到落点。更可怕的是,一旦技术增长停滞后,它的客户端注定会把它踢掉或者在多个供应商之间压价。这就会导致大模型公司变成赚钱费劲,花钱很痛快的公司,这是没法长久维持的。所以做大模型。不管创造了多少收入,本质上还在险境里面。

如今,OpenAI显然找到了更适合自己的打开方式。但有一点毋庸置疑,大模型要卷,小模型也要卷,不卷是不可能的。

图片来源于网络

文字资料参考:

公众号“新智元”文章《奥特曼深夜发动价格战,GPT-4o mini暴跌99%!清华同济校友立功,GPT-3.5退役》

https://www.zhihu.com/question/662021096/answer/3567789827

https://baijiahao.baidu.com/s?id=1804991663805668979

()

(来源:站长之家)
免责声明:本站文章部分内容为本站原创,另有部分容来源于第三方或整理自互联网,其中转载部分仅供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对其内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。
传媒行业的商业全面服务 与您共创美好未来
合作共赢
  • 交互式网络传媒领域
  • 资源丰富,体系完善
  • 创造更加精准、有效的,线上线下互动品牌整合服务
  • 多年传媒行业尽管,见证品牌及产品的蜕变、递增和成长
创造优势
苏州钰尚传媒-商业品牌企业运营服务商最新资讯
致力于传媒行业领域的专业公司
长沙 北京 广州 上海 深圳 中山 珠海 河北 山西 广东 山东 河南 浙江 四川 安徽 湖北 湖南 陕西 福建 辽宁 云南 广西 江西 贵州 甘肃 吉林 黑龙江 海南 内蒙古 西藏 宁夏 青海 重庆 天津 香港 台湾 澳门 江苏 南京 苏州 无锡 徐州 常州 南通 扬州 盐城 淮安 泰州 镇江 宿迁 连云港 苏州吴中区 苏州相城区 苏州平江区 苏州沧浪区 苏州金阊区 苏州工业园区 苏州园区 苏州高新区 苏州新区 苏州虎丘区 苏州张家港 苏州常熟 苏州昆山 苏州太仓 苏州吴江