当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
为什么 VMware 公开的大多数密钥都能用?
为何有人说三亚景色不输泰国,中国游客却更爱去泰国?
如果看待林丹这句话 “网球的强度远远没有羽毛球大”?
在所有动物肉中,哪一种味道最好?
你们在编程时遇到过什么离谱的bug吗?
前端初学者如何学习css及页面布局?
《捞女游戏》发售仅一天同时在线超 6330 人,如何看待游戏的销量?
以色列为什么突然敢打伊朗了?不怕被报复?
女生第一次来大姨妈什么感受?
可以随身携带一个Linux系统吗?
duckdb的性能如何?
为什么中国主机带宽比美国贵5倍(原来错误的10000倍),比如阿里云?
这是男朋友桌面的游戏,有什么是我可以陪他玩的吗?
榴莲的产量明明很高,为什么还卖那么贵?
你理想中的完美户型长什么样?
怎么才能有尤雨溪一半强,该怎么学习?
为什么感觉现在的 bilibili 很没意思?
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
陌生人晕倒了,帮他拨打120后,病人不支付120出车费,这个费用谁来承担?
为什么胡塞武装这么猛?
中国的歼35A可以吊打十架韩国的KF21吗?
为什么刘亦菲的脸这几年被捧上天了?
作为独立开发者,有哪些可以分享的经验?
为什么有些NAS用户弄那么多硬盘?
如何评价仓颉编程语言7月30日开源?
为什么 mac mini 的 m4 版本价格这么低呢?
为什么 macOS 并不差,可市场总敌不过 Windows?
为什么一部分 Go 布道师的博客不更新了?
如何看待多地开展查摆年轻干部玩心重、贪图享乐、说话随意、社会交往复杂、生活不检点等问题的行动?