当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
慈禧为什么要反对戊戌变法?
家里有了孩子狗狗吃醋老吓唬孩子,要不要把狗狗卖掉?
中国有没有不作恶的输入法?
有一个乌克兰的朋友问我,中国人凭什么能享受和平,我该怎么说?
前男友醒了不告诉我,是前男友的错还是我无理取闹了?
为什么一般人不建议住别墅?
如何看待《剑星》已登顶 Steam 全球热销榜?
郭富城真心喜欢方媛么?
医院的信息科工作是怎么样的体验?
分享一下你用过好用的开源项目有哪些?
国家统计局表示,青年人失业率连续 3 个月下降,现在找工作实际情况如何?
女性为什么不普遍跟男性那样只留个几毫米或2-3厘米短发,女性不觉得长发麻烦吗?
为什么知乎上很多人觉得新加坡不适合定居?
你做过的最龌龊的一件事儿是什么?
有哪些事情是你去了越南以后才知道的?
MacOS真的比Windows流畅吗?
谷歌云服务宕机导致 OpenAI、Shopify 等服务中断,此次宕机的具体技术原因是什么?
罗马仕宣布召回超 49 万台充电宝,极端场景下可能有燃烧风险,有多危险?为何有安全隐患的产品能够上市?
如何评价字节跳动开源的 HTTP 框架 Hertz ?
男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
身边好几个朋友要润,都说是为了孩子的教育。国外的教育真的那么好吗,低压力教育就不会教出废柴来?
为什么小爱音箱只能播放qq音乐免费音乐?
Flutter 为什么没有一款好用的UI框架?
***拍大尺度片子时摄影师不会看光吗?
如何评价首个女性友好的编程语言HerCode?
055一打一能不能打过阿利伯克?
为什么小米造车可以叫小米,而华为不可以用华为品牌造车?