当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
请问27寸4K显示器哪个好呀?
黄仁勋带着他芯片团队回国,他的成就会高于钱学森吗?
养乌龟只养一只,它觉得会孤独吗?
SQLite不能支持高并发,为什么又说它能支持 10万 的日访问量?
为什么有的人喜欢带着 MacBook 去咖啡店或者书店上网,而不是 ThinkPad 之类的?
为什么都 2025 年了,还有那么多人宁可双持,也不愿意放弃安卓或非安卓手机?
男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?
儿子抑郁四年左右了,他的未来该怎么办?
为什么现在吹Rust的人这么多?
冬天也要穿胸罩吗?
为什么现在男生普遍不追女生了?
Anthropic 推出的 Claude Code Agent 有哪些亮点值得关注?
SQL Server 真的比不上 MySQL 吗?
大家用的内网穿透工具收费高不高?
国产轮胎那么便宜,为什么很多人非要买高价的国外轮胎??
Kafka 为什么要抛弃 ZooKeeper?
如果是你,你会选择Windows还是Mac?
脸与身材不符是种怎样的体验?
如何看待贾玲、沙溢、贾冰、杨天真、范湉湉均瘦身成功?为什么明星想瘦就瘦普通人却很难?
为什么golang pprof检测出的内存占用远小于top命令查看到的内存占用量?
为什么成功人士的精力都非常旺盛?
为什么各大品牌内存条包装都那么low?
Electron 做游戏客户端的潜力有多大?
为什么一直唱衰的php语言反而日渐活跃?
我十四岁的孩子不吃我做的饭,怎么办?
哪张照片让你觉得刘亦菲美得不可方物?
不限制语言,客户端GUI开发用什么好?
靳东三提白玉兰终获最佳男主角,如何评价他的演技?
switch模拟器是不是历史上唯一在主机当红时就几乎完美模拟器?
如何评价 Next.js?