当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
你见过最奇怪的体质是什么?
什么是微软式中文?
如果是你,你会选择Windows还是Mac?
如何看待小米 YU7 3 分钟大定突破 20 万辆,锁单 12.2 万辆?小米汽车做对了什么?
为什么mac那么贵,还有很多人买?
数据库不就是增删改查一些数据吗?研发一个数据库到底难在哪了?
2025年了,京东是不是已经度过了此次风波?
蜀汉为什么一直北伐,苟着不行吗?
减肥时只做有氧运动不做力量训练,会有什么影响?
柳州的债务,谁来还?用什么还?怎么还?
如何看待 Rust 的应用前景?
大街上看到大白腿,忍不住瞄了两眼,算不算不尊重女性?
obsidian用一两年后会有多大?全文搜索还快吗?
蔡澜曾说「年轻人要存到 100 万以上,这是脱离牛马生活的第一步」,怎样看这一观点?
你们是怎样看待警察这一职业的?
python与nodejs哪个性能高?
我国有能力发现B2并摧毁吗?
谁是对Mac有成见然后用完Mac后真香的?
有什么是你去了上海才知道的事情?
太空中没有氧气,为什么太阳还在燃烧?
中国大陆的苹果手机被阉割了哪些部分?
全世界为何只有咱中国人不屑美军的B2隐身轰炸机?
编译器和解释器的分界线在哪,字节码效率能否无限接近机器码?
小米 YU7的3分钟20万辆订单是真的吗?
真的没有人觉得2k是一个很尴尬的分辨率吗?
公司就一个后端一个前端,有必要搞微服务吗?
有哪些BI工具惊艳了你?
你会从mac转向Windows吗?
TVB 演员陈慧珊转行当英语老师,称已拿博士学位,如何看待她的选择?为什么这么多 TVB 演员转行?
未来几年,市场对 AI 人才的需求会集中在哪几个方向?