两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
《原神》5.7 版本魔神任务第五章•第六幕「你存在的时空」体验如何?
《诛仙》作者萧鼎于近日修改《诛仙》原作并大量删去碧瑶戏份,如何看待这一行为?
大海捞针还捞着了是一种什么样的体验?
如何寻找到相对完整的真正的游戏的源码用来学习?
打下来全部的星链近地卫星好打么?
你从什么时候开始感受到所谓的“资本的力量”?
你在出租房屋发现过什么前租客留下的“宝藏”?
很多人开始弃用印象笔记了,你还在使用印象笔记吗?
如何看待多地推出升级版「禁酒令」?
***如古代长城用的是C140混凝土,那千百年下来会完整的留存至今还是损坏的更加严重?
鱼缸有没有简单的过滤配置搭配方式?
为什么买了Switch后,却发现它并没有那么好玩?
如何评价字节跳动开源的 Netpoll?
如何评价前端框架 Solid?
如何看待伊朗媒体称「今晚将发生世界铭记的大事」?可能是什么?
女主播和榜一大哥现实碰面会做什么?
女孩子第一次穿高跟鞋是什么体验?
Gemini 2.5 Flash 和Pro稳定版上线,和之前版本相比,在性能和应用场景上有哪些提升?
男朋友因为打游戏骗我去睡觉被我识破,然后我提了分手,他同意了,问问男孩子们他怎么想的?
Rust的设计缺陷是什么?
怎样巧治颈椎病?
韩寒现在为什么不写书了呢?
核武器真的有宣传中那么牛逼吗?
群晖 nas 有些什么基本和好玩的功能?
为何Microsoft能一直留在中国市场?
吴艳妮做错了什么?
网络小白如何建立一个网站,供别人下载文件(主要是PDF和MP3)?