两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
为什么会有 U 盘独个文件不可以超过 4GB 这种设定?
为什么感觉现在的 bilibili 很没意思?
为什么中国男性正在集体退出相亲市场?
网络游戏服务器开发,有哪些经典书籍?
目前美军还有哪些领域是明显领先于解放军的?
你最满意的10款 PC 软件是什么?
你怎么看待剪映收费过高问题?
2025年了expo和Flutter学哪个?
为什么越是禁止孩子玩手机的家庭,最后养出的网瘾少年越多?
H264和H265谁画质好,求回谢谢!?
有没有好看的个人博客的设计?
苹果前首席设计师 Jony Ive 离职的原因是什么?
为什么任天堂在NS2上没有选择使用OLED屏幕以提升续航能力和显示效果?
这种裙子是不是对直男爆杀?
鸿蒙电脑应用开发和鸿蒙手机是一样的吗?
男朋友因为打游戏骗我去睡觉被我识破,然后我提了分手,他同意了,问问男孩子们他怎么想的?
如何看待三峡集团总部搬迁至武汉?
独立开发者都使用了哪些技术栈?
哪一刻让你觉得世人皆苦?
花那么多钱举办婚礼的意义在哪呢?
DLM(扩散语言模型)会成为2025年的Mamba吗?
5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何?
为什么年轻的肉体让人沉迷?
如何看待《捞女游戏》导演***辉B站账号遭封,是否遭到打击报复?
苹果公司做过哪些鲜为人知的努力?
爸爸做过的哪件事,曾经让你觉得「很容易」,自己去做的时候才意识到「了不起」?
如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
通过重体力劳动练出来的肌肉和标准健美人员肌肉有什么不同?
评价一下Proxmox VE与ESXi的优劣?