注册 登录
爱吱声 返回首页

唐家山的个人空间 http://www.aswetalk.net/bbs/?1830 [收藏] [复制] [分享] [RSS]

日志

三“英”战吕布

热度 10已有 88 次阅读2026-2-14 19:17

最近用AI做定理证明太投入,一不小心把Gemini的额度用完了。趁着等待Gemini重置额度的时间,我把正在证的一个证明分别在多个AI上面试了一下。办法很简单,初始是完全相同的问题,然后哪个AI有了反馈后,就跟哪个AI交流。上个日志坛友们推荐了豆包和GLM5。所以候选工具是4个,分别是DeepSeek V3(百万上下文),KIMI 2.5,GLM 5和豆包。调研后发现豆包就没有上传项目文件的功能,直接出局。这样就形成了三英战吕布的格局。
由于类似的问题之前用Gemini解决过,所以主要是看DS,KIMI和GLM是否能尽快给出正确的证明。我要证的是一个复杂递归函数的函数步进的等效性。由于这个递归函数特别复杂,那些高度自动化的单步证明策略是一定会超时的。所以在一开始,我就告诉这些AI不能用单步证明策略,只能用逐步拆解的手工证明方法。DS和KIMI都听明白了,但是GLM的第一次回答还是选择了单步证明策略,在我纠正后,它后面也开始输出逐步拆解的证明方案。
在最初的几轮,这些AI都试图对一个特别复杂的单一待证目标进行各种变形和优化,但是无一例外证不出来,不是超时就是证错。GLM在两轮之后就消耗完了我套餐的所有token,率先出局。
第三轮KIMI最先想出来把单一待证目标拆解成多个小目标,然后分别证明的方案。但是它在消解掉多数子目标后,对于还剩下的两个子目标一直没消解掉,直至我的套餐额度用完。DS在我把KIMI的方案喂给它后,明确提示对单一目标进行拆解。它用了七轮,最后给出了一个合格的证明方案。
7

膜拜

鸡蛋

鲜花
1

路过

雷人
2

开心

感动

难过

刚表态过的朋友 (10 人)

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2026-2-15 04:14 , Processed in 0.053381 second(s), 17 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部