在逻辑性较强的数学和代码任务当中,Qwen2.5-Max的成绩都超过了o1-mini,和满血o1以及DeepSeek-R1并列第一。 如果仔细观察具体的对战记录,还可以发现,Qwen2.5-Max在代码能力上和满血o1进行PK的胜率达到了69%。