AI“考生”挑战北京中考,讯飞星火综合实力登顶
刚刚落幕的2025年北京中考,因其大幅改革、题目创新性强且难度飙升,被众多考生直呼“难哭了”。然而,一场别开生面的“AI中考”同步上演:在"快科技"组织的7款主流大模型测评中,讯飞星火以接近人类顶尖学霸的表现夺得综合排名第一,其作文水平和数学能力尤为亮眼。测评完全模拟真实中考环境,选取语文作文《一堂科学课》、英语作文(题目二)及数学全卷作为考题,参赛模型包括讯飞星火、DeepSeek、豆包、通义千问、腾讯混元、文心一言及GPT。所有模型关闭联网功能,打开深度思考,由资深专家严格判卷,确保公平性。

(图源/快科技制图)
数学战场:星火稳居第一,多模态技术成关键短板
数学测评(满分100分)是真正的“硬骨头”,尤其考验模型对复杂题目(尤其是含图表信息题)的理解和逻辑推理能力。尤其考验模型对复杂题目(含图表)的理解和逻辑推理能力。测试采用图片扫描和LaTeX格式两种输入方式,全面考察模型的信息处理能力。
讯飞星火在这两项测试中表现稳健,双格式下均以89分的高分位列榜首。其客观题近乎完美,解答题也拿下57分(满分68分),仅因几何证明方法略微超纲等小瑕疵扣分,解题能力逼近人类优等生。

(图源/快科技制图)

(图源/快科技制图)
然而,测试也暴露了当前许多大模型的短板——图像识别与多模态能力。Deepseek在图片格式表现不佳,但切换为LaTeX格式后分数显著提升,凸显了其在数学推理方面的实力。GPT的表现更为戏剧化,图片格式下得86分,LaTeX格式下却因理解错误暴跌至63分。通义千问和文心一言在涉及图像理解的题目上丢分严重,解答题得分均不足50分。
可以看出,大模型的综合能力至关重要,不仅需要具备强大的推理能力和语义理解能力,还需要整合多模态技术优势,如高精度的OCR识别等,以实现更全面的智能化应用。
作文赛场:大模型写作文采斐然,立意深刻
在满分40分的语文作文《一堂科学课》比拼中,讯飞星火以37.5分的高分位列榜首。评审专家、前人大附中分校语文名师李豪点评道,星火的作文“立意深刻独到”,以亲身潜水探索为核心,巧妙融合海洋生态知识(如珊瑚白化)、惊险体验与深刻的生态责任感,细节描写生动,结构严谨,首尾呼应巧妙,堪称一类卷上乘之作”。目前国产大模型整体在写作方面,都具备不俗的实力。海外模型GPT(32.5分)则暴露了在中文语境下的适配短板,被指“内容脱离实际,情感不足”。
英语作文(满分10分)要求设计一所“梦想图书馆”。讯飞星火是全场唯一获得满分10分的“考生”。专家认为其作文完全覆盖要点,描述生动具体,并精辟阐述了其功能意义,细节丰富。更令人印象深刻的是高级词汇和复杂句式(如定语从句)运用得当,逻辑清晰,衔接自然。通义千问和文心一言也获得9分的高分。但GPT(7.5分)的表现则令人意外,论证较为简单,句式单一,未能充分发挥其“母语”优势。腾讯混元(7分)则因内容缺乏独特细节和语言表现力不足而稍显逊色。
AI能力飞跃,本土优势与多模态突破
这场特殊的“大模型中考”清晰地揭示了几个重要趋势:
1. 中文大模型本土优势显著:在语文和英语写作这类需要深度理解语言文化和语境的科目上,国产模型整体表现优异(平均分百分制超84分),远超国际巨头GPT。
2. 多模态能力是核心竞争力:数学测试证明,能否准确识别和理解图像、图表信息,成为决定模型在理科领域表现的关键分水岭,讯飞星火和豆包在此方面展现领先潜力。
3. AI已超越简单问答:大模型展现出处理复杂写作、函数证明、逻辑推导等高级任务的能力,正从“信息检索”向真正的“问题解决”迈进。
人类创意不可替代:AI与教育的未来
尽管AI表现惊艳,专家也冷静指出,再精妙的算法也写不出少年们在考场上的紧张心跳,也复制不了人类灵光乍现的独特创意。正如一位评审所言:“星火作文中描述的‘守护蓝色海洋的心跳’文字极美。”但这终究是基于数据的模拟,而非源于生命的真实共情。
讯飞星火在此次高难度“AI中考”中的综合登顶,不仅是一次技术实力的展示,更像是一张面向未来的邀请函:人工智能在教育等领域的应用正迈向更深层次。未来,AI有望成为学生强大的学习助手,辅助知识整合与基础训练;成为教师的高效工具,分担批改等重复劳动,让教育者更聚焦于激发创造力和批判性思维。同时,本次测评暴露的短板(如图像理解、深度情感表达)也为技术发展指明了攻坚方向。