AI“考生”挑战北京中考，讯飞星火综合实力登顶

更新时间：2025-07-06 18:25:00

刚刚落幕的2025年北京中考，因其大幅改革、题目创新性强且难度飙升，被众多考生直呼“难哭了”。然而，一场别开生面的“AI中考”同步上演：在"快科技"组织的7款主流大模型测评中，讯飞星火以接近人类顶尖学霸的表现夺得综合排名第一，其作文水平和数学能力尤为亮眼。测评完全模拟真实中考环境，选取语文作文《一堂科学课》、英语作文（题目二）及数学全卷作为考题，参赛模型包括讯飞星火、DeepSeek、豆包、通义千问、腾讯混元、文心一言及GPT。所有模型关闭联网功能，打开深度思考，由资深专家严格判卷，确保公平性。

（图源/快科技制图）

数学战场：星火稳居第一，多模态技术成关键短板

数学测评（满分100分）是真正的“硬骨头”，尤其考验模型对复杂题目（尤其是含图表信息题）的理解和逻辑推理能力。尤其考验模型对复杂题目（含图表）的理解和逻辑推理能力。测试采用图片扫描和LaTeX格式两种输入方式，全面考察模型的信息处理能力。

讯飞星火在这两项测试中表现稳健，双格式下均以89分的高分位列榜首。其客观题近乎完美，解答题也拿下57分（满分68分），仅因几何证明方法略微超纲等小瑕疵扣分，解题能力逼近人类优等生。

（图源/快科技制图）

然而，测试也暴露了当前许多大模型的短板——图像识别与多模态能力。Deepseek在图片格式表现不佳，但切换为LaTeX格式后分数显著提升，凸显了其在数学推理方面的实力。GPT的表现更为戏剧化，图片格式下得86分，LaTeX格式下却因理解错误暴跌至63分。通义千问和文心一言在涉及图像理解的题目上丢分严重，解答题得分均不足50分。

可以看出，大模型的综合能力至关重要，不仅需要具备强大的推理能力和语义理解能力，还需要整合多模态技术优势，如高精度的OCR识别等，以实现更全面的智能化应用。

作文赛场：大模型写作文采斐然，立意深刻

在满分40分的语文作文《一堂科学课》比拼中，讯飞星火以37.5分的高分位列榜首。评审专家、前人大附中分校语文名师李豪点评道，星火的作文“立意深刻独到”，以亲身潜水探索为核心，巧妙融合海洋生态知识（如珊瑚白化）、惊险体验与深刻的生态责任感，细节描写生动，结构严谨，首尾呼应巧妙，堪称一类卷上乘之作”。目前国产大模型整体在写作方面，都具备不俗的实力。海外模型GPT（32.5分）则暴露了在中文语境下的适配短板，被指“内容脱离实际，情感不足”。

英语作文（满分10分）要求设计一所“梦想图书馆”。讯飞星火是全场唯一获得满分10分的“考生”。专家认为其作文完全覆盖要点，描述生动具体，并精辟阐述了其功能意义，细节丰富。更令人印象深刻的是高级词汇和复杂句式（如定语从句）运用得当，逻辑清晰，衔接自然。通义千问和文心一言也获得9分的高分。但GPT（7.5分）的表现则令人意外，论证较为简单，句式单一，未能充分发挥其“母语”优势。腾讯混元（7分）则因内容缺乏独特细节和语言表现力不足而稍显逊色。

AI能力飞跃，本土优势与多模态突破

这场特殊的“大模型中考”清晰地揭示了几个重要趋势：

1. 中文大模型本土优势显著：在语文和英语写作这类需要深度理解语言文化和语境的科目上，国产模型整体表现优异（平均分百分制超84分），远超国际巨头GPT。

2. 多模态能力是核心竞争力：数学测试证明，能否准确识别和理解图像、图表信息，成为决定模型在理科领域表现的关键分水岭，讯飞星火和豆包在此方面展现领先潜力。

3. AI已超越简单问答：大模型展现出处理复杂写作、函数证明、逻辑推导等高级任务的能力，正从“信息检索”向真正的“问题解决”迈进。

人类创意不可替代：AI与教育的未来

尽管AI表现惊艳，专家也冷静指出，再精妙的算法也写不出少年们在考场上的紧张心跳，也复制不了人类灵光乍现的独特创意。正如一位评审所言：“星火作文中描述的‘守护蓝色海洋的心跳’文字极美。”但这终究是基于数据的模拟，而非源于生命的真实共情。

讯飞星火在此次高难度“AI中考”中的综合登顶，不仅是一次技术实力的展示，更像是一张面向未来的邀请函：人工智能在教育等领域的应用正迈向更深层次。未来，AI有望成为学生强大的学习助手，辅助知识整合与基础训练；成为教师的高效工具，分担批改等重复劳动，让教育者更聚焦于激发创造力和批判性思维。同时，本次测评暴露的短板（如图像理解、深度情感表达）也为技术发展指明了攻坚方向。

本文分类：实时讯息
浏览次数：0 次浏览
本文链接：https://m.hmbk.net/news/a6xZbM7xez.html

上一篇 > “这是一条命，不顾一切也得救！”
下一篇 > 百万粉丝外国博主团打卡绿源中国"新发明"震惊歪果仁

导航栏目

AI“考生”挑战北京中考，讯飞星火综合实力登顶

相关推荐