最近LMArena(就是搞Chatbot Arena那个团队)上线了一个新平台——
Code Arena(arena.ai/code)。它不是又一个代码补全工具,而是一个专门评估AI模型”端到端构建真实应用”能力的竞技场。用官方的话说:”This redefines AI performance benchmarking.”
为什么需要Code Arena?因为传统编程基准已经不够用了。
过去评估AI写代码,基本就是”给一道算法题,看输出对不对”。但真实软件开发远比这复杂——模型需要理解需求、规划架构、创建文件、反复调试、响应反馈,最后交付一个能跑的应用。Code Arena测的,正是这种Agentic Coding能力。
它的核心流程设计得非常严密,每一步都可追溯:
① 你提交一个真实需求,比如”做一个支持暗黑模式的Markdown编辑器” ② 模型像真正的开发者一样,通过结构化工具调用进行规划、生成、迭代 ③ 每个动作(文件创建、编辑、执行)都被完整记录并版本化,快照存在Cloudflare R2里 ④ 应用实时渲染,你可以像测试真实产品一样交互、点击、找Bug ⑤ 评估者进行成对盲测,从功能性、可用性、设计保真度多个维度打分 ⑥ 结果实时进入排行榜,附带置信区间和评分者间信度

Code Arena网站截图
这套流程最狠的地方在于“透明”。你不仅能看到最终得分,还能回溯模型每一步是怎么想的、哪里踩了坑、为什么这个方案比那个好。对研究者和开发者来说,这比一个冷冰冰的数字有价值得多。
Code Arena还解决了传统基准的一个老问题——“刷题”。很多模型在HumanEval、MBPP上分数很高,但一到真实项目就露馅。Code Arena的任务是构建完整Web应用,模型必须处理多文件、多组件、样式交互、状态管理等真实工程问题。据说接下来还会引入多文件React项目,进一步逼近真实开发场景。
另一个容易被忽略的细节是它的社区属性。Code Arena延续了Arena系列的传统——评估不是实验室闭门造车,而是开放给开发者社区参与。你可以亲自试模型的产出、投票、在Discord讨论异常案例。这种”人在回路”的设计,让结果更贴近实际开发者的真实偏好。
当然,它也有局限。目前主要聚焦Web应用构建,对后端服务、系统编程的覆盖还比较有限。而且实时渲染和交互评估虽然更真实,但也比自动单元测试更耗时、更难规模化。