曹峰：“方升”体系，给大模型产业一份“贴心标尺”_福州新闻

AI摘要：4月28日，在第九届数字中国建设峰会上，中国信通院曹峰指出大模型落地面临痛点，需科学评估体系。“方升”大模型基准测试体系成为关键桥梁，其3.0版本形成五维一体评估范式，成效显著，已形成持续监测机制，赋能重点行业，推动大模型规范化落地。

（AI摘要及本文部分素材由福建省智能媒体资源库省级平台提供“智媒+”支持，福建报业集团智能审校平台提供审校技术支持）

海峡网讯（记者李牧晨）人工智能大模型技术飞速发展，但如何让这些“聪明大脑”规模化高质量落地应用，而不是企业在模型选型、部署中面临“测用脱节”困境，试错成本居高不下？4月28日，在第九届数字中国建设峰会上，中国信息通信研究院人工智能研究所平台与工程化部主任曹峰指出，解决这些痛点，需要一个科学的评估体系。为此，由中国信通院牵头构建的“方升”大模型基准测试体系，正成为连接技术与产业、破解落地困境的关键桥梁。

曹峰：“方升”体系，给大模型产业一份“贴心标尺”

中国信通院人工智能研究所平台与工程化部主任曹峰接受媒体采访。海峡网记者李牧晨摄

曹峰告诉记者，当前大模型技术迭代提速、产业应用需求不断升级，但其规模化高质量落地仍面临多方面产业痛点：供给侧层面，缺乏统一、科学的评测方法论，导致研发端陷入过度“刷榜”偏差，忽视模型实际应用价值，技术迭代方向与产业需求脱节；需求侧层面，缺少面向工程落地的模型能力度量指标，企业在模型选型、部署中面临“测用脱节”困境，试错成本居高不下，难以实现精准适配；产业侧层面，评测体系缺失导致行业应用、生态协同与监管治理间缺乏标准桥梁，协同壁垒难以打破，无法支撑大模型在关键领域规模化落地。

据介绍，“方升”大模型基准测试体系由中国信通院牵头，联合多家头部大模型企业、用户单位及科研机构共同构建。自2023年发布以来，“方升”体系坚持产学研协同迭代，形成了标准牵引、应用导向、动态测试的鲜明特点。作为国内率先实现规模化、标准化评测的体系，方升3.0创新性构建起基础属性、通用能力、应用能力、行业深度、AGI未来智能五维一体全景评估范式，打破了评测与产业脱节的局限，支持语言、多模态、代码、智能体、服务性能等多种模型能力的验证，实现了从“技术验证”向“产业赋能”的跨越式升级，有效填补了国内外大模型评测体系脱离产业实际、缺乏系统赋能范式的空白，为我国大模型产业发展提供了适配性更强的评测支撑。

曹峰指出，“方升”体系目前成效显著，已形成覆盖国内外上百个主流大模型的持续监测机制，测试模型次数超过1500次，形成了科学的评测方法论。同时体系深度赋能重点行业，支撑政务、教育、电力、高端装备制造等领域构建适配自身需求的基准测试体系，推动大模型在各重点领域规范化落地，助力“人工智能+”行动落地见效。