
日前从中国电子技术标准化研究院(下称“电子标准院”)获悉,为加速推动我国大模型、智能体、具身智能等前沿技术创新与标准化落地,客观评估模型在关键任务场景中的实际表现与安全能力,该院已正式启动“求索”人工智能测试。
据介绍,电子标准院将依据人工智能国家标准、依托“求索”人工智能评测基准体系,对大模型高阶通用能力、重点行业能力、大模型安全能力、智能体、具身智能、人工智能服务器/大模型一体机等领域展开测试。其中,大模型高阶通用能力测试聚焦模型在复杂逻辑、代码应用、多模态等场景下的技术突破性,设置深度推理与复杂问题求解、代码理解与生成能力、多模态理解与生成能力三大核心维度,测试任务包括长文本理解、数学推理、文本生成图片等;重点行业能力测试围绕工业、电力、钢铁、石油石化等重点行业需求,定制化设计场景化评测任务。
据悉,“求索”人工智能评测基准体系是由电子标准院会同产学研用优势机构打造,围绕算力、大模型、软硬协同等重点方向,孵化了12项国家标准,开发了系列评测基准工具。