T/CESA 1026-2018 人工智能深度学习算法评估规范

标准详情：

T/CESA 1026-2018

团体标准推荐性

中文名称：人工智能深度学习算法评估规范
CCS分类：/I6490
ICS分类：35.080
发布日期：2018-07-01
行业分类：I 信息传输、软件和信息技术服务业
实施日期：2018-07-01
团体名称：中国电子工业标准化技术协会
标准分类：信息技术、办公机械信息传输、软件和信息技术服务业 I 信息传输、软件和信息技术服务业其他互联网服务

内容简介

本标准提出了人工智能深度学习算法的评估指标体系、评估流程，以及需求阶段评估、设计阶段评估、实现阶段评估和运行阶段评估等内容
本标准适用于指导深度学习算法开发方、用户方以及第三方等相关组织对深度学习算法的可靠性开展评估工作
本标准的主要借鉴国际标准DO-178C-2011SoftwareConsiderationinAirborneSystemsandEquipmentCertification的思想，针对算法的不同阶段定义了多个不同的目标来满足不同的等级，同时实现了面向深度学习算法可靠性指标体系的前向和后向追踪的理念，使得对算法研发过程的验证与评估变得更容易，从而达到评估可靠性的目标。本标准结合人工智能深度学习算法的特点及传统的可靠性评估的体系及流程，制定了标准的内容，主要包括以下方面：算法可靠性评估指标体系基于深度学习算法可靠性的内外部影响考虑，结合用户实际的应用场景，本标准提出了一套深度学习算法的可靠性评估指标体系。指标体系包含7个一级指标和20个二级指标。算法可靠性评估流程依据深度学习算法可靠性评估指标体系，对深度学习算法开展可靠性评估工作。可靠性评估流程包括确定可靠性目标、选择评估指标、需求阶段的评估、设计阶段的评估、实现阶段的评估、运行的阶段评估及得出评估结论这七个阶段。算法需求、设计、实现和运行阶段的前提条件、输入、关键活动及输出的内容面向深度学习算法需求阶段的评估工作，指运用可靠性分析方法，通过对算法功能实现的正确性和软硬件平台依赖的影响等进行评估，以确定算法的需求满足可靠性目标要求。面向深度学习算法设计阶段的可靠性评估工作，指运用分析或评审等方法，对算法功能实现的正确性、训练数据集的影响及目标函数等进行评估，以确定算法设计满足可靠性目标要求。面向深度学习算法实现阶段的可靠性评估工作，指运用分析和测试等方法，对算法功能实现的正确性、代码实现的正确性、目标函数的影响及对抗性样本的影响等进行评估，以确定算法的实现满足可靠性目标要求。面向深度学习算法运行阶段的可靠性评估工作，指针对实际运行环境使用数据进行分析，对算法的正确性、软硬件平台的依赖影响和环境数据的影响等进行评估，以确定算法的运行满足可靠性目标要求。深度学习算法可靠性评估指标选取规则附录A给出了深度学习算法的可靠性评估指标的选取规则。针对不同级别的深度学习算法可靠性目标开展相关评估活动。深度学习算法可靠性评估实施案例附录B给出了人脸识别算法可靠性评估实施案例和行为检测算法可靠性评估实施案例。

起草单位

中国电子技术标准化研究院、中国科学院软件研究所、上海计算机软件技术开发中心、北京航空航天大学、华东师范大学、中国科学院计算技术研究所、军事科学院国防科技创新研究院、国防科技大学、卡索(北京)科技有限公司、北京百度网讯科技有限公司、浙江蚂蚁小微金融服务集团有限公司、深圳前海微众银行股份有限公司、顺丰科技有限公司、深圳市优必选科技有限公司、北京京东尚科信息技术有限公司、深圳赛西信息技术有限公司、数据地平线（广州）科技有限公司。