2024年4月2日,网信办公布了已经完成生成式人工智能服务备案(又称“大模型备案”)的各家大模型,并且说明未来将定期发布备案信息。至此大模型备案与生成式人工智能(“AIGC”)另一个合规备案——算法备案相同,完成备案的企业将定期被公开,完成大模型备案的企业也被掀开神秘的面纱。本文将结合目前本所项目经验说明AIGC产品合规一直披着神秘面纱的大模型备案的具体要求。
大模型备案 | 深度合成算法备案 | |
监管部门 | 文件递交省级网信办 中央网信办审批 | 中央网信办在线系统提交 |
适用对象 | 提供具有舆论属性或者社会动员能力的生成式人工智能服务的主体 | 1、 具有舆论属性或者社会动员能力的深度合成服务提供者 2、 所有向服务提供者提供技术服务的深度合成服务技术支持者 |
审查重点 | 基于《生成式人工智能服务管理暂行办法》以及《生成式人工智能服务安全基本要求》中规定的相关合规义务 主要以大模型实际生成内容效果为主,因此网信办会实际进行测试 | 基于《互联网信息深度合成管理规定》的相关合规义务 主要以线上提交文件审核为主 |
审查时间 | 实践中省级监管部门需要1-2个月审核,中央网信办需要根据大模型具体情况确定 | 实践中通常需要三个月时间公告 |
在2023年期间,网信办针对大模型备案主要是以主动通知为主,但2024年开始,诸多生成式人工智能企业为了尽早完成AIGC的全部合规要求,也开始主动提交大模型备案申请。
目前大模型备案的主要流程为:
申请受理单位:省级网信办
审核流程:省级网信办审核初步提交材料,并且对大模型自行或者委托第三方进行测试之后提交中央网信办,中央网信办审批并征求相关部委意见
1、什么类型的企业需要主动申请大模型备案:具有舆论属性或者社会动员能力的生成式人工智能服务的主体
根据《生成式人工智能服务管理暂行办法》的要求,具有舆论属性或者社会动员能力的生成式人工智能服务的主体应当完成大模型备案。具有舆论属性或者社会动员能力通常情况下根据提供的生成式人工智能服务是否具有一般用户注册、发布内容的功能进行判断。
同时在2023年,网信办倾向于针对直接向公众提供生成式人工智能服务(toC业务),且具有舆论属性或社会动员能力的主体要求进行大模型备案,但近期网信办将进一步严格要求,即使是向企业(非公众)提供服务的主体(toB业务),如果具有舆论属性或者社会动员能力的情况下,也需要完成大模型备案。
2、大模型备案的提交文件
目前根据《生成式人工智能服务安全基本要求》的要求,基础模型应当是已经在主管部门完成备案的模型。
4、网信办的审核方式?
网信办(包括省级网信办和中央网信办)除了审核材料以外,还会要求提供模型的API接口进行接口测试,并且也会直接体验使用产品以及进行裸模型测试。
通过开源协议获得:应当遵守开源许可协议或者相关授权文件;
通过自采方式获得:应当有采集记录,不应采集他人已明确不可采集的语料(包括robots协议或者其他方式声明等);
使用商业语料时:如交易方/合作方不能提供语料来源、质量、安全等方面的承诺以及相关证明材料时,不应使用,如果提供了应当进行审核。同时应有具备法律效力的交易合同、合作协议等;
使用者输入信息时:应具有使用者授权记录。
a)反对宪法所确定的基本原则的;
b)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的;
c)损害国家荣誉和利益的;
d)歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉的;
e)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动的;
f)煽动民族仇恨、民族歧视,破坏民族团结的;
g)破坏国家宗教政策,宣扬邪教和封建迷信的;
h)散布谣言,扰乱经济秩序和社会秩序的;
i)散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的;
j)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益的;
a)使用夸张标题,内容与标题严重不符的;
b)炒作绯闻、丑闻、劣迹等的;
c)不当评述自然灾害、重大事故等灾难的;
d)带有性暗示、性挑逗等易使人产生性联想的;
e)展现血腥、惊悚、残忍等致人身心不适的;
f)煽动人群歧视、地域歧视等的;
g)宣扬低俗、庸俗、媚俗内容的;
h)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等的;
a)应设置语料以及生成内容的知识产权负责人,并建立知识产权管理策略;
b)语料用于训练前,应对语料中的主要知识产权侵权风险进行识别,发现存在知识产权侵权等问题的,不应使用相关语料进行训练;
c)应建立知识产权问题的投诉举报渠道;
d)应在用户服务协议中,向使用者告知使用生成内容时的知识产权相关风险,并与使用者约定关于知识产权问题识别的责任与义务;
e)应当根据国家政策以及第三方投诉情况更新知识产权相关策略;
f)应当公开语料中涉及知识产权部分的摘要信息;
① 第三方基础模型应当使用已经在主管部门备案的基础模型;
① 服务如果用于关键信息基础设施、自动控制、医疗信息服务、心理咨询、金融信息服务等重要场合的,应具备与风险程度以及场景相适应的保护措施;
② 服务如果适用于未成年人的,应当设置未成年人保护措施,以及不得提供与其民事行为能力不符的付费服务,并且应当积极展示有益未成年人身心健康的内容;
③ 服务应当在显著位置向社会公开服务适用的人群、场合、用途等信息,宜同时公开基础模型使用情况、服务的局限性、模型算法情况、个人信息用途等;
④ 如果收集使用者输入信息用于训练时,应为使用者提供关闭方式并告知使用者等;
⑤ 图片、视频等内容标识应当满足《网络安全标准实践指南——生成式人工智能服务内容标识方法》的要求;
⑥ 训练、推理所采用的计算系统方面应当评估芯片、软件、工具、算力等方面的供应链安全;
⑦ 接受公众或使用者投诉举报;
⑧ 向使用者提供服务时应当采取监管检测、分类模型等方式检测输入信息,以及建立拒答问题机制等;
⑨ 应当具备模型更新、升级时的安全管理策略,以及定期的安全评估;
① 服务提供者应当建立关键词库,并且总规模不宜少于10000个;
② 生成内容应当有不少于2000题的测试题;
③ 针对使用者输入信息,应当根据法律法规等建立应拒答测试题库。
调配全所资源、长期陪伴客户的一站式法律服务