AI数据治理：在创新与规制之间寻找平衡

　　大模型技术迭代提速与应用成本持续下行，推动人工智能（AI）加速渗透生产、生活、社会管理和服务全领域。从智能终端到行业解决方案，AI驱动的新产品、新场景密集涌现，已成为培育新质生产力的核心引擎。2025年8月，国务院印发《关于深入实施“人工智能+”行动的意见》，明确量化目标：到2027年，新一代智能终端、智能体等AI应用普及率需超过70%；到2030年，这一比例需突破90%，为产业发展划定清晰路径。

　　但国家发展改革委相关负责人在回应记者提问时坦言，尽管当前AI已具备解决部分现实场景复杂问题的能力，社会应用需求亦空前旺盛，产业落地仍面临“最后一公里”梗阻——数据作为AI训练与迭代的核心要素，其治理边界模糊、规则体系不健全，正成为制约AI在互联网、医药、教育、金融等领域规模化应用的关键瓶颈。

　　具体而言，当前AI数据治理需破解两大核心矛盾：一是AI企业对高质量数据集的依赖与数据获取、处理过程中个人信息及隐私风险扩大的矛盾，如何确保全流程合法合规成为企业首要难题；二是AI训练数据使用与他人在先权益保护的平衡矛盾，即在保障个人信息安全、尊重知识产权的前提下，为技术创新留足空间。

一、外部监管：立法修订与执法案例筑牢合规底线

　　中国已构建以《网络安全法》《数据安全法》《个人信息保护法》（下称“三法”）为核心的AI数据外部监管框架。2025年，这一框架通过立法修订细化、行政法规补充及典型案例落地，进一步强化对企业数据处理行为的刚性约束，形成“立法定调—条例细化—执法落地”的闭环。

　　1. 立法修订：区分处罚梯度，明确免责边界

　　2025年10月28日，第十四届全国人民代表大会常务委员会第二十四次会议修订《网络安全法》，其中两项调整直接关联AI数据治理：

　　——提高违法成本：新修订的《网络安全法》第61条针对“不依法履行网络运行安全保护义务”的行为，新增“造成大量数据泄露”等严重情形的界定，并参照《数据安全法》提高罚款幅度，倒逼企业强化数据安全防护措施；

　　——细化免责情形：第73条首次明确，若企业存在“主动消除或减轻违法行为危害后果”“违法行为轻微且及时改正无危害后果”“初次违法且危害后果轻微并及时改正”等情形，可依照《行政处罚法》从轻、减轻或不予处罚。这一规定既避免“一刀切”执法，也激励企业主动落实合规整改，防止数据泄露损害扩大。

　　此外，2025年1月1日起施行的《网络数据安全管理条例》，进一步细化“三法”实操要求：一方面明确网络平台服务提供者的个人信息保护与重要数据安全义务；另一方面在第19条专门针对生成式AI规定：“提供生成式人工智能服务的网络数据处理者应当加强对训练数据和训练数据处理活动的安全管理，采取有效措施防范和处置网络数据安全风险”——尽管未设定具体操作标准，但已为AI训练数据监管划定方向。

　　2. 执法与司法：典型案例释放“严监管”信号

　　2025年以来，国家网信办、司法机关通过典型案例将监管规则落地，覆盖AI应用高频领域：

　　——网信部门执法：2025年9月16日，国家网信办公布涉数据安全、个人信息保护的典型案件。其中，“山东某医学检验有限公司数据泄露案”因未落实数据加密、访问权限管控等措施导致医疗数据泄露，属地网信办责令改正并处罚款；“浙江某科技股份有限公司数据被窃取案”“重庆某科技公司数据被窃取案”等均因企业未履行数据安全保护义务，被依法追责；“上海某科技有限公司违法违规收集人脸信息案”则因未取得用户同意擅自采集人脸数据，被处以警告及罚款。这些案例明确企业数据安全义务的底线，尤其针对医疗、科技等AI数据敏感领域强化约束。

　　——公益诉讼实践：2025年3月11日，杭州互联网法院就“余杭区检察院诉某知名短视频公司侵犯儿童个人信息案”出具调解书。该案中，该公司未征得儿童监护人明示同意即注册儿童账户、收集儿童信息，未采取专门技术保护措施，且向其他用户推送含儿童信息的短视频。最终企业同意停止侵权、赔礼道歉，并将赔偿款用于儿童信息保护公益项目，成为AI场景下儿童个人信息保护的标志性公益诉讼案例。

二、企业与行业自律：从“合规达标”到“价值提升”

　　相较于外部监管，企业与行业自律是AI数据治理的内生力量。不同于行政执法的“事后追责”，自律机制更具前置性与自主性，既能帮助企业规避法律风险，也能通过公众信任提升市场竞争力。2025年，相关国家标准与政策指引的出台，推动AI数据自律机制从“零散实践”走向“体系化构建”。

　　1. 企业自律：个人信息保护监督机制落地

　　《个人信息保护法》第58条要求大型网络平台“设立主要由外部成员组成的独立监督机构”，这一要求在2025年通过政策与标准进一步细化：

　　——政策指引：2025年9月12日，国家网信办发布《大型网络平台设立个人信息保护监督委员会规定（征求意见稿）》，明确监督委员会成员人数需与平台业务规模、用户数量匹配（一般不少于7人），且外部成员占比不低于三分之二；外部成员需无利益关联、具备专业素质，平台支付的报酬标准需公开披露，确保履职独立性。

　　——标准支撑：2025年3月28日发布的国家标准《数据安全技术大型互联网企业内设个人信息保护监督机构要求》（GB/T 45404-2025），进一步明确监督委员会的职责范围（如审查平台个人信息处理规则、监督合规整改）与运作流程（如每季度召开定期会议），为企业提供可操作的搭建指南。

　　2. 行业自律：生成式AI训练与标注的标准共识

　　针对生成式AI数据治理的核心环节（训练、标注），2025年两项国家标准的发布，推动行业形成合规共识：

　　——训练数据安全规范：2025年4月25日实施的《网络安全技术生成式人工智能预训练和优化训练数据安全规范》（GB/T 45652-2025），从三方面划定行业底线：

　　合法性：预训练数据中违法不良信息占比不得超过5%，需过滤“投毒数据”以防范AI生成风险内容；

　　真实性：使用AI生成内容作为训练数据时，需建立“幻觉风险评估机制”，识别并处置误导模型的错误知识；

　　价值对齐：优化训练数据（如提示词、标注数据）需符合人类价值观，使用境外数据时需搭配合理比例的境内数据，确保伦理适配。

　　——数据标注安全规范：同日发布的《网络安全技术生成式人工智能数据标注安全规范》（GB/T 45674-2025），针对标注环节的“数据窃取、泄露、投毒”等风险，明确标注平台安全（如数据加密存储）、人员管理（如背景审查）、核验机制（如多轮交叉校验）等要求，为数据标注产业构建安全基线。

　　此外，2025年8月29日发布的《数据安全技术数据安全和个人信息保护社会责任指南》（GB/T 46071-2025），要求企业从“组织治理、用户权益保护、公益参与”等维度履行社会责任，推动自律从“合规达标”向“价值提升”延伸——不仅要求企业符合法律底线，更鼓励企业通过数据治理促进数字社会公平、弥合数字鸿沟。

三、权利平衡：AI数据使用的边界争议与出路

　　《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》明确提出“根据数据来源和数据生成特征，分别界定数据生产、流通、使用过程中各参与方享有的合法权利”。在AI数据治理中，这一原则集中体现为“数据获取使用”与“个人信息权、著作权”等在先权利的平衡，不同数据获取场景对应不同的规则适用争议。

　　1. 自行采集数据：个人信息同意与著作权使用的困境

　　企业自行采集的数据常包含个人信息或受著作权保护的作品，两类权利保护均面临实践矛盾：

　　个人信息：“同意原则”的适用难题

　　根据《个人信息保护法》第13条，AI训练不属于“无需同意”的法定情形（如公共利益、法定义务）；第27条进一步规定，个人有权拒绝他人处理其已公开的个人信息，压缩了“合法公开信息”的使用空间。这意味着，个人同意仍是AI训练使用个人信息的主要合法性基础。

　　但实践中矛盾突出：企业最初收集信息的目的与AI训练往往不一致（如电商平台收集用户信息用于交易，却用于训练通用AI），根据《个人信息保护法》第14条，需重新获取同意——这既推高企业合规成本（如逐一告知用户并获授权），也可能因用户拒绝导致数据获取受限。

　　学界建议，可基于AI训练的技术特性适度调整规则：AI训练是从数据中提炼统计规律，而非记忆个人信息，原则上不直接侵害个人权益，因此可允许“概括同意”（而非单独同意），或对“已合法收集信息”的AI训练豁免“重新同意”要求，但需强化数据安全防护义务。如果公开爬取的网络信息中不可避免地含有个人信息，那么可以在不给个人造成消极影响的前提下合理处理相关数据。

　　著作权：合理使用与法定许可的适用争议

　　文学作品、学术论文、社交平台内容等是AI训练的重要“原料”，企业在训练中常需复制、改编作品以适配训练需求，易引发著作权侵权风险。学界多有观点认为，AI训练可适用“合理使用”或“法定许可”：一方面，AI输出内容与原作品无实质性相似，使用具有“转换性”；另一方面，要求企业获取海量著作权人许可不具实操性，可能阻碍技术创新。

　　但现行《著作权法》未设置开放性的合理使用或法定许可条款，两类制度能否适用于AI训练，仍需立法明确。若适用合理使用，需解决“作者报酬补偿”问题；若适用法定许可，则需搭建海量著作权人的报酬分发机制——这仍是待解的行业难题。

　　值得注意的是，2011年发布的《最高人民法院关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第8条指出“在促进技术创新和商业发展确有必要的特殊情形下，考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素，如果该使用行为既不与作品的正常使用相冲突，也不至于不合理地损害作者的正当利益，可以认定为合理使用。”未来应当积极探索在司法解释中将“人工智能训练数据”纳入合理使用范围，最终在立法层面体系性解决问题。

　　2. 爬取他人数据：不正当竞争的边界厘清

　　数据爬取的合法性争议长期存在：过度限制会加剧“数据孤岛”，放任则可能损害被爬取方的商业利益。2025年三项法治事件，为爬取行为划定清晰边界：

　　《反不正当竞争法》修订：2025年6月27日修订的第13条第3款明确，禁止“以欺诈、胁迫、避开或破坏技术措施等不正当方式，获取、使用其他经营者合法持有的数据”，直接否定“破坏性爬取”的合法性；

　　《网络数据安全管理条例》：2025年1月1日施行的第18条要求，使用自动化工具（爬虫）爬取数据时，需评估对被爬取方服务的影响，不得“非法侵入网络”或“干扰服务正常运行”，强调“合理爬取”的前提；

　　最高法指导性案例：2025年8月28日发布的第262号案例（某科技公司诉某文化传媒公司不正当竞争案）指出，若爬取行为“实质性替代被爬取方产品或服务”（如两款APP内容高度同质化，用户无需使用原平台即可获取相同信息），则构成不正当竞争。

　　综合上述规则，AI企业合法爬取数据需满足三项核心要求：爬取对象为公开数据、不使用破坏性技术、数据用途不形成实质性替代——这一标准既保障数据流动效率，也维护了市场竞争秩序。

结语：法治框架下的AI数据价值释放

　　2025年《网络安全法》修订新增条款明确：“国家支持人工智能基础理论研究和算法等关键技术研发，推进训练数据资源、算力等基础设施建设，完善人工智能伦理规范，加强风险监测评估和安全监管，促进人工智能应用和健康发展。”这一条款释放出“发展与安全并重”的政策信号，也为AI数据治理指明方向。

　　当前，中国AI数据治理的法律框架已初步成型，但个人信息同意规则的适配、著作权使用机制的明确、爬取行为的细化规范等，仍需立法与司法进一步探索。从全球范围看，如何平衡在先权利保护与AI创新，已成为各国共同面临的议题。未来，随着相关规则的细化，AI企业需在合规框架内构建“外部监管+内部自律”的双重治理体系，既保障数据安全与权益保护，也充分释放数据要素的经济与社会价值——唯有如此，才能突破产业落地的“最后一公里”梗阻，推动中国AI产业在安全、公平的轨道上健康发展。■

　　作者为清华大学法学院教授、智能法治研究院院长

　　本文收录于《2025中国ESG发展白皮书》

　　更多报道详见：【专题】AI全景