【光明時評】加快建立人工智能訓練數據合理使用制度

孫曉麒鄧宏光

2026年05月27日08:30 來源：光明日報222

訂閱取消訂閱已收藏收藏大字號

點擊播報本文，約

原標題：【光明時評】加快建立人工智能訓練數據合理使用制度

【光明時評】

近日，中央網信辦印發通知，在全國范圍內部署開展為期4個月的“清朗·整治AI應用亂象”專項行動。該行動第一階段重點整治的問題中就包括大模型訓練語料安全，如訓練語料審核把關不嚴，模型訓練數據存在違法不良信息﹔訓練數據來源合規性存在問題，模型訓練過程中使用未經授權的文字、圖片、音視頻等數據，明確強化AI技術源頭治理。

回溯人工智能的發展歷程，從最初的文本生成，到如今的圖像、音樂、視頻等多模態內容生成，每向前邁進一步，對訓練數據的廣度、深度和復雜性的要求就更高一層。可以說，沒有數據，就沒有模型﹔沒有高質量數據，就沒有高水平模型。今天的大模型競爭，表面上看是算法與算力的競爭，實則是數據供給與數據治理能力的競爭。誰能在合法合規的前提下穩定獲得可用數據，建設高質量語料和數據集，誰就能在未來的人工智能競爭中佔據主動甚至主導地位。

當前，針對人工智能訓練數據的使用，尚缺乏統一的制度規則。實踐中主要依靠《生成式人工智能服務管理暫行辦法》《中共中央國務院關於構建數據基礎制度更好發揮數據要素作用的意見》等規范，再輔之以著作權法中合理使用制度等相關規則加以調節。在整體上，仍須完善與其他各部門法協調統一、內容明確、具有直接針對性的制度規范。由於現實中的模型訓練數據往往來源復雜、層級多樣、流轉頻繁，使得大量數據處於權屬不明、授權不清、來源難溯的狀態。加之算法訓練過程高度復雜，模型機制帶有明顯的“黑箱”屬性，進一步導致權利識別難、侵權舉証難、責任劃分難，成為實踐中普遍存在的現實問題。鑒於此，建立人工智能訓練數據合理使用的制度規則可謂迫在眉睫。訓練數據治理不能隻依賴事后個案裁判，還應建立分類分級、授權留痕、來源可溯、風險評估和爭議救濟等制度機制。尤其要區分訓練階段的數據攝取、模型輸出階段的內容生成，以及平台傳播階段的責任承擔，避免將不同環節的法律責任簡單混同。

事實上，“十五五”規劃綱要已對此作出針對性部署，提出“完善數據標准體系和質量管理體系，加快建設人工智能語料庫，面向能源、交通、制造、教育、健康、金融等領域建設高質量數據集，建立人工智能訓練數據合理使用制度”。這意味著訓練數據治理已不只是技術企業自身的合規問題，而是關系數據資源開發、人工智能產業競爭力和數字中國建設全局的基礎性制度問題。構建科學有效的制度規則是人工智能行穩致遠的重要保障。讓人工智能訓練數據合理使用制度立得住、行得通，兩方面的問題尤其值得關注。

一方面，應統籌好多元關系。人工智能訓練數據從生成、處理、流通到進入模型訓練，涉及原始權利人、數據處理者、交易平台、模型開發者、應用企業和最終用戶等多類主體。制度設計既不能把數據資源簡單視為可任意抓取的公共素材，也不能因權利邊界不清而使創新活動陷入過度不確定。關鍵在於建立清晰、可操作、可預期的規則：對可自由使用、需授權使用、限制使用和禁止使用的數據作出分類安排，對授權、收益分配、來源追溯和責任承擔形成明確機制。

另一方面，人工智能訓練數據使用天然具有跨境性，涉及版權例外、文本與數據挖掘、跨境數據流動、數字貿易和平台治理等多重議題。這要求我們在制度制定中，既要立足國內產業實踐，也要重視與國際通行規則的兼容、對話和轉化。尤其在相關國際規則仍處於形成和調整階段的背景下，應通過知識產權、數字經濟和人工智能治理等多邊平台，積極提出具有實踐基礎、制度解釋力的中國方案。

面向人工智能快速發展的新階段，我們應以訓練數據合理使用制度建設為重要抓手，加快推動形成分類清晰、授權明確、流通有序、責任可追的治理體系，在保護權利人合法權益的同時釋放數據要素價值，在規范市場秩序的同時激發技術創新活力。唯有如此，人工智能產業才能在法治軌道上行穩致遠，我們也才能在全球人工智能治理規則塑造中貢獻更多“中國智慧”。

（作者：孫曉麒、鄧宏光，分別系中國政法大學刑民交叉研究中心特約研究員，西南政法大學民商法學院教授、博士生導師）

(責編：黃瑾、萬鵬)

學習路上
時習之

習近平
系列重要講話數據庫
中央文件

學習宣傳貫徹
黨的二十大精神

跟著總書記學黨史
數據庫

中央和國家機關
建設模范機關

言之有理
學習文選

微信“掃一掃”添加“學習大國”