中國共產黨新聞網>>理論
分享

【光明時評】加快建立人工智能訓練數據合理使用制度

孫曉麒 鄧宏光

2026年05月27日08:30    來源:光明日報222

訂閱取消訂閱已收藏收藏大字號

點擊播報本文,約

原標題:【光明時評】加快建立人工智能訓練數據合理使用制度

【光明時評】

近日,中央網信辦印發通知,在全國范圍內部署開展為期4個月的“清朗·整治AI應用亂象”專項行動。該行動第一階段重點整治的問題中就包括大模型訓練語料安全,如訓練語料審核把關不嚴,模型訓練數據存在違法不良信息﹔訓練數據來源合規性存在問題,模型訓練過程中使用未經授權的文字、圖片、音視頻等數據,明確強化AI技術源頭治理。

回溯人工智能的發展歷程,從最初的文本生成,到如今的圖像、音樂、視頻等多模態內容生成,每向前邁進一步,對訓練數據的廣度、深度和復雜性的要求就更高一層。可以說,沒有數據,就沒有模型﹔沒有高質量數據,就沒有高水平模型。今天的大模型競爭,表面上看是算法與算力的競爭,實則是數據供給與數據治理能力的競爭。誰能在合法合規的前提下穩定獲得可用數據,建設高質量語料和數據集,誰就能在未來的人工智能競爭中佔據主動甚至主導地位。

當前,針對人工智能訓練數據的使用,尚缺乏統一的制度規則。實踐中主要依靠《生成式人工智能服務管理暫行辦法》《中共中央 國務院關於構建數據基礎制度更好發揮數據要素作用的意見》等規范,再輔之以著作權法中合理使用制度等相關規則加以調節。在整體上,仍須完善與其他各部門法協調統一、內容明確、具有直接針對性的制度規范。由於現實中的模型訓練數據往往來源復雜、層級多樣、流轉頻繁,使得大量數據處於權屬不明、授權不清、來源難溯的狀態。加之算法訓練過程高度復雜,模型機制帶有明顯的“黑箱”屬性,進一步導致權利識別難、侵權舉証難、責任劃分難,成為實踐中普遍存在的現實問題。鑒於此,建立人工智能訓練數據合理使用的制度規則可謂迫在眉睫。訓練數據治理不能隻依賴事后個案裁判,還應建立分類分級、授權留痕、來源可溯、風險評估和爭議救濟等制度機制。尤其要區分訓練階段的數據攝取、模型輸出階段的內容生成,以及平台傳播階段的責任承擔,避免將不同環節的法律責任簡單混同。

事實上,“十五五”規劃綱要已對此作出針對性部署,提出“完善數據標准體系和質量管理體系,加快建設人工智能語料庫,面向能源、交通、制造、教育、健康、金融等領域建設高質量數據集,建立人工智能訓練數據合理使用制度”。這意味著訓練數據治理已不只是技術企業自身的合規問題,而是關系數據資源開發、人工智能產業競爭力和數字中國建設全局的基礎性制度問題。構建科學有效的制度規則是人工智能行穩致遠的重要保障。讓人工智能訓練數據合理使用制度立得住、行得通,兩方面的問題尤其值得關注。

一方面,應統籌好多元關系。人工智能訓練數據從生成、處理、流通到進入模型訓練,涉及原始權利人、數據處理者、交易平台、模型開發者、應用企業和最終用戶等多類主體。制度設計既不能把數據資源簡單視為可任意抓取的公共素材,也不能因權利邊界不清而使創新活動陷入過度不確定。關鍵在於建立清晰、可操作、可預期的規則:對可自由使用、需授權使用、限制使用和禁止使用的數據作出分類安排,對授權、收益分配、來源追溯和責任承擔形成明確機制。

另一方面,人工智能訓練數據使用天然具有跨境性,涉及版權例外、文本與數據挖掘、跨境數據流動、數字貿易和平台治理等多重議題。這要求我們在制度制定中,既要立足國內產業實踐,也要重視與國際通行規則的兼容、對話和轉化。尤其在相關國際規則仍處於形成和調整階段的背景下,應通過知識產權、數字經濟和人工智能治理等多邊平台,積極提出具有實踐基礎、制度解釋力的中國方案。

面向人工智能快速發展的新階段,我們應以訓練數據合理使用制度建設為重要抓手,加快推動形成分類清晰、授權明確、流通有序、責任可追的治理體系,在保護權利人合法權益的同時釋放數據要素價值,在規范市場秩序的同時激發技術創新活力。唯有如此,人工智能產業才能在法治軌道上行穩致遠,我們也才能在全球人工智能治理規則塑造中貢獻更多“中國智慧”。

(作者:孫曉麒、鄧宏光,分別系中國政法大學刑民交叉研究中心特約研究員,西南政法大學民商法學院教授、博士生導師)

(責編:黃瑾、萬鵬)
微信“掃一掃”添加“學習大國”

微信“掃一掃”添加“學習大國”

分享到:
推薦閱讀