促進生成式人工智能發展亟須破解數據瓶頸

王業亮丁曉東

2024年11月22日08:24 來源：光明日報

原標題：促進生成式人工智能發展亟須破解數據瓶頸

【析理論道】

作為信息化、數字化、智能化的新型技術基座，生成式人工智能對於提升國家戰略地位與國際競爭力具有重要意義。近年來，美國接連出台多項人工智能戰略和政策文件，以謀求維持其在該領域的領先地位。歐盟也試圖通過立法打破數據孤島、構建基於風險的分層規制體系，提升人工智能產業競爭力。基於數據要素稟賦，中國在發展生成式人工智能領域具有戰略優勢。2023年中央經濟工作會議指出：“要大力推進新型工業化，發展數字經濟，加快推動人工智能發展。”為進一步促進生成式人工智能的快速發展，應構建生成式人工智能促進型法律制度，進一步優化個人信息保護，協調著作權保護，推動企業數據互聯，用制度創新破解數據瓶頸，為生成式人工智能發展提供法治保障，在激烈的國際競爭中搶佔主動權和制高點。

完善個人信息保護，增強訓練數據供給

個人信息是生成式人工智能訓練數據的重要來源。生成式人工智能訓練數據的形成，有賴於對個人信息保護制度的正確理解與適用，涉及個人信息保護法中的告知同意制度、必要性原則以及公開性個人信息的利用等法律規范。具體而言，告知同意制度能夠給予個體一定的自我保護，防止信息處理者過度收集個人信息。但面對信息處理的復雜實踐，受認知所限，個體有可能難以真正預防風險。必要性原則強調收集個人信息的限制與處理最小化。若對必要性原則進行僵化解釋，則任何包含個人信息的數據都無法用於人工智能訓練，這反而可能導致人工智能因為缺少某些數據訓練而變得具有歧視性、不公平性。公開數據是生成式人工智能數據的主要來源，而這些數據往往缺乏交互場景和聯系方式，信息處理者難以聯系個人和獲取個人同意。

為破解生成式人工智能在個人信息數據收集與利用方面的障礙，應在保障個人信息安全的前提下，進一步完善個人信息保護制度。首先，對於已公開的個人信息，應以廣泛匯聚與融合利用為前提，於技術層面構建去標識化、差分隱私等程序性保護機制，並輔之以個人拒絕權等機制。其次，當人工智能訓練中的數據包含個人信息時，應區分改進型與侵害型的個人信息處理。如果人工智能訓練數據是為了實現更為公平與准確的個人信息處理，應將此類訓練視為符合個人信息處理目的，反之則應視為違反必要性原則。最后，應當優化告知同意制度，強化隱私政策告知、加強合作治理。在個體私力救濟不足的情況下，應強化執法者對隱私政策的執行、市場機構對隱私政策與個人信息保護實踐的評級、信息處理者內部的個人信息合規機制。

立法既要為訓練數據提供制度供給，也要為個人信息安全提供保障。對於人工智能企業合法獲取的包含個人信息的數據，應在數據清洗、數據標准、模型訓練和評估、模型部署等階段，對個人信息數據進行全生命周期的監管，進一步強化生成式人工智能企業的處理者責任。在技術層面，應要求人工智能企業依托加密技術、隱私計算等技術化手段保護個人信息。在制度層面，應要求人工智能企業通過內部合規、設立數據保護專員、合規審計與風險評估等機制嚴格保護個人信息。

協調著作權保護，規范內容數據合理使用

著作權保護的門檻並不高，隻要求作品具有獨創性並能以一定形式表現。因此，人工智能企業利用網絡上的文字、圖片、聲音等素材的內容數據進行訓練，便有可能構成著作權侵權，面臨巨大訴訟壓力、賠償壓力以及社會聲譽壓力。由於多數內容數據的著作權分散於各個著作權人，人工智能企業可能難以直接與他們聯系。即使聯系到這些著作權人，在要價問題上也面臨種種困難。既有的數據庫和各類著作權集體管理組織可以在一定程度上解決著作權許可問題，但對於網絡上的內容數據而言，由於數據容量以及適用領域等方面的限制，其作用相對有限。

破解生成式人工智能內容數據的著作權約束，需要構建整體性的合理使用制度。生成式人工智能與非生成式人工智能相比，對於數據的利用具有復雜性，其對著作權作品數據的利用常常既涉及事實，也涉及表達，但整體上屬於合理適用范圍。具體來說，就人格權益而言，生成式人工智能利用海量數據而非特定作品進行訓練，一般不會侵害某一特定作品中所包含的人格權益﹔就激勵機制而言，生成式人工智能利用海量數據進行訓練，主要是為了提高其一般性的識別與創作能力，而不是替代某一特定作品，作者也不會因為生成式人工智能作品的出現而不再進行創作。當然，如果生成式人工智能對於著作權數據的訓練破壞了權利人的技術措施或相關協議，或者當生成式人工智能對於著作權數據的利用是“假訓練、真剽竊”，那麼此類行為就對人格權益與激勵制度產生負面影響，應當被排除在合理使用之外。

生成式人工智能企業在對著作權作品進行寬泛合理使用的同時，也需要承擔與此相對應的更多責任。首先，生成式人工智能企業應踐行社會主義核心價值觀，積極承擔社會責任，避免數據與算法歧視方面的風險與侵害。其次，生成式人工智能企業應對實質性相似的生成作品承擔侵權責任，這既有利於保護作品原創者的合法權益，也有利於激勵企業的技術創新。最后，法律應審慎對各類生成類作品賦予著作權。人工智能領域的激勵機制在於鼓勵人工智能技術的發展與創新，而非激勵生成作品的生產。可以將人工智能的生成作品置於公共領域，允許公眾與企業對其進行一般利用。生成式人工智能企業也可以推出用戶付費版本，通過用戶協議和向用戶收取使用費用來獲得報酬，這可以為人工智能企業提供合理的商業激勵。

破除企業數據壁壘，助推數據匯聚融合

破除企業數據壁壘，需要倡導互聯網的互聯互通。網絡互聯曾經是互聯網的核心精神之一，但隨著互聯網的發展和商業化，出於競爭或安全等考量，互聯網企業往往打造封閉型數據生態系統，防止其他企業特別是競爭企業獲取其數據。這導致了數據孤島現象，抑制了數據共享紅利的溢出效應。對於企業而言，僅僅依靠自身掌握的商業數據進行訓練，難以觸及其他企業獨佔的高質量數據，勢必會制約生成式人工智能的訓練效果。

就數據互聯而言，應避免對網絡公開數據進行絕對排他性確權。過去幾十年來，網絡公共空間的興起導致了數據的爆發性增長，為人工智能等技術的發展奠定了堅實的數據基礎。隨著數據價值的凸顯，數據的利益分配成為各方關注焦點，不少聲音呼吁通過對數據確權實現此類分配。但基於數據的公共性特征，過多的排他性權利保護可能導致社會對它們的利用不足，構成“反公地悲劇”。數據的公共性並不否認對數據權益的合理保護，數據的合理保護同樣是一種公共善品，有利於激發私主體的創造和個體有價值數據的公開﹔同樣，數據的公共性也不否認數據利用的公平性需求，而這種公平性不應依賴微型權益確權或強化企業的數據排他性確權來實現，而應創新數據利用的收益分配機制，實現效率與公平的協調。

破除企業數據壁壘，也可以利用各類合理的爬虫機制打通不同企業之間的數據壁壘。基於數據的非競爭性與爬虫技術的中立性特征，應當認識到爬虫等行為一般不會影響數據持有者的合法權益，如果運用得當，反而會承載促進互聯的作用。尤其在數據企業紛紛設置壁壘、互相防范的情形下，合理的數據爬虫可以成為不同企業數據融合的橋梁。為此，對於規范性的數據爬虫不應施加過多限制。對於造成宕機等后果的數據爬虫，可以根據侵權責任法進行應對，謹慎適用刑事措施。此外，網信部門可以通過鼓勵行業自律等方式，在倡導互聯網企業合理自治的同時，助推企業之間互聯互通，營造多樣化互聯網生態。在生成式人工智能等技術日新月異的背景下，企業呈現出前所未有的數據融合需求，應利用法律與行業自律的方式共同推動數據互聯，為生成式人工智能企業提供充足的數據源，助力企業良性競爭、持續創新。

（作者：王業亮、丁曉東，分別系中國人民大學法學院博士后，中國人民大學法學院教授、未來法治研究院副院長）

(責編：黃瑾、劉圓圓)

學習路上
時習之

習近平
系列重要講話數據庫
中央文件

學習宣傳貫徹
黨的二十大精神

跟著總書記學黨史
數據庫

中央和國家機關
創建模范機關

言之有理
學習文選

微信“掃一掃”添加“學習大國”