中國共產黨新聞網>>理論
分享

構建多元化的人工智能訓練數據供給體系

趙精武

2025年01月17日08:33    來源:光明日報

原標題:構建多元化的人工智能訓練數據供給體系

【析理論道】

數據作為數字時代的“新石油”,不僅是傳統產業、新興產業發展的重要支撐,同時也是人工智能科技創新的關鍵創新資源。

現階段,人工智能產業發展面臨的最突出、最迫切的困境,便是訓練數據供給不足。隨著網絡空間已公開數據資源趨於“消耗殆盡”,人工智能產業愈發需要專業化程度高、領域屬性強的高質量數據來提升算法模型性能。因此,建構我國人工智能法治保障體系的一項核心目標,便是形成多元化的訓練數據供給體系,以滿足不同規模企業的訓練數據使用需求,推動算法模型性能朝著專業化方向升級。而構建多元化的人工智能訓練數據供給體系是一項系統性工程,隻有通過持續拓寬數據採集渠道、擴大數據流動范圍、提高數據質量要求,才能為人工智能產業注入源源不斷的創新動力,實現高質量發展。

健全多源頭數據採集機制,拓展數據廣度。在實踐中,人工智能企業獲取訓練數據的方式主要包括網絡爬虫抓取已公開數據、使用開源數據集、購買數據產品等。整體而言,數據採集方式較為單一,難以滿足相關產業對訓練數據質量的基本需求。若想擴展訓練數據獲取廣度,需要在以下兩個層面實現數據採集機制的延伸:一是在數據採集行為合法性方面,以類型化列舉、監管實踐指南等方式明確訓練數據來源合法性的常見類型,以消除企業業務合規擔憂﹔二是在數據市場供給形式方面,深入探索公共數據的開放利用模式,降低中小企業獲取高質量訓練數據的市場門檻,整合數據交易基礎制度,拓展可交易數據產品的質量和類型。具體而言,公共服務部門在長期社會公共服務過程中積累了海量高質量數據,但由於數據安全和數據使用收益歸屬不明等現實因素,此類公共數據面向人工智能產業的開放使用制度還需進一步深入探索。以交通部門為例,實時路況數據不僅可以提供實時交通擁堵情況報告,在人工智能技術加持下,還可以預測性地分析未來時間段交通流量情況、交通事故發生概率等。科研機構也積累了大量專業性較強的科學數據,如醫學研究機構的臨床病例數據,經由科學化整理和標准化處理,能夠在醫療影像診斷、傳染病防控等領域發揮重要作用。這些潛在的數據“富礦”,仍有待配套的法律制度予以鬆綁和深挖,進而形成層次化的數據採集渠道。

建構高質量數據標注機制,挖掘數據深度。對於訓練數據,既有數量上的要求,更有質量上的要求。訓練數據的精確性、一致性、時效性等技術指標,直接影響著人工智能性能能否提升。以醫療影像識別為例,若是存在訓練數據將正常細胞標識為癌變細胞、同一細胞多次標注為不同信息內容等情況,那麼這些質量堪憂的訓練數據隻會“污染”人工智能性能,進而嚴重危害患者生命健康。國家網信辦等七部門2023年發布的《生成式人工智能服務管理暫行辦法》也專門要求在人工智能技術研發過程中,服務提供者應當制定符合本法要求的“清晰、具體、可操作的標注規則”。因此,合理科學的數據標注規則是保障訓練數據質量和避免算法歧視的重要環節。在數據標注方式上,應當以“人機協作標注”為主要方式。技術研發者和服務提供者雖然可以通過批量自動化處理系統對各類數據資源進行高效批注,但潛在誤差標注風險難以有效控制。相對地,採用人工批注模式,除了成本高昂之外,還可能在不經意間滲透標注人員的個人倫理觀,產生潛在科技倫理風險。因此,理想的數據標注方式應是人機協作,以此填補上述數據標注方式的短板,提升數據標注結果的准確性、完整性和中立性。

完善數據跨境傳輸機制,豐富數據類型。人工智能訓練數據的高質量供給,離不開數據跨境傳輸制度的支撐。不同國家、不同地區的數據資源具有多元化的本地特征,這類數據資源能夠優化人工智能算法模型,提升人工智能產品和服務的通用性。近年來,我國數據跨境傳輸的法律法規相繼出台,確立了以“安全評估、個人信息出境標准合同、個人信息保護認証以及特殊機制”為內容的數據跨境傳輸治理框架。同時,《促進和規范數據跨境流動規定》進一步解綁了基於學術合作、跨國生產制造、市場營銷等活動進行數據跨境傳輸的限制條件。為了更好推動訓練數據的跨境流動,需要遵循發展與安全並重的治理邏輯。從長遠來看,數據資源本地化不利於人工智能產業的創新發展,也不利於數據要素的市場化配置。數據跨境傳輸制度的建構是為了實現又好又快的跨境傳輸數據,在數據資源的“一進一出”中,充分獲取全球范圍內的高質量訓練數據資源。在促進產業發展的同時,還需要確保數據出境安全,積極探索多邊、雙邊數據跨境合作機制,提升我國在數據跨境傳輸國際規則制定中的話語權,以構建網絡空間命運共同體為導向,實現訓練數據安全有序流動。

出台數據供給配套政策,暢通數據流動。在財政支持政策方面,不同規模的科技企業獲取訓練數據的能力並不相同,為了降低人工智能產業的市場門檻,有必要通過設立專項資金、實施稅收優惠政策等手段降低中小企業獲取高質量訓練數據的實際難度。針對在特定領域具有卓越表現的中小企業、科研機構予以專項扶持,特別是涉及先進標注算法、數據整合技術等事項,可以通過專項資金助力企業購置更先進的設備、擴充專業人才隊伍。在技術標准體系方面,統一的技術標准是確保訓練數據質量、規范數據供給的重要工具。在訓練數據採集、標注環節,設置統一的技術標准體系能夠有效降低后續數據分析、數據挖掘等環節的研發成本。同時,科學客觀的技術標准也能針對科技倫理事項輔助確立更為統一的標注規則。在基礎設施平台建設方面,為了緩解各行業、各領域數據流動范圍狹窄、流動類型有限等“數據孤島”現象,需要政府部門推動建設面向訓練數據供給的數字基礎設施以及公共算法訓練平台。通過這些基礎設施和公共平台,將涵蓋經濟、地理、交通等各個領域的數據資源進行匯總,從而有效提高訓練數據的總體數量和質量。

(作者:趙精武,系北京航空航天大學法學院副教授、北京科技創新中心研究基地副主任)

(責編:黃瑾、萬鵬)
微信“掃一掃”添加“學習大國”

微信“掃一掃”添加“學習大國”

分享到:
推薦閱讀