【資料圖】
3月7日,受證監會科技監管局局長姚前建議重點發展基于AIGC技術的合成數據產業消息影響,A股ChatGPT、AIGC概念午后拉升,截至發稿,中文在線(300364)(300364.SZ)漲超8%,神思電子(300479)(300479.SZ)、山水比德(300844.SZ)、視覺中國(000681)(000681.SZ)、宣亞國際(300612)(300612.SZ)、湯姆貓(300459.SZ)、浪潮信息(000977)(000977.SZ)等股拉升上漲。
證監會科技監管局局長姚前在《中國金融》雜志撰文稱,建議重點發展基于AIGC技術的合成數據產業。以更高效率、更低成本、更高質量為數據要素市場“增量擴容”,助力打造面向人工智能未來發展的數據優勢。在強化數據要素優質供給方面,應統籌兼顧自立自強和對外開放。可考慮對Wikipedia、Reddit等特定數據源建立過濾后的境內鏡像站點,供國內數據處理者使用。
有研究預測,按照目前的發展速度,到2026年ChatGPT類大模型的訓練將耗盡互聯網上的可用文本數據,屆時將沒有新的訓練數據可供使用。因此,算力瓶頸之外,訓練數據將成為大模型產業化的最大掣肘之一。從更深層次考慮,大模型在訓練數據方面還存在各種治理問題,比如數據采集標注費時費力成本高、數據質量較難保障、數據多樣化不足難以覆蓋長尾和邊緣案例、特定數據在獲取與使用分享等方面存在隱私保護、數據偏見等問題。由此可見,人工智能產業的高質量發展離不開高質量的訓練數據,訓練數據的安全合規使用是大模型人工智能長期健康發展的基礎。