關于發(fā)展生成式人工智能 加強出版業(yè)前沿技術應用的提案
生成式人工智能技術在知識生產、信息獲取和人機交互方面取得了劃時代的突破,正在引發(fā)新一輪的科技革命和產業(yè)變革,不斷催生新產業(yè)、新業(yè)態(tài)和新商業(yè)模式,培育經濟發(fā)展新動能。生成式人工智能技術同時也給傳統(tǒng)出版業(yè)帶來了挑戰(zhàn)和發(fā)展機遇。2022年4月,中共中央宣傳部印發(fā)《關于推動出版深度融合發(fā)展的實施意見》,指出要加強前沿技術探索應用,“緊盯技術發(fā)展前沿,用好信息技術革命成果,強化大數(shù)據、云計算、人工智能、區(qū)塊鏈等技術應用”。但是,生成式人工智能與出版業(yè)的融合發(fā)展仍面臨諸多現(xiàn)實問題:
一是技術開發(fā)與落地應用存在困難。生成式人工智能大模型的三要素是數(shù)據、算力與算法。出版業(yè)普遍具有較高質量的數(shù)據積累,根據國家新聞出版署發(fā)布的《2021年新聞出版產業(yè)分析報告》,2021年全國共出版圖書、期刊、報紙、音像制品和電子出版物426.65億冊(份、盒、張)。但是,出版業(yè)在算力方面存在嚴重不足,算法技術相對落后。人工智能大模型使用具有一定的門檻,如需要一定的基礎設施投入等,而出版業(yè)的單位體量通常較小,在一定程度上制約生成式人工智能的應用。
二是生成內容質量不高,存在安全隱患。生成式人工智能基于概率產生內容,經常存在知識記憶錯誤、信息時效性不足、邏輯推理錯亂、專業(yè)知識缺乏等問題。如果對大模型的訓練數(shù)據管控不嚴,很容易暴露敏感信息,甚至生成不符合社會主義核心價值觀的不當內容。
三是生成訓練語料存在合規(guī)性問題。生成式人工智能大模型訓練需要海量高質量語料數(shù)據,但出版業(yè)缺少新聞出版數(shù)據應用到大模型中的政策指導。大模型技術廠商有強烈的數(shù)據需求,希望利用新聞出版機構的高質量數(shù)據訓練生成式人工智能大模型,但是,新聞出版機構由于缺乏定價標準和收益分配規(guī)則,且擔心數(shù)據安全問題,不敢與大模型技術廠商合作,導致出版機構的高質量語料數(shù)據難以高效流通,發(fā)揮數(shù)據要素價值。
為此,建議:
一是加強政策引導和扶持。加快推進生成式人工智能在出版業(yè)的落地應用,助力出版業(yè)向知識服務業(yè)轉型。充分考慮出版業(yè)發(fā)展特點,遵循生成式人工智能服務管理相關文件要求,制定并完善適用于出版業(yè)的管理辦法,規(guī)范、促進出版業(yè)人工智能大模型的訓練和應用。加強政策扶持,鼓勵創(chuàng)新探索,培育生態(tài)體系,營造良好政策環(huán)境,促進出版業(yè)與人工智能融合發(fā)展。支持行業(yè)組織、企業(yè)等在生成式人工智能技術創(chuàng)新、數(shù)據資源建設、轉化應用、風險防范等方面開展協(xié)作。設立扶持計劃或項目,推動出版業(yè)生成式人工智能基礎設施和平臺建設,促進算力等資源協(xié)同共享。
二是建立行業(yè)準入機制。為保障生成式人工智能技術的有序發(fā)展及相關出版融媒體產品堅持正確政治方向、輿論導向、價值取向,建議加快制定出版業(yè)的人工智能大模型認證準入相關政策,從國家、行業(yè)層面制定人工智能相關技術產品的準入門檻,包括相應的認證、備案、監(jiān)管等細則。同時,為確保大模型訓練結果的準確性和可信度,建議制定相關工作指南,以確保訓練過程的高效和結果的可靠性、安全性。
三是建立訓練語料付酬標準。面對大模型訓練數(shù)據中可能涉及的侵權問題,除了規(guī)范數(shù)據合規(guī)使用外,監(jiān)管部門還應著力推動制定生成式人工智能訓練語料的權益分配辦法,充分考慮多元利益相關主體的不同訴求,既激勵人工智能產業(yè)的創(chuàng)新發(fā)展,又能夠保障高質量數(shù)據生產者的合法權益。