據中央廣播電視總臺經濟之聲《天下財經》報道,生成式人工智能大模型誕生在海量數據的基礎上,而統計也是一項收集和處理數據的工作,那么大模型對統計有什么影響?兩者怎樣結合?對外經濟貿易大學智慧數據研究中心日前舉辦“人工智能與統計:理論與實務”專題學術交流活動,多位統計專家在會上發表了觀點。
專題學術交流活動現場(記者呂紅橋 攝)
“設定幾個指標,弄一份調查問卷,發放和回收問卷,記錄和分析結果”在不少人的印象中,這就是統計。實際上,統計工作遠比這科學和復雜得多,涉及數據收集、清洗、分析、建模、驗證等多個流程。而AI大模型誕生后,統計工作正迎來變革。統計專家施建軍在研討會上表示,大部分統計環節大模型都可以完成,而且效率非常高。以統計年鑒編寫為例,只要輸入數據和格式,就能快速自動生成。那么,有了大模型,傳統統計會不會慢慢消亡?
施建軍表示:“我個人認為統計不會消亡,但是方法手段要更新,要在短時間內大規模更新到新的知識體系。傳統統計人員如果不能迎接AI的挑戰,不能更新知識體系,他們可能面臨著轉型壓力,這是一個自然的、歷史的過程。 ”
字節跳動資深AI專家李檀認為,當前正在經歷統計研究的“伽利略時刻”,當傳統抽樣調查遭遇大模型的千萬億級參數訓練,統計工作者需要重新思考,如何駕馭這種新型生產力工具。在施建軍看來,統計工作者駕馭大模型首先要應對數據隱私和安全挑戰。
施建軍說:“統計面臨的最大挑戰是數據隱私和安全。因為統計數據要保密,但是太保密了也收集不到數據,大規模數據采集可能侵犯公民個人隱私。還有算法的‘黑箱’和公信力,將來AI如果缺乏透明度,(統計結果)可信度就會受到猜疑。 ”
施建軍建議強化數據治理和隱私保護、數據審計,提升算法透明度與公信力。
目前,一些高校正在建設應用經濟學等垂類大模型和智能體,以更好地完成統計等各類工作。對外經濟貿易大學副校長黃薇表示,這個過程中目前最有挑戰的就是語料庫的建設。
黃薇說:“在建大模型智能體的過程當中,一個最深刻的感受就是高質量語料庫的建設挑戰。要喂進去什么樣的東西?數據的質量怎么樣?所以在高質量語料庫的把握上,可能要很考驗數據科學家的前瞻性。如果喂進去的是‘精飼料’,我覺得出來的結果可能會減少一些大模型幻覺。 ”
對于如何提高數據質量,專家建議加強數據清洗整理,把數據場景化,按照用途給數據打上標簽,提高數據的實用性。
此外,用大模型做統計,還要解決非結構化數據處理難題。數據載體不光是文本、數字,還有聲音、圖像等,這些多模態數據如何系統收集和處理,也需要進一步改進。國務院參事鮮祖德指出,用大模型提高統計水平,需要加強人工智能與統計生產方式的深層融合。
鮮祖德介紹:“人工智能不是簡單的技術外掛,而是未來統計體系的重要組成部分。從調查設計、數據采集,數據處理、數據發布、數據分析各個環節,人工智能要與各個環節協同,建立跨部門協調機制,統籌推進人工智能與統計制度、標準、調查方法、分析方法、監督方法系統融合。”