不卡久草av91去色色|黄色A级片视频毛片www|欧美国产午夜福利|看看欧美大片靠逼逼|蜜乳AV影视一级久久|国产无码美女优优色社区|国产精品中文字幕二区|69国产精品成人无码|国产精品黄色爱情一级片|国产精品在线偷拍

人民日報出版社主管 人民周刊雜志社主辦

010-65363526rmzk001@163.com
首頁 > 欄目 > 科學 > 正文

中文高質量數(shù)據(jù)集加速建設

大模型如何更懂“中國話”

本報記者 王云杉    2025-12-25 09:09:42    人民日報

“過馬路時,你要注意看車!”

“我計劃明天去車展看車。”

這兩句話里的“看車”是一個意思嗎?相信不少人要會心一笑,表面上看是同一個詞組,但其含義因語境不同發(fā)生了變化。

這就是中文里常見的“一詞多義”現(xiàn)象。人工智能大模型是一種與人類語言密切相關的技術,要讓大模型深刻理解這一現(xiàn)象,離不開中文數(shù)據(jù)的持續(xù)供給。

目前,國內多數(shù)模型訓練使用的數(shù)據(jù),中文數(shù)據(jù)占比已經超過60%,有的模型達到80%。大模型訓練中,中文數(shù)據(jù)占比提升有何意義?中文高質量數(shù)據(jù)為何持續(xù)增加?如何進一步增加中文數(shù)據(jù)的開發(fā)與供給?記者進行了采訪。

數(shù)據(jù)就像大模型的“知識教材”

不同語言的數(shù)據(jù)對大模型性能有怎樣的影響?“數(shù)據(jù)就像大模型的‘知識教材’,教材的語言屬性不同,會對模型的知識體系產生不同影響。”清華大學計算社會科學與國家治理實驗室執(zhí)行主任、教授孟慶國表示。

從知識來源看,過去我國大模型常面臨“數(shù)據(jù)依賴”風險——英文數(shù)據(jù)在全球互聯(lián)網的占比較高,如前沿科技論文、行業(yè)標準、文化典籍等多以英文呈現(xiàn),全球高質量標注數(shù)據(jù)也多以英文為主。

“語言類大模型一般需要遵循一定的語言習慣。”工業(yè)和信息化部信息通信經濟專家委員會委員盤和林認為,中文數(shù)據(jù)占比提高,既方便了用戶理解其輸出結果,又可以保障和提升我國在大模型上的研發(fā)能力。

“若中文數(shù)據(jù)占比低,模型在關鍵技術迭代中易受‘數(shù)據(jù)授權限制’‘更新延遲’等影響。”孟慶國說,中文數(shù)據(jù)占比提高,助力我國在“數(shù)據(jù)安全”“技術自主”上邁出關鍵步伐,有利于我國掌握大模型發(fā)展主動權。

“中文數(shù)據(jù)中獨有的文化習慣、隱喻表達、政策術語等在英文數(shù)據(jù)中難以得到體現(xiàn)。模型長期學習英文數(shù)據(jù),所形成的‘英文式認知邏輯’,在理解中文特有的思維方式時容易出現(xiàn)偏差。”科大訊飛消費者AI交互業(yè)務部總經理趙艷軍介紹,中文數(shù)據(jù)比重的提升,增強了大模型對中華文化及中國場景的理解能力。比如中醫(yī)問診時,“上火”“濕氣”等概念需要中文語境才能準確推理。

從知識傳承看,中文數(shù)據(jù)承載著我國數(shù)千年的文化積累,中文數(shù)據(jù)占比提高,能讓大模型推動中華文化的數(shù)字化傳播。“中文數(shù)據(jù)占比高的模型能講解‘文言文虛詞用法’‘詩詞平仄規(guī)律’等。比如,在解釋‘之乎者也’時,結合《論語》《孟子》等中文典籍案例,讓傳統(tǒng)文化教育更生動。”孟慶國說。

中文高質量數(shù)據(jù)供給能力不斷增強

中文普通數(shù)據(jù)和中文高質量數(shù)據(jù)有何區(qū)別?普通數(shù)據(jù)多為未經審核的網絡文本、非專業(yè)內容,易出現(xiàn)事實錯誤或概念混淆。而高質量數(shù)據(jù)需經過“事實核查、專業(yè)審核”,語義準確且來源可追溯。

要理解中文高質量數(shù)據(jù)的重要性,可從醫(yī)療診斷這一專業(yè)場景講起。今年8月,中文臨床醫(yī)學知識圖譜“磐醫(yī)知識圖譜”在浙江臺州發(fā)布。“當前,一些大模型學習的醫(yī)學知識,來源于互聯(lián)網公開數(shù)據(jù),而這些公開數(shù)據(jù),有的不嚴謹、有的存在矛盾、有的更新滯后,這些情況都會對大模型生成的結果產生負面影響。”浙江省全省醫(yī)療智能決策重點實驗室主任林輝表示,“磐醫(yī)知識圖譜”中的數(shù)據(jù)均由醫(yī)學專家審核,每個知識點都有明確來源,且動態(tài)更新醫(yī)學進展。

大模型性能的提升,體現(xiàn)了中文高質量數(shù)據(jù)的價值。得益于一系列因素的合力助推,中文高質量數(shù)據(jù)的供給能力不斷增強——

政策有支持。從《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》提出“打造高質量人工智能大模型訓練數(shù)據(jù)集”,到國家數(shù)據(jù)局布局建設數(shù)據(jù)標注基地,政策利好下,大量中文高質量數(shù)據(jù)集加速建設。

技術有突破。中文數(shù)據(jù)因“歧義多、語境依賴強”,早期標注成本是英文數(shù)據(jù)的1.8—2.5倍,隨著技術不斷進步,開發(fā)難度也在降低。例如,國內某“中文語義標注系統(tǒng)”已可自動區(qū)分“打毛衣”“打電話”中“打”的含義,讓標注效率提升了3倍,且成本有效降低。

行業(yè)有共識。國內垂直場景對“中文適配”大模型的需求不斷升溫,推動中文數(shù)據(jù)從“輔助補充”變?yōu)?ldquo;核心資源”,更多企業(yè)參與到中文數(shù)據(jù)的開發(fā)之中。如中國移動已建成覆蓋超30個行業(yè)、超3500TB(太字節(jié))的通用高質量數(shù)據(jù)集。

協(xié)同建標準,細分多場景

Token(通常所說的“詞元”)是處理文本的最小數(shù)據(jù)單元。數(shù)據(jù)顯示,2024年初,我國日均Token的消耗量為1000億,截至今年9月底,我國日均Token消耗量已突破40萬億。這些數(shù)字背后,是中文數(shù)據(jù)資源的快速積累和價值釋放。

如何進一步增強中文數(shù)據(jù)的開發(fā)和供給?專家學者帶來了思考和建議。

首先是建標準?,F(xiàn)有的中文數(shù)據(jù)中,重復的內容多、質量高的少,尤其是在醫(yī)療、工業(yè)等垂直領域,高質量數(shù)據(jù)更是稀缺。比如醫(yī)療數(shù)據(jù),有的醫(yī)院記錄病歷只寫“發(fā)燒”,有的會寫“發(fā)燒38.5攝氏度、伴咳嗽2天”,若無標準的“尺子”判斷數(shù)據(jù)質量,進一步的開發(fā)難以推進。

“明確了不同領域的中文標注標準后,才更有利于建設和完善評價、激勵機制。”孟慶國認為,應加快研究制定中文數(shù)據(jù)分級標準,從而釋放中文數(shù)據(jù)的供給活力。

其次是強技術。高質量數(shù)據(jù)集的建設過程中仍不可避免會遇到大量數(shù)據(jù)孤島和合規(guī)難題,比如,不同機構的數(shù)據(jù)因為隱私安全等合規(guī)要求,難以跨域流通,導致各機構重復開展數(shù)據(jù)標注,既浪費資源,又無法形成規(guī)模效應。

“可推廣應用新一代標注技術,在原始數(shù)據(jù)不出域且保證隱私安全的條件下,完成跨機構協(xié)同標注,從而整合多機構力量,避免重復勞動。”趙艷軍說。

此外要補場景。我國產業(yè)體系完備,其廣度和深度決定了需要更多細分場景的中文數(shù)據(jù)。“比如,在元宇宙等新興場景中,中文數(shù)據(jù)使用量僅為英文的1/5;又如,中醫(yī)、非遺等傳統(tǒng)場景數(shù)字化程度低,大量寶貴信息尚未轉化為可用數(shù)據(jù)資源。”孟慶國表示,可推動政產學研用協(xié)同,專項采集各種垂直場景中文數(shù)據(jù),激活產業(yè)應用。

 

推進文化和科技融合

“十五五”規(guī)劃建議提出,“推進文化和科技融合”。探索文化和科技融合的有效機制,需要用互聯(lián)網思維和信息技術改進文化創(chuàng)作生產流程,推動文化建設數(shù)智化賦能、信息化轉型。

“文化IP+科技體驗”,重塑文旅產業(yè)生態(tài)。通過線上數(shù)字平臺與線下沉浸場景的結合,多地打造數(shù)字文旅空間、開發(fā)“旅游+智能體”新應用等,實現(xiàn)文化和科技雙向賦能。“文化創(chuàng)作+人工智能”,拓展產業(yè)融合場景。當前,以大模型為代表的AI技術,與影視、文博等領域深度融合,催生出AI短劇、博物館數(shù)字文創(chuàng)等新產品,不僅豐富了文化表達方式,也培育出更多文化消費新場景。“特色文化+數(shù)字技術”,助力鄉(xiāng)村全面振興。通過數(shù)字技術,將地標農產品、鄉(xiāng)村非遺技藝融入微短劇等內容創(chuàng)作,能夠進一步提升特色文化產品的創(chuàng)意能力和表現(xiàn)力,為鄉(xiāng)村全面振興注入新動能。

——北京大學文化產業(yè)研究院學術委員會主任  陳少峰

 

《人民日報》(2025年12月25日 第 07 版)

(責編:張若涵)

相關熱詞搜索:

上一篇:加快制造業(yè)中試平臺高水平建設
下一篇:最后一頁

人民周刊網版權及免責聲明:

1.凡本網注明“來源:人民周刊網”或“來源:人民周刊”的所有作品,版權均屬于人民周刊網(本網另有聲明的除外);未經本網授權,任何單位及個人不得轉載、摘編或以其它方式使用上述作品;已經與本網簽署相關授權使用協(xié)議的單位及個人,應注意作品中是否有相應的授權使用限制聲明,不得違反限制聲明,且在授權范圍內使用時應注明“來源:人民周刊網”或“來源:人民周刊”。違反前述聲明者,本網將追究其相關法律責任。

2.本網所有的圖片作品中,即使注明“來源:人民周刊網”及/或標有“人民周刊網(www.xeap.cn)”“人民周刊”水印,但并不代表本網對該等圖片作品享有許可他人使用的權利;已經與本網簽署相關授權使用協(xié)議的單位及個人,僅有權在授權范圍內使用圖片中明確注明“人民周刊網記者XXX攝”或“人民周刊記者XXX攝”的圖片作品,否則,一切不利后果自行承擔。

3.凡本網注明“來源:XXX(非人民周刊網或人民周刊)”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。

4.如因作品內容、版權和其它問題需要同本網聯(lián)系的,請在30日內進行。

※ 聯(lián)系電話:010-65363526 郵箱:rmzk001@163.com