首頁>要論>委員說話
以數(shù)字中文建設 有效釋放語言文字數(shù)據(jù)要素價值
數(shù)字中文建設不是簡單地利用數(shù)字技術將所有或部分中文材料一股腦地進行數(shù)字化處理,主要是進行新技術條件下有針對性的信息建構與處理
近日,教育部、國家語委、中央網(wǎng)信辦印發(fā)《關于加強數(shù)字中文建設 推進語言文字信息化發(fā)展的意見》,提出到2027年,國家數(shù)字中文建設行動取得重要成效,語言文字數(shù)據(jù)要素價值有效釋放。到2035年,中文在全球數(shù)字空間、網(wǎng)絡空間以及生成式人工智能等關鍵應用場景中的使用占比顯著提高;語言文字信息化有力支撐國家語言能力建設、語言文字事業(yè)和經(jīng)濟社會高質(zhì)量發(fā)展,整體水平位居世界前列。
隨著電子計算機和互聯(lián)網(wǎng)技術的發(fā)展與普及,數(shù)字技術在越來越多的領域得到應用,成為推動經(jīng)濟、教育、科技和文化等事業(yè)不斷創(chuàng)新發(fā)展的重要力量。語言文字作為人類智能開發(fā)、信息交流、思想表達、文明互鑒和對外交往的基礎性工具,其信息化建設直接關涉國家主權、安全、發(fā)展大局及社會大眾的學習、工作和生活。以數(shù)字技術賦能的數(shù)字中文建設有助于全面提升語言文字信息化水平。因此,加強數(shù)字中文建設就成為當前乃至今后一段時間內(nèi)的重要任務。
數(shù)字中文建設需要語言文字基礎研究與應用研究提供支撐。數(shù)字中文建設不是簡單地利用數(shù)字技術將所有或部分中文材料一股腦地進行數(shù)字化處理,主要是進行新技術條件下有針對性的信息建構與處理。哪些中文材料可作為數(shù)據(jù)、如何挖掘數(shù)據(jù)、如何進行數(shù)據(jù)標注以及建設怎樣的數(shù)據(jù)平臺、實現(xiàn)什么樣的數(shù)據(jù)共享共用等,需要通盤考慮、充分評估、科學設計、精心打造,而且為了更好地適應語言文字信息化建設,服務國家發(fā)展戰(zhàn)略,數(shù)字中文建設的規(guī)范性和標準性需要有充分的保障,這就不可避免地需要深化語言文字的基礎研究和應用研究。通過系統(tǒng)深入的研究,一方面為相關規(guī)范標準的制定提供理論與實踐方面的充分理據(jù),另一方面為數(shù)據(jù)挖掘、分析和處理奠定學理基礎,提供語言學方面的專業(yè)指導。
數(shù)字中文建設需要高等院校提供技術和人才支持。數(shù)字中文建設的本質(zhì)是對中文數(shù)據(jù)進行數(shù)字技術賦能。這項工作對人才提出了新的更高要求,一方面要受過良好的語言學訓練,具備較高的語言文字學素養(yǎng),可以進行語言數(shù)據(jù)的切分、標注、分析等,另一方面,要有計算機、人工智能、大數(shù)據(jù)等方面的專業(yè)知識與技能,會編寫代碼,能進行數(shù)據(jù)處理等。當下,這樣的復合型人才非常緊缺。高等院校要針對現(xiàn)實需要,創(chuàng)新人才培養(yǎng)模式,加強語言學科與計算機、人工智能及大數(shù)據(jù)等學科的交叉融合,積極探索復合型人才培養(yǎng)路徑,創(chuàng)造條件,使高層次復合型人才迅速成長,以滿足數(shù)字中文建設的迫切需要。
數(shù)字中文建設要加強行業(yè)和部門合作,協(xié)同推進。當前,語言文字信息技術的應用領域日益擴大,跨學科、跨行業(yè)的使用已成常態(tài),而且還在不斷向縱深發(fā)展。這就使得數(shù)字中文建設不能單單局限于高等院校和科研機構。高等院校和科研機構要引領、帶動企事業(yè)單位和社會組織等參與進來,讓更多的社會力量發(fā)揮各自優(yōu)勢和特點,要針對自然語言處理、生成式人工智能、語言的機器翻譯及優(yōu)秀文化成果的創(chuàng)新性轉(zhuǎn)化等課題的現(xiàn)實需求,科學合理地布局實施數(shù)字中文建設。在條件成熟的情況下,共建“數(shù)字中文”聯(lián)盟,形成語言文字信息技術融合創(chuàng)新、共建共享的機制,從而提升語言文字信息技術的理論研究水平、產(chǎn)業(yè)應用能力和社會服務效能。
加強數(shù)字中文建設,旨在提升我國語言文字信息化水平,推進語言文字與信息技術的深度融合,充分發(fā)掘和釋放語言文字的數(shù)據(jù)要素價值。當前,生成式人工智能和自然語言處理技術勃興,且應用領域日益擴大,使用需求不斷攀升,大語言模型在其中扮演著極為重要的角色,而支撐大語言模型運作的是豐富的文本數(shù)據(jù)。因此,數(shù)據(jù)挖掘、整合及數(shù)據(jù)平臺的建設成為重中之重。國家建設語言文字大數(shù)據(jù)中心,并通過推動基礎性語言資源建設,帶動大規(guī)模中文語料庫及民族語言文字語料庫、手語盲文語料庫、行業(yè)領域語料庫、語言監(jiān)測動態(tài)語料庫等的建設,即是著眼于數(shù)字技術賦能語言文字開辟的廣闊前景而作的重要部署,相信這些工作將會為以中國式現(xiàn)代化全面推進強國建設和民族復興偉業(yè)作出新的更大貢獻。
(作者王燦龍系全國政協(xié)委員、中國社會科學院語言研究所研究員)
編輯:董雨吉