首頁>要論>銳評 銳評
加強人文社科數(shù)據(jù)資源建設(shè)與管理
近年來,全球范圍內(nèi)掀起一場新的數(shù)字革命,人類步入大數(shù)據(jù)時代。數(shù)據(jù)正在成為人類社會最重要的資源和資產(chǎn)。大數(shù)據(jù)給人類社會的各個方面都帶來了巨大變化,特別是在科研領(lǐng)域,大數(shù)據(jù)及其分析工具正在成為人類認識世界和改造世界的重要手段。然而,與自然科學領(lǐng)域相比,人文社科領(lǐng)域?qū)?shù)據(jù)資源的使用相對滯后。此前的社會科學研究雖然使用數(shù)據(jù),但多數(shù)都是小規(guī)模抽樣數(shù)據(jù),而非海量或全量數(shù)據(jù)。隨著社會數(shù)字化轉(zhuǎn)型不斷深入,數(shù)據(jù)資源在人文社科研究中的地位不斷提升,人文社科研究范式和研究問題發(fā)生變革。如何加強人文社科數(shù)據(jù)資源建設(shè)與規(guī)范管理,以適應科研數(shù)字化轉(zhuǎn)型這一趨勢,成為當下值得研究并解決的一大問題。
人文社科數(shù)據(jù)資源建設(shè)勃然興起
與文獻信息一樣,數(shù)據(jù)也是學術(shù)研究的基礎(chǔ)性資源。2009年以來,我國人文社科領(lǐng)域數(shù)據(jù)資源建設(shè)開始加速。人文社科類基金資助的數(shù)據(jù)資源建設(shè)類科研項目也開始直線增長。統(tǒng)計顯示,黨的十八大以來,與數(shù)據(jù)資源建設(shè)相關(guān)的國家社科基金重點和重大項目數(shù)量有了顯著增長。2017年,國家社科基金重大招標項目中,與數(shù)據(jù)資源建設(shè)有關(guān)的,數(shù)量更是可觀。這些項目主要集中在語言學、歷史學、文學、圖書情報學等學科,從地域看,主要集中于北京、上海、廣東、江蘇、浙江等地區(qū)。近兩年,在專題數(shù)據(jù)資源快速增長的同時,國內(nèi)實力領(lǐng)先的研究型高校也紛紛開始建設(shè)人文社科數(shù)據(jù)中心或數(shù)據(jù)平臺,以支撐人文社科研究范式的創(chuàng)新與轉(zhuǎn)型,如清華大學中國經(jīng)濟社會數(shù)據(jù)中心、北京大學開放研究數(shù)據(jù)平臺、復旦大學社會科學數(shù)據(jù)平臺等。
蓬勃發(fā)展的人文社科數(shù)據(jù)資源建設(shè),昭示著我國人文社科領(lǐng)域的基礎(chǔ)研究環(huán)境和組織架構(gòu)都在向數(shù)字化方向轉(zhuǎn)型,數(shù)據(jù)驅(qū)動的研究范式正在人文社科領(lǐng)域悄然興起。伴隨此范式的興起,人文社科領(lǐng)域的開放思維、計算思維、量化思維、協(xié)同思維也更加受到學者重視,由此推動了文學領(lǐng)域的大尺度宏觀研究、歷史領(lǐng)域的長程量化研究、藝術(shù)領(lǐng)域的視覺計算研究、文化領(lǐng)域的時空可視化研究等的出現(xiàn)。這些新興的研究課題都離不開強大的專題數(shù)據(jù)庫和計算平臺作保障。人文社科領(lǐng)域的可計算數(shù)據(jù)資源正伴隨數(shù)字人文和計算社會科學的發(fā)展而發(fā)揮著越來越大的學術(shù)價值。
諸多不足制約人文社科數(shù)據(jù)資源建設(shè)
數(shù)據(jù)庫建設(shè)過程不規(guī)范,系統(tǒng)平臺可用性不強。目前,很多人文社科數(shù)據(jù)資源建設(shè)都由重大科研項目驅(qū)動,有一定的項目實施周期。在現(xiàn)有學術(shù)評價體系下,傳統(tǒng)的印刷出版物,如專著和論文,是科研成果的首選形式,所以在項目實施過程中,學術(shù)研究是核心,這就導致項目團隊以項目結(jié)題為目標,不太重視數(shù)據(jù)庫建設(shè)的規(guī)范性和長期性。很多數(shù)據(jù)庫系統(tǒng)選型落后,數(shù)據(jù)服務(wù)平臺功能單一,檢索效率低下,不支持機器讀取和原始下載,系統(tǒng)平臺整體上可用性較差,難以滿足項目之外用戶的實用性需求。
數(shù)據(jù)資源質(zhì)量控制不嚴格,內(nèi)容可信性較弱。與自然科學類數(shù)據(jù)相比,人文社科類數(shù)據(jù)的生命周期較長,史料價值突出,后世使用概率高,所以質(zhì)量要求更高。然而,由于人文社科領(lǐng)域數(shù)據(jù)來源廣泛,既包括互聯(lián)網(wǎng)上的用戶行為數(shù)據(jù),又包括結(jié)構(gòu)化行業(yè)統(tǒng)計數(shù)據(jù),還有從傳統(tǒng)書報刊中抽取的非結(jié)構(gòu)化文本片段,數(shù)據(jù)模型的差異極大。在數(shù)據(jù)庫設(shè)計過程中,由于懂專業(yè)領(lǐng)域又懂數(shù)據(jù)庫設(shè)計的復合型人才稀少,很多專題數(shù)據(jù)庫的結(jié)構(gòu)設(shè)計相當隨意,結(jié)構(gòu)十分不規(guī)范,常常不合乎數(shù)據(jù)庫設(shè)計范式要求。在數(shù)據(jù)庫內(nèi)容采集過程中,往往也缺少質(zhì)量控制標準和規(guī)范,導致數(shù)據(jù)內(nèi)容的可信性與可靠性得不到保障。
數(shù)據(jù)發(fā)布標準不統(tǒng)一,流通共享成本高。數(shù)據(jù)的自由流通和共建共享是發(fā)揮數(shù)據(jù)資源價值的關(guān)鍵。目前,人文社科數(shù)據(jù)資源主要由各領(lǐng)域的學術(shù)機構(gòu)自主分散建設(shè),缺乏像圖書館聯(lián)盟一樣的第三方機構(gòu)進行技術(shù)協(xié)調(diào)。建成以后的數(shù)據(jù)庫在互聯(lián)網(wǎng)上也是自由發(fā)布,標準不一,普遍缺乏便于機器讀取和交互操作的數(shù)據(jù)接口。用戶無法查看其詳細的數(shù)據(jù)結(jié)構(gòu),更無法通過關(guān)聯(lián)數(shù)據(jù)的方式相互共享鏈接,由此導致數(shù)據(jù)難以跨域流通和自動匯聚,語義數(shù)據(jù)網(wǎng)絡(luò)也無法通過自動勾連的方式構(gòu)建和使用。
關(guān)鍵數(shù)據(jù)資源缺乏界定,數(shù)據(jù)主權(quán)難有保障。隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和數(shù)字中國建設(shè)的推進,人文社科領(lǐng)域的數(shù)據(jù)資源將逐漸從調(diào)查獲取和人為發(fā)布向感知獲取與自動發(fā)布轉(zhuǎn)換,例如社交媒體數(shù)據(jù)、金融系統(tǒng)數(shù)據(jù)、用戶隱私數(shù)據(jù)、商品流通數(shù)據(jù)等都可以借助網(wǎng)絡(luò)媒體系統(tǒng)、電子政務(wù)系統(tǒng)、電子商務(wù)系統(tǒng),以及日益強大的智慧城市基礎(chǔ)運營設(shè)施自動獲取。這些數(shù)據(jù)資源中有些屬于“關(guān)鍵數(shù)據(jù)資源”,不僅涉及個人隱私,對于國家數(shù)據(jù)主權(quán)和國家總體安全也有潛在影響,不能隨意流通和跨境傳輸。目前,人文社科領(lǐng)域還沒有針對“關(guān)鍵數(shù)據(jù)資源”的清晰定義,但其潛在安全問題正隨著數(shù)據(jù)資源的快速增長而浮現(xiàn),有必要未雨綢繆、厘清概念。
提升人文社科數(shù)據(jù)資源管理規(guī)范性的對策建議
發(fā)布數(shù)據(jù)資源建設(shè)規(guī)范,指導數(shù)據(jù)資源建設(shè)過程。數(shù)據(jù)資源建設(shè)類似于軟件開發(fā),過程控制是關(guān)鍵。有必要研究并發(fā)布人文社科數(shù)據(jù)資源建設(shè)規(guī)范,包括數(shù)據(jù)資源分類與格式規(guī)范、數(shù)據(jù)資源建設(shè)機構(gòu)資質(zhì)要求、數(shù)據(jù)庫系統(tǒng)選型要求、內(nèi)容維護規(guī)范和網(wǎng)絡(luò)發(fā)布標準等內(nèi)容,對人文社科各領(lǐng)域?qū)n}數(shù)據(jù)庫和數(shù)據(jù)平臺建設(shè)進行全流程指導。
建立數(shù)據(jù)資源評估標準,保障數(shù)據(jù)內(nèi)容質(zhì)量。對不同領(lǐng)域和不同類型的數(shù)據(jù)資源制定詳細的評估標準,核心是質(zhì)量評估和價值評估。對不同形式的數(shù)據(jù)資源進行專家與機器相結(jié)合的、傳統(tǒng)科學計量與新興網(wǎng)絡(luò)計量相結(jié)合的評估。將評估結(jié)果作為各類數(shù)據(jù)資源建設(shè)項目資助、實施和驗收的必要條件,保障人文社科數(shù)據(jù)資源高質(zhì)量建設(shè)與運營。
探索數(shù)據(jù)資源長效維護機制,實現(xiàn)數(shù)據(jù)服務(wù)可持續(xù)發(fā)展。鑒于數(shù)據(jù)資源運營的高成本特征,有必要探索建立學術(shù)機構(gòu)與出版機構(gòu)、圖書館機構(gòu)、數(shù)據(jù)服務(wù)公司聯(lián)合運營與維護的長效合作機制,通過政府資助、商業(yè)銷售、托管服務(wù)等多種手段實現(xiàn)人文社科數(shù)據(jù)資源的可持續(xù)發(fā)展與運營,避免數(shù)據(jù)資源因為有建設(shè)、無服務(wù)而“曇花一現(xiàn)”。
建立數(shù)據(jù)資源管理聯(lián)盟,促進數(shù)據(jù)資源開放共享。參照中國高等教育文獻保障系統(tǒng)(CALIS),建立數(shù)據(jù)資源管理聯(lián)盟。以“智慧數(shù)據(jù)”的理念,開展數(shù)據(jù)模型技術(shù)研究、數(shù)據(jù)模型技術(shù)應用宣傳和培訓。鼓勵數(shù)據(jù)資源建設(shè)主體利用開放關(guān)聯(lián)數(shù)據(jù)、知識圖譜、簡單知識組織系統(tǒng)等新興語義技術(shù)和標準進行數(shù)據(jù)資源的語義化和關(guān)聯(lián)化發(fā)布,整體上提升人文社科數(shù)據(jù)資源的智慧層次和開放共享水平。
設(shè)立數(shù)據(jù)資源建設(shè)專項基金,加大數(shù)據(jù)資源資助力度。設(shè)立國家級、省部級的人文社科數(shù)據(jù)資源建設(shè)專項基金,通過穩(wěn)定的項目資金支持,提高人文社科數(shù)據(jù)資源供給水平。在政府相關(guān)部門設(shè)立專門的全國高校數(shù)據(jù)資源管理辦公室,統(tǒng)籌管理人文社科數(shù)據(jù)資源建設(shè)。
建立數(shù)據(jù)匯交制度,構(gòu)建全國統(tǒng)一的人文社科數(shù)據(jù)資源門戶。將公開發(fā)布的數(shù)據(jù)庫視為一種正式出版物,建立數(shù)據(jù)匯交制度和全國統(tǒng)一的人文社科數(shù)據(jù)資源門戶,定期采集各數(shù)據(jù)庫目錄數(shù)據(jù)或原始數(shù)據(jù),并進行評估和長期保存。開展數(shù)據(jù)資源和數(shù)據(jù)分析工具的應用培訓和宣傳,推動人文社科領(lǐng)域數(shù)據(jù)驅(qū)動的研究范式發(fā)展。
建立“關(guān)鍵數(shù)據(jù)資源”管控機制,提高數(shù)據(jù)主權(quán)意識。參照出版領(lǐng)域的重大選題審批制度,對有重大社會影響的“關(guān)鍵數(shù)據(jù)資源”,如哲學、政治、經(jīng)濟、歷史、法律等領(lǐng)域的特定主題數(shù)據(jù)建立分類、公示、審批與審讀制度。對“關(guān)鍵數(shù)據(jù)資源”的流通實施白名單管理,嚴格控制“關(guān)鍵數(shù)據(jù)資源”的跨境流通,保障我國的數(shù)據(jù)主權(quán)安全。
編輯:李敏杰
關(guān)鍵詞:數(shù)據(jù) 資源 社科 人文 建設(shè)