多語(yǔ)言語(yǔ)料庫(kù)“萬(wàn)卷·絲路”發(fā)布,AI賦能共建“一帶一路”

2025-01-10 12:06:05

隨著共建“一帶一路”進(jìn)入高質(zhì)量發(fā)展新階段,科技創(chuàng)新與合作將在其中發(fā)揮更關(guān)鍵的作用。上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)通過(guò)研發(fā)先進(jìn)數(shù)據(jù)智能技術(shù),提供多語(yǔ)言語(yǔ)料庫(kù)等舉措,探索以人工智能賦能高質(zhì)量共建“一帶一路”。

1月9日,上海AI實(shí)驗(yàn)室聯(lián)合大模型語(yǔ)料數(shù)據(jù)聯(lián)盟成員發(fā)布了“萬(wàn)卷·絲路”多語(yǔ)言預(yù)訓(xùn)練語(yǔ)料庫(kù),為多語(yǔ)言大模型訓(xùn)練提供高質(zhì)量數(shù)據(jù)支撐。

“萬(wàn)卷·絲路”首期開(kāi)源了包含泰、俄、阿、韓、越等五個(gè)語(yǔ)種的語(yǔ)料,總規(guī)模超1.2TB(單語(yǔ)種均超過(guò)150GB),Token總數(shù)超過(guò)300B,涵蓋使用上述語(yǔ)種國(guó)家地區(qū)的生活、百科、文化、新聞等七大領(lǐng)域數(shù)據(jù)。

開(kāi)源鏈接:<a https:="" opendatalab.com"="" target="_blank" style="box-sizing: border-box; background: 0px 0px; transition: all 0.3s ease-in-out 0s; text-decoration-line: none; color: rgb(58, 90, 122); word-break: break-all;">https://opendatalab.com/applyMultilingualCorpus" target="_blank" style="word-break: break-all;">https://opendatalab.com/applyMultilingualCorpus

海量數(shù)據(jù)+細(xì)分領(lǐng)域,適應(yīng)多樣化研究需求

數(shù)據(jù)是人工智能重要的基礎(chǔ)設(shè)施,數(shù)據(jù)質(zhì)量是決定人工智能應(yīng)用能力的關(guān)鍵因素之一。針對(duì)多語(yǔ)言語(yǔ)料庫(kù)發(fā)展不平衡、高質(zhì)量語(yǔ)料短缺的研究現(xiàn)狀,上海AI實(shí)驗(yàn)室開(kāi)源了“萬(wàn)卷·絲路”多語(yǔ)言語(yǔ)料庫(kù)。作為綜合性文本語(yǔ)料庫(kù),“萬(wàn)卷·絲路”采集了多個(gè)國(guó)家地區(qū)的網(wǎng)絡(luò)公開(kāi)信息、文獻(xiàn)、專利等資料,數(shù)據(jù)總規(guī)模超1.2TB,Token總數(shù)超過(guò)300B(300 billion),處于國(guó)際領(lǐng)先水平。首期開(kāi)源的語(yǔ)料庫(kù)主要由泰語(yǔ)、俄語(yǔ)、阿拉伯語(yǔ)、韓語(yǔ)和越南語(yǔ)5個(gè)子集構(gòu)成,每個(gè)子集的數(shù)據(jù)規(guī)模均超過(guò)150GB。

基于“書生·浦語(yǔ)”智能標(biāo)簽分類體系,上海AI實(shí)驗(yàn)室研究團(tuán)隊(duì)將每個(gè)語(yǔ)料子集細(xì)分為7個(gè)大類和32個(gè)小類,覆蓋歷史、政治、文化、房產(chǎn)、購(gòu)物、天氣、餐飲、百科、專業(yè)知識(shí)等多類具有語(yǔ)言所在地特征內(nèi)容,便于研究者根據(jù)具體需求檢索數(shù)據(jù),并可適應(yīng)不同研究領(lǐng)域多樣化需求。

“萬(wàn)卷·絲路”語(yǔ)料庫(kù)子集分類(共計(jì)7大類、32小類,圖表中僅展示了部分標(biāo)簽)

專家標(biāo)注+數(shù)據(jù)智能,兼顧安全與質(zhì)量

“萬(wàn)卷·絲路”語(yǔ)料庫(kù)通過(guò)專家人工標(biāo)注,確立了包含七個(gè)維度的文本數(shù)據(jù)質(zhì)量評(píng)估體系,從完整性、有效性、可理解性、流暢性、相關(guān)性、相似性和安全性等方面保障數(shù)據(jù)的高標(biāo)準(zhǔn)與高質(zhì)量。

通過(guò)使用基于大語(yǔ)言模型的數(shù)據(jù)質(zhì)量評(píng)估開(kāi)源工具——Dingo(https://github.com/DataEval/dingo),研究團(tuán)隊(duì)從多維度對(duì)“萬(wàn)卷·絲路”的數(shù)據(jù)質(zhì)量進(jìn)行了全面評(píng)估。結(jié)果表明,其五個(gè)子集均獲得優(yōu)異的綜合評(píng)分,顯著優(yōu)于同類語(yǔ)言語(yǔ)料庫(kù)。

為充分體現(xiàn)多語(yǔ)言特色、全面提升數(shù)據(jù)質(zhì)量與適用性,發(fā)揮實(shí)驗(yàn)室領(lǐng)先的數(shù)據(jù)處理能力優(yōu)勢(shì),研究團(tuán)隊(duì)為“萬(wàn)卷·絲路”設(shè)計(jì)一套精準(zhǔn)化數(shù)據(jù)處理流程:

1.對(duì)網(wǎng)頁(yè)及非網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,統(tǒng)一數(shù)據(jù)格式,然后運(yùn)用局部敏感哈希算法高效去重,降低冗余;

2.在安全性處理上,建立域名黑名單篩除不良網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建多語(yǔ)言特色敏感詞表并結(jié)合語(yǔ)境評(píng)估,精準(zhǔn)過(guò)濾有害內(nèi)容,同時(shí)訓(xùn)練語(yǔ)言安全模型,進(jìn)行多維度不良內(nèi)容檢測(cè)和篩選;

3.利用主題分類器對(duì)數(shù)據(jù)進(jìn)行分類,優(yōu)化知識(shí)域分布;

4.通過(guò)PPL初篩快速剔除低質(zhì)量數(shù)據(jù),再借助基于BERT的質(zhì)量分類模型精準(zhǔn)篩選高質(zhì)量?jī)?nèi)容。

該流程有效融合多語(yǔ)言特點(diǎn)與行業(yè)通識(shí)技術(shù),為多語(yǔ)言模型訓(xùn)練提供了高質(zhì)量、安全可靠的數(shù)據(jù)基礎(chǔ)。

萬(wàn)卷·絲路數(shù)據(jù)處理流程

為評(píng)估“萬(wàn)卷·絲路”數(shù)據(jù)集質(zhì)量,研究團(tuán)隊(duì)使用“萬(wàn)卷·絲路”數(shù)據(jù)在開(kāi)源基座上進(jìn)行繼續(xù)預(yù)訓(xùn)練,實(shí)驗(yàn)結(jié)果顯示,使用“萬(wàn)卷·絲路”后,模型在多語(yǔ)言內(nèi)容理解及推理能力上的表現(xiàn)均獲得了提升。

中國(guó)大模型語(yǔ)料數(shù)據(jù)聯(lián)盟

由上海人工智能實(shí)驗(yàn)室聯(lián)合中央廣播電視總臺(tái)、人民網(wǎng)、國(guó)家氣象中心、中國(guó)科學(xué)技術(shù)信息研究所、上海報(bào)業(yè)集團(tuán)、上海文廣集團(tuán)等10家單位聯(lián)合發(fā)起。為應(yīng)對(duì)大模型發(fā)展對(duì)高質(zhì)量、大規(guī)模、安全可信語(yǔ)料數(shù)據(jù)資源的需求,保障大模型科研攻關(guān)及相關(guān)產(chǎn)業(yè)生態(tài)發(fā)展,大模型語(yǔ)料數(shù)據(jù)聯(lián)盟于2023年7月6日世界人工智能大會(huì)開(kāi)幕式上宣布成立,旨在通過(guò)鏈接模型訓(xùn)練、數(shù)據(jù)供給、學(xué)術(shù)研究、第三方服務(wù)等多方面機(jī)構(gòu),聯(lián)合打造多知識(shí)、多模態(tài)、標(biāo)準(zhǔn)化的高質(zhì)量語(yǔ)料數(shù)據(jù),探索形成基于貢獻(xiàn)、可持續(xù)運(yùn)行的激勵(lì)機(jī)制,打造國(guó)際化、開(kāi)放型的大模型語(yǔ)料數(shù)據(jù)生態(tài)圈。

來(lái)源:上海人工智能實(shí)驗(yàn)室

責(zé)任編輯:樊銳祥

掃一掃分享本頁(yè)