突破技術(shù)難題,尚躍智能布局人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)!
“尚躍智能”科研團隊計劃推出“數(shù)據(jù)可視化”“數(shù)據(jù)可流轉(zhuǎn)化”的開放型數(shù)據(jù)流轉(zhuǎn)平臺。隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,數(shù)據(jù)成為了當(dāng)今社會最有價值的資源之一。但同時在數(shù)據(jù)的利用過程中,如何兼顧數(shù)據(jù)安全與隱私保護(hù)仍然是一個待解決的問題。基于數(shù)據(jù)隱私的產(chǎn)品應(yīng)運而生,通過分布式機器學(xué)習(xí)技術(shù),實現(xiàn)了在保護(hù)用戶隱私的同時挖掘數(shù)據(jù)價值。
目前,該公司團隊已準(zhǔn)備推出開放服務(wù)平臺1.0、AIGC智能數(shù)據(jù)生成平臺,并整合產(chǎn)學(xué)研用各方資源搭建人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài),探索通用人工智能數(shù)據(jù)流轉(zhuǎn)產(chǎn)業(yè)化路徑。
以下為尚立卓的演講實錄:
大家上午好!我是數(shù)據(jù)流轉(zhuǎn)平臺負(fù)責(zé)人尚立卓。
首先解釋一下,我個人是大數(shù)據(jù)和計算機應(yīng)用專業(yè)的理科出身,從事的是數(shù)據(jù)標(biāo)注業(yè)務(wù)的研究。往年一直在人工智能領(lǐng)域深耕和挖掘,在大模型到來之后,我和我的團隊提出了數(shù)據(jù)可視化,數(shù)據(jù)可交易化的想法,也參與過一些大模型項目,今天我作為一個人工智能領(lǐng)域的參與者,跟大家分享一下開放型數(shù)據(jù)流轉(zhuǎn)平臺相關(guān)的情況。
一、大模型目前正在面臨非常大的制約
自從各大 AIGC 橫空出世之后,大型語言模型(LLM)相關(guān)的研究與應(yīng)用也層出不窮,盡管這些技術(shù)能夠為我們提供更智能、精準(zhǔn)和便利的信息和服務(wù),但也帶來了一系列的難題和風(fēng)險。
大模型面對的挑戰(zhàn)主要可以分為三大類:“設(shè)計”、“行為”和“科學(xué)”,其中,大模型的“設(shè)計”與部署前的決策有關(guān),在部署過程中會出現(xiàn)“行為”的挑戰(zhàn),而“科學(xué)”的挑戰(zhàn)則阻礙了研究大模型的學(xué)術(shù)進(jìn)步。
挑戰(zhàn) 1:難以理解的數(shù)據(jù)集
由于各團隊在擴展預(yù)訓(xùn)練的數(shù)據(jù)量,隨著現(xiàn)如今預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模的擴大,個人難以完整閱讀和檢查整個文檔的質(zhì)量。
如圖所示,近年來預(yù)訓(xùn)練數(shù)據(jù)集變得不可控,因為它們的大小和多樣性迅速增長,而并非所有的數(shù)據(jù)集都是公開可用的。
因此,當(dāng)GPT發(fā)布之后,我們就認(rèn)為數(shù)據(jù)和知識必將是一個未來的方向,我們現(xiàn)在也看到大多數(shù)大模型已經(jīng)處于“學(xué)識淵博”的狀態(tài)不知道該去學(xué)習(xí)什么了。
挑戰(zhàn) 2:對分詞器的依賴
大語言模型的訓(xùn)練和運行通常依賴于特定的分詞器,這可能對其性能和適應(yīng)性產(chǎn)生影響。
分詞(Tokenization)是將一系列單詞或字符拆分為較小單元(即 token)的過程,以便輸入模型。其中一種常見的分詞方法是子詞分詞(subword tokenization),將單詞分解為子詞或 WordPieces。這樣做的目的是有效處理模型詞匯表中的罕見和未登錄詞匯,同時限制每個序列的 token 數(shù)量,以減少計算復(fù)雜性。子詞分詞器通常通過無監(jiān)督訓(xùn)練來構(gòu)建詞匯表,并可選地使用合并規(guī)則以提高對訓(xùn)練數(shù)據(jù)的編碼效率。
然而,分詞的必要性也存在一些缺點:
1;不同語言傳達(dá)相同信息所需的 token 數(shù)量差異很大,這可能導(dǎo)致基于 token 數(shù)量計費的 API 語言模型在許多受支持的語言中過度收費且結(jié)果不佳,特別是在這些 API 在本身就較不可負(fù)擔(dān)的地區(qū)使用。
2;分詞器和預(yù)訓(xùn)練語料庫之間的不一致性可能導(dǎo)致錯誤 token,進(jìn)而導(dǎo)致模型行為異常。
3;不同語言的分詞方案也面臨一些挑戰(zhàn),特別是對于非空格分隔的語言如中文或日文?,F(xiàn)有的子詞分詞方法主要是貪婪算法,試圖以盡可能高效的方式編碼語言,從而導(dǎo)致對較多語言共享的子詞的偏好,不利于低資源語言的 token。
4;此外,分詞器會帶來計算負(fù)擔(dān)、語言依賴性、處理新詞、固定詞匯表大小、信息丟失和人類可解釋性等多個挑戰(zhàn)。
挑戰(zhàn) 3:高昂的預(yù)訓(xùn)練成本
大型語言模型的訓(xùn)練需要大量的計算資源和時間,這可能會對其廣泛應(yīng)用產(chǎn)生限制。
訓(xùn)練 LLM 的主要消耗是在預(yù)訓(xùn)練過程中,需要數(shù)十萬個計算小時、數(shù)百萬元的成本,以及相當(dāng)于數(shù)個普通美國家庭年度能源消耗量的能量。而近期提出的縮放定律認(rèn)為,模型性能隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練中使用的計算量呈冪律關(guān)系,這種不可持續(xù)的情況被稱為“紅色 AI”。
為了解決這些問題,有兩條研究路線:
1:計算最優(yōu)訓(xùn)練方法:通過學(xué)習(xí)經(jīng)驗性的“縮放定律”,以實現(xiàn)在給定計算預(yù)算下最大化訓(xùn)練效率;
2:預(yù)訓(xùn)練目標(biāo):如圖所示,利用各種目標(biāo)進(jìn)行自監(jiān)督訓(xùn)練,其中不同的預(yù)訓(xùn)練目標(biāo)會影響模型的數(shù)據(jù)效率和所需迭代次數(shù)。
此外,還有其他研究方向,如并行策略、層疊模型、遞增批量大小和最新權(quán)重平均等,這些方法在提高模型性能和減少計算成本方面具有一定效果。
1:預(yù)訓(xùn)練目標(biāo)的選擇包括語言建模、掩碼語言建模、前綴語言建模、連續(xù)區(qū)間損壞和混合去噪等。
2:并行策略是解決訓(xùn)練和推理中巨大 LLM 規(guī)模的常見方法,其中模型并行(model parallelism)和流程并行(pipeline parallelism)是兩種常見的策略。
所以,如何減少大模型的訓(xùn)練成本非常關(guān)鍵,直接影響到了大模型未來的發(fā)展空間和生存狀態(tài),我們的數(shù)據(jù)流轉(zhuǎn)中心可以解決絕大多數(shù)大模型訓(xùn)練所需的數(shù)據(jù)和知識數(shù)據(jù)和知識。
二、人工智能過不去的“坎”
我和我團隊起初在有這個想法的時候,就一直在做市場調(diào)研并且在考慮應(yīng)該如何設(shè)計,將不同的數(shù)據(jù)集導(dǎo)入在一個平臺里面供市場上有需求的的大模型公司進(jìn)行訓(xùn)練學(xué)習(xí)。我在晚上休息的時候看到周鴻祎老師的視頻啟發(fā)到了我。
他說道:大模型之所以能有今天的能力最關(guān)鍵的還是要把人類產(chǎn)生的知識要訓(xùn)練進(jìn)去,要教給他用但是在2021年訓(xùn)練GPT4的時候就已經(jīng)耗盡了他們能找到的所有關(guān)于人類的文本知識。
也正是因為周老師的這句話堅定了我們要開發(fā)制造數(shù)據(jù)流轉(zhuǎn)平臺的信心。我們提出的數(shù)據(jù)流轉(zhuǎn)中心和數(shù)據(jù)可視化就是要把目前人類所認(rèn)知到的和未被市場商業(yè)化的數(shù)據(jù)給結(jié)合起來形成一個數(shù)據(jù)倉庫集中起來,進(jìn)而滿足各種各樣大模型的數(shù)據(jù)和知識需求。
三、打造開放服務(wù)平臺 1.0,做到數(shù)據(jù)流轉(zhuǎn)合規(guī)化
數(shù)據(jù)合規(guī)一詞,已經(jīng)越來越被大眾所熟知并認(rèn)可,其中涵蓋的合規(guī)內(nèi)容很多,從全生命周期的角度,就包括收集合規(guī)、存儲合規(guī)、使用合規(guī)、流轉(zhuǎn)合規(guī)等等。根據(jù)我們的觀察,流轉(zhuǎn)階段是目前普遍最不受重視的領(lǐng)域,例如,隨便將個人信息/數(shù)據(jù)發(fā)在微信群、沒有對接收方的數(shù)據(jù)處理行為進(jìn)行監(jiān)管等,更別提簽訂合同明確各方的權(quán)利義務(wù)了。但事實上,數(shù)據(jù)流轉(zhuǎn),可能是除了收集之外,離我們生活最近的一環(huán)。只要稍加留意,就會發(fā)現(xiàn),數(shù)據(jù)流轉(zhuǎn)的場景到處都是。例如,某寶上購物,買家信息先是給到平臺,平臺再給到商家;再如,代發(fā)工資,公司會將財務(wù)數(shù)據(jù)給到銀行,等等。更何況,生產(chǎn)要素要最大化的發(fā)揮出價值,必須要充分的流動起來,從這個角度看,數(shù)據(jù)流動的合規(guī)化可能是數(shù)據(jù)合規(guī)鏈條中最重要的一環(huán)。那么數(shù)據(jù)流動如何做到合規(guī)呢?
1:明確合規(guī)紅線。我們會基于風(fēng)險維度的審查思路,梳理法律法規(guī)的相關(guān)要求以及結(jié)合企業(yè)內(nèi)部的合規(guī)管理要求,設(shè)定合規(guī)審查紅線,并將其作為合規(guī)審查的優(yōu)先項;當(dāng)出現(xiàn)觸發(fā)合規(guī)審查紅線的情形,則應(yīng)拒絕接入相關(guān)數(shù)據(jù),實現(xiàn)明確合規(guī)底線,提高審查效率的效果。合規(guī)審查紅線可以根據(jù)數(shù)據(jù)源(即出售方)類型、數(shù)據(jù)類型、數(shù)據(jù)收集手段等方面予以全面考量。
2:數(shù)據(jù)來源的分類分級。在推進(jìn)數(shù)據(jù)合規(guī)審查工作過程中,建立數(shù)據(jù)來源分類分級審查規(guī)則,風(fēng)險評價指標(biāo)和可結(jié)合采購業(yè)務(wù)場景、數(shù)據(jù)源的情況等予以綜合確定。例如數(shù)據(jù)源類型、數(shù)據(jù)主體類型、數(shù)據(jù)類型、數(shù)據(jù)來源業(yè)務(wù)場景、數(shù)據(jù)應(yīng)用業(yè)務(wù)場景等因素都會對數(shù)據(jù)來源合規(guī)審查的風(fēng)險等級判斷產(chǎn)生影響;其中,對于高風(fēng)險數(shù)據(jù)源應(yīng)當(dāng)予以審慎審查。
3: 實現(xiàn)穿透審查。數(shù)據(jù)來源的合規(guī)審查應(yīng)當(dāng)堅持穿透性原則,對于多主體間流轉(zhuǎn)、數(shù)據(jù)處理活動復(fù)雜的數(shù)據(jù)源審查應(yīng)當(dāng)穿透至底層數(shù)據(jù),重點關(guān)注收集和提供過程中獲得授權(quán)同意等的完整性、連續(xù)性。例如業(yè)務(wù)交互場景下收集和產(chǎn)生的數(shù)據(jù)是否可以用于其他目的,就需通過審查協(xié)議文本等確認(rèn)數(shù)據(jù)源對數(shù)據(jù)所享有權(quán)益的具體范圍。
四、服務(wù)于大模型,打造簡單,優(yōu)質(zhì),低成本的道路
我們?yōu)榇竽P烷_發(fā)高價值的開放平臺,把無規(guī)律的數(shù)據(jù)提煉為高價值的數(shù)據(jù)提供給機器學(xué)習(xí),提供“動力來源”,“提供糧食”像石油一樣源源不斷的給大模型輸送。傳播開放數(shù)據(jù)產(chǎn)生的價值,為大模型的訓(xùn)練提供有價值的數(shù)據(jù)為跨領(lǐng)域跨行業(yè)應(yīng)用提升開放數(shù)據(jù)的利用建議,幫助用戶突破行業(yè)間的認(rèn)知壁壘,促進(jìn)數(shù)據(jù)應(yīng)用
我們不斷追趕,不斷深耕探索,從數(shù)據(jù)到算力和算法,我們一直在進(jìn)步,公司將會一直在人工智能領(lǐng)域里鉆研,同時也希望大家和我們一起共同推動人工智能的發(fā)展
謝謝大家!
關(guān)鍵詞:
您可能也感興趣:
為您推薦
中國紅APP正式上線發(fā)布
(鄉(xiāng)村行·看振興)山西柳林依托“數(shù)商興農(nóng)”打造鄉(xiāng)村e鎮(zhèn) 電商交易9個月達(dá)3.5億元
更多
- 伊利:以龍頭擔(dān)當(dāng)助力內(nèi)蒙古經(jīng)濟高質(zhì)量發(fā)展
- 水滴公司:以用戶為中心激發(fā)科技創(chuàng)新動能
- 水滴公司:以用戶為中心激發(fā)科技創(chuàng)新動能
- 景順長城四季度策略報告:經(jīng)濟持續(xù)修復(fù),指數(shù)大幅下行空間有限
- 陜國投信托前三季營收凈利雙增 計提資產(chǎn)減值準(zhǔn)備2.71億元
- 全市場規(guī)模最大的中證2000指數(shù)ETF今日重磅上市
- 安寧股份49.8億定增再收問詢函 募投項目實施可行性引交易所關(guān)注
- 1至8月份全國餐飲收入同比增長19.4% 餐飲業(yè)聚焦新需求提升適配性
排行
- 以初心鑄匠心,揚子江藥業(yè)集團榮獲人民網(wǎng)“人民匠心獎”
- 董明珠:格力電器創(chuàng)新力榮登COP28,演講點亮中國制造業(yè)發(fā)展之光
- CBE中國美容博覽會開幕在即,諾斯貝爾攜新品彰顯“戰(zhàn)痘”實力
- 教育賽道未來可期,科大訊飛智慧教育助力孩子個性化發(fā)展
- 陸金所會員2.0襲來:多元化升級用戶權(quán)益,為美好生活賦能
- 明星主播唐笑應(yīng)邀參加首屆中國國際消費品博覽會簽約儀式 助...
- 黃河旋風(fēng):超硬材料單晶產(chǎn)品支撐行業(yè)下游產(chǎn)業(yè)發(fā)展
- 重塑IP新場景!鄭州絨言絨語走進(jìn)鄂爾多斯金鼎亨深度探索
- 首屆全國輔材行業(yè)峰會暨行業(yè)百強頒獎盛典5月18日將在鄭州舉辦
- 荷蘭佳貝艾特——進(jìn)口羊奶粉市場的風(fēng)向標(biāo),營養(yǎng)新選擇
最近更新
- 新啟程 展未來 解鎖留學(xué)服務(wù)新助力——Top Academic學(xué)術(shù)未...
- 突破技術(shù)難題,尚躍智能布局人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)!
- 首屆全國輔材行業(yè)峰會暨行業(yè)百強頒獎盛典5月18日將在鄭州舉辦
- 吉小果品牌水果店干貨分享:如何在縣城開一家水果店
- 一個沒學(xué)歷、沒背景、沒資源的普通人, 拿什么爭百萬創(chuàng)千萬...
- 光明園迪品牌榮譽健康官郎朗在中法晚宴演奏《茉莉花》
- 成都一科創(chuàng)園商服項目整體處置
- 瑞浦蘭鈞“動儲”雙飛躍,技術(shù)革新?lián)Q來儲能市場,這波不虧
- “數(shù)智化”成為大健康產(chǎn)業(yè)新趨勢,秀域發(fā)揮引領(lǐng)作用,大有可為
- ?北汽藍(lán)谷推出環(huán)保智能汽車,為消費者提供更多出行選擇
- 智者無畏!Vidda發(fā)布X Ultra系列AI電視和C2系列三色激光投影
- 重慶伊美爾,悅美無疆,實現(xiàn)從產(chǎn)品質(zhì)量到服務(wù)的全方位突破
- 特美刻「2024上海浪琴環(huán)球馬術(shù)冠軍賽」活動圓滿落幕
- 寵胖胖“超級寵愛·加餐計劃” | 公益路上步履不停
- 君品談|林毅夫:君子胸懷天下,放眼世界
- 高端新能源出行首選!星紀(jì)元ET給足出行安全感
- 銳舞元氣驅(qū)蚊手環(huán) 3Air,再次革新行業(yè)發(fā)展
- 福祥年 | 實力盡顯,品牌之光!
- 天津大學(xué)愛爾眼科正式引進(jìn)阿托品滴眼液,助力兒童青少年近視防控
- 金融數(shù)據(jù)技術(shù)典范!鏡舟科技榮獲金科創(chuàng)新社解決方案獎
- 人保全車保是什么?包括哪些內(nèi)容?
- "蔡司,‘質(zhì)'敬明天"線上峰會醫(yī)療行業(yè)主題日探尋企業(yè)破局之道
- 至高5萬元補貼來襲,歐拉閃電貓約你相“惠”五月
- 會議獎勵旅游甄選目的地——泰國
- 618重磅商家利好!史上最強高額補貼!阿里媽媽為不同商家劃出...
- ?北汽新能源的創(chuàng)新驅(qū)動和初心堅守,綠色、便捷、智慧的出行生活
- 萬信至格酒店麗水紫金花園店開業(yè) 詮釋精致居停新體驗
- 國內(nèi)首家兒童腫瘤放射治療科簽約啟動
- 百利好環(huán)球:解析網(wǎng)絡(luò)詐騙新動向
- ?北汽極狐創(chuàng)造品質(zhì)出行新標(biāo)桿,極狐阿爾法T5引領(lǐng)電動車市場
今日要聞
- 突破技術(shù)難題,尚躍智能布局人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)!
- 新啟程 展未來 解鎖留學(xué)服務(wù)新助力——Top Academic學(xué)術(shù)未來邀你頂峰相見
- 首屆全國輔材行業(yè)峰會暨行業(yè)百強頒獎盛典5月18日將在鄭州舉辦
- 吉小果品牌水果店干貨分享:如何在縣城開一家水果店
- “易”補到位!易至汽車響應(yīng)“以舊換新”政策,至高補貼30000元
- 成都一科創(chuàng)園商服項目整體處置
- 瑞浦蘭鈞“動儲”雙飛躍,技術(shù)革新?lián)Q來儲能市場,這波不虧
- “數(shù)智化”成為大健康產(chǎn)業(yè)新趨勢,秀域發(fā)揮引領(lǐng)作用,大有可為
- ?北汽藍(lán)谷推出環(huán)保智能汽車,為消費者提供更多出行選擇
- 智者無畏!Vidda發(fā)布X Ultra系列AI電視和C2系列三色激光投影