當(dāng)前位置:首頁(yè) > 熱點(diǎn)資訊 > 內(nèi)容
時(shí)間:2024-11-28 18:22 來(lái)源:證券之星 閱讀量:5327
在AI大模型的激烈競(jìng)爭(zhēng)中,算力資源和算法優(yōu)化一直是各大企業(yè)追逐的焦點(diǎn)。然而,隨著技術(shù)逐漸成熟,行業(yè)的焦點(diǎn)正在發(fā)生微妙的轉(zhuǎn)變——從單純的模型訓(xùn)練和算力投入,轉(zhuǎn)向了如何處理和利用海量、高質(zhì)量的數(shù)據(jù)。
事實(shí)上,數(shù)據(jù)已經(jīng)成為了大模型能否成功落地的決定性因素。11月27日,獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)明確指出:“算法和算力并不是大模型的核心競(jìng)爭(zhēng)力,真正的壁壘是數(shù)據(jù)。”
傅盛提到,大多數(shù)大模型公司在算法上并沒(méi)有顯著的差異化。盡管芯片和算法依然關(guān)鍵,但它們的差距并不像數(shù)據(jù)那么深刻。“如果數(shù)據(jù)沒(méi)有足夠的質(zhì)量和數(shù)量,任何算法和算力的優(yōu)勢(shì)都無(wú)法發(fā)揮作用。”
大模型的訓(xùn)練依賴(lài)大量標(biāo)注過(guò)的數(shù)據(jù),這一過(guò)程直接決定了模型的實(shí)際效果。傅盛比喻說(shuō),模型就像一個(gè)正在成長(zhǎng)的孩子,只有得到正確的信息,他才能正確學(xué)習(xí)。
數(shù)據(jù)面臨質(zhì)量和數(shù)量雙重挑戰(zhàn)
然而,在數(shù)據(jù)的獲取和利用方面,大模型的發(fā)展正面臨諸多挑戰(zhàn)。
首先是能用于大模型訓(xùn)練的真實(shí)數(shù)據(jù)正在枯竭。DeepMind在一篇論文中深入探討了Scaling問(wèn)題,并得出結(jié)論:為充分訓(xùn)練一個(gè)模型,其token數(shù)量需要達(dá)到該模型參數(shù)量的20倍。
目前,已知閉源模型中訓(xùn)練token數(shù)最多的是GPT4,約為20T;開(kāi)源模型中訓(xùn)練token數(shù)最多的是LLaMA3,約為15T。照此計(jì)算,如果一個(gè)5000億參數(shù)的Dense模型要達(dá)到相同的訓(xùn)練效果,則需要訓(xùn)練約token數(shù)為107T,而這已遠(yuǎn)超當(dāng)前業(yè)界擁有的數(shù)據(jù)量。
因此,使用合成數(shù)據(jù)已經(jīng)成為大模型的一個(gè)共識(shí)。有預(yù)測(cè)數(shù)據(jù)顯示,到2026年,自然數(shù)據(jù)將被大模型全部用完,而2030年,人工智能使用的合成數(shù)據(jù)將超過(guò)真實(shí)數(shù)據(jù)。
但傅盛認(rèn)為,直接使用合成數(shù)據(jù)訓(xùn)練大模型存在巨大風(fēng)險(xiǎn)。由于合成數(shù)據(jù)本身不可避免地帶有系統(tǒng)性偏差,若直接將其用于訓(xùn)練,模型可能會(huì)錯(cuò)誤地將這些偏差視為常規(guī),長(zhǎng)期下來(lái),模型的認(rèn)知可能會(huì)出現(xiàn)致命缺陷。
所以合成數(shù)據(jù)也需要進(jìn)行一些處理,如人工調(diào)優(yōu)或者是用其他數(shù)據(jù)進(jìn)行增強(qiáng),來(lái)提升合成數(shù)據(jù)質(zhì)量。
而針對(duì)真實(shí)數(shù)據(jù),最顯著的問(wèn)題是利用率不高。許多企業(yè)有足夠的數(shù)據(jù),但是訓(xùn)練出的大模型效果總是不理想,原因也在于他們的數(shù)據(jù)質(zhì)量不夠高。
挖掘數(shù)據(jù)服務(wù)商機(jī)
基于此,獵豹移動(dòng)也看到一個(gè)商機(jī),其控股公司獵戶星空推出了全新的數(shù)據(jù)服務(wù)產(chǎn)品——AI數(shù)據(jù)寶AirDS。
AI數(shù)據(jù)寶AirDS提供的服務(wù)涵蓋數(shù)據(jù)收集、清洗、標(biāo)注、提示詞工程以及評(píng)估等環(huán)節(jié)。傅盛表示,因?yàn)楂C豹移動(dòng)自己也在訓(xùn)練大模型,所以相對(duì)于傳統(tǒng)的數(shù)據(jù)標(biāo)注公司,獵豹移動(dòng)對(duì)大模型有更深刻的理解,也更能滿足企業(yè)對(duì)數(shù)據(jù)的需求。
需要指出的是,目前的數(shù)據(jù)服務(wù)依然離不開(kāi)人工。在大模型時(shí)代,數(shù)據(jù)篩選、清理等環(huán)節(jié),可以借助一些工具提高效率,但要想獲得高質(zhì)量數(shù)據(jù),人工精細(xì)標(biāo)注仍是不可或缺的。
傅盛表示,在大模型時(shí)代,獵豹移動(dòng)的核心業(yè)務(wù)模式并非通過(guò)模型接口來(lái)賺錢(qián),而是通過(guò)幫助客戶實(shí)現(xiàn)AI應(yīng)用的落地來(lái)創(chuàng)造價(jià)值。
該業(yè)務(wù)模式的核心是圍繞大模型的應(yīng)用場(chǎng)景進(jìn)行深度挖掘。以AI數(shù)據(jù)寶為例,獵豹移動(dòng)通過(guò)數(shù)據(jù)服務(wù)產(chǎn)品,幫助企業(yè)客戶實(shí)現(xiàn)從數(shù)據(jù)清洗到標(biāo)注、再到應(yīng)用優(yōu)化的全流程服務(wù),這不僅大幅提升了企業(yè)的AI應(yīng)用效果,也為獵豹移動(dòng)創(chuàng)造了巨大的商業(yè)化空間。
目前,AI數(shù)據(jù)寶的成功案例已經(jīng)覆蓋了多個(gè)行業(yè),包括移動(dòng)通信、互聯(lián)網(wǎng)娛樂(lè)、新能源汽車(chē)等。
對(duì)于大模型未來(lái)的發(fā)展,傅盛認(rèn)為,盡管技術(shù)瓶頸已使得模型的迭代速度放緩,但應(yīng)用場(chǎng)景的深度和廣度卻在不斷擴(kuò)展。特別是在搜索、企業(yè)服務(wù)等垂直行業(yè),隨著數(shù)據(jù)質(zhì)量和應(yīng)用能力的提升,AI有望為行業(yè)帶來(lái)革命性的變革。
“明年將是應(yīng)用大繁榮的一年,”傅盛預(yù)測(cè),“大模型的能力已經(jīng)相對(duì)穩(wěn)定,下一步的競(jìng)爭(zhēng)將更多依賴(lài)于如何在特定場(chǎng)景中應(yīng)用大模型。只要場(chǎng)景足夠清晰,它的爆發(fā)力將非常強(qiáng)。”
聲明:免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。