新聞資訊/News information
|
BloombergGPT來(lái)了BloombergGPT來(lái)了,要替代金融分析師,還是預(yù)防被ChatGPT替掉全球最大的金融數(shù)據(jù)服務(wù)公司彭博,已經(jīng)訓(xùn)練出了BloombergGPT,金融領(lǐng)域最大的自然語(yǔ)言模型(LLM)。 有不少華爾街人在社交媒體上發(fā)問(wèn):這是要干掉金融分析師嗎?其實(shí),這也是彭博擔(dān)心自己被ChatGPT干掉。 彭博研究人員發(fā)布的模型論文稱,這是一個(gè)500 億參數(shù)的LLM,基于彭博豐富的金融數(shù)據(jù)源構(gòu)建了一個(gè)3630 億個(gè)訓(xùn)練標(biāo)志(token)數(shù)據(jù)集,這可能是迄今為止最大的特定領(lǐng)域數(shù)據(jù)集,并且增加了來(lái)自通用數(shù)據(jù)集的 3450 億個(gè)標(biāo)志。 研究人員在標(biāo)準(zhǔn) LLM能力、開(kāi)放金融能力和“預(yù)期用途”的內(nèi)部能力上驗(yàn)證了 BloombergGPT。這一混合數(shù)據(jù)集訓(xùn)練產(chǎn)生的模型,在金融能力上的表現(xiàn)明顯優(yōu)于現(xiàn)有模型,而一般能力上又不輸于通用 LLM 。 訓(xùn)練采用了大模型BLOOM的架構(gòu),動(dòng)用了512張40GB的A100GPU,在AWS上訓(xùn)練了53天。除此之外,沒(méi)有公開(kāi)更多的參數(shù)。而研究人員在論文中稱,也不打算公開(kāi)。 在做金融領(lǐng)域大模型方面,彭博有著得天獨(dú)厚的稟賦,理應(yīng)先吃螃蟹。作為一家金融數(shù)據(jù)和科技公司,40年來(lái)已經(jīng)積累了海量的金融數(shù)據(jù)。專業(yè)、獨(dú)有、可信的優(yōu)質(zhì)數(shù)據(jù)都是現(xiàn)成的,這是其最大的優(yōu)勢(shì)。下面是其數(shù)據(jù)集的構(gòu)成。 彭博認(rèn)為,自然語(yǔ)言處理(NLP)在金融科技領(lǐng)域越來(lái)越重要,擁有巨大的應(yīng)用前景。金融NLP已經(jīng)用于市場(chǎng)情緒分析、命名實(shí)體識(shí)別(NER)、新聞分類、問(wèn)答等。盡管還是要完成這些任務(wù),但是金融領(lǐng)域復(fù)雜性、名詞術(shù)語(yǔ)的專業(yè)性,讓彭博認(rèn)為有必要開(kāi)發(fā)一個(gè)金融領(lǐng)域的AI計(jì)算系統(tǒng)。 研究人員對(duì)這幾項(xiàng)任務(wù)進(jìn)行了測(cè)試: 1,問(wèn)答。ConvFinQA數(shù)據(jù)集是一個(gè)針對(duì)金融領(lǐng)域的問(wèn)答數(shù)據(jù)集,包括從新聞文章中提取出的問(wèn)題和答案,旨在測(cè)試模型對(duì)金融領(lǐng)域相關(guān)問(wèn)題的理解和推理能力。 2,情緒分析。FiQA SA,用來(lái)測(cè)試英語(yǔ)金融新聞和社交媒體標(biāo)題中的情感走向。 3,標(biāo)題。對(duì)關(guān)于黃金商品領(lǐng)域的新聞標(biāo)題進(jìn)行分類。 4,情緒分析。金融短語(yǔ)庫(kù)數(shù)據(jù)集(FPB)包括來(lái)自金融新聞的句子情緒分類任務(wù)。 5,命名實(shí)體識(shí)別(NER),針對(duì)從提交給SEC的金融協(xié)議中收集金融數(shù)據(jù),進(jìn)行信用風(fēng)險(xiǎn)評(píng)估。 測(cè)試結(jié)果對(duì)照其他模型如下: 但研究人員似乎有意避開(kāi)了與最強(qiáng)模型的對(duì)照,如GPT-4和PaLM?梢钥闯銎渥疃嗫赡苓_(dá)到 GPT-3 -3.5 之間的水平,在多語(yǔ)言多模態(tài)上可能差距明顯。另外,如果GPT-4開(kāi)放微調(diào)功能,BloombergGPT還有優(yōu)勢(shì)嗎? 彭博終端使用起來(lái),有一套非常難記的查詢代碼,而B(niǎo)loombergGPT可以把自然語(yǔ)言轉(zhuǎn)化成查詢代碼。還能為彭博社記者建議新聞標(biāo)題,在財(cái)經(jīng)新聞相關(guān)事實(shí)和知識(shí)查詢的準(zhǔn)確性方面,更是遠(yuǎn)勝其他大模型。 BloombergGPT不僅是金融領(lǐng)域最大的模型,而且是特定領(lǐng)域的最大模型,從中可以看出領(lǐng)域模型和通用模型之爭(zhēng) 。難怪BloombergGPT一再?gòu)?qiáng)調(diào),如果我們一樣大小,我金融功能無(wú)敵;如果通用模型比我大,我的通用功能也可以替代你?傊,用了BloombergGPT,就不必再用ChatGPT了。 免責(zé)聲明:本文來(lái)自騰訊新聞客戶端創(chuàng)作者,不代表騰訊網(wǎng)的觀點(diǎn)和立場(chǎng)。 |