百度萬億級圖檢索引擎!四大預(yù)訓(xùn)練模型開源,還“發(fā)糖”15億元!
雷錦·陳夢發(fā)自奧菲神廟qubit報道|微信官方賬號QbitAI
又是一年520,又是一年愛情...
停下來。這不是打開它的方法。
看~也是為了“節(jié)”,卻吸引了五湖四海的開發(fā)者聚集于此。
這就是深度學(xué)習(xí)開發(fā)者的“既定”活動——Wave Summit 2021。
百度Feipaddle作為國內(nèi)最大的深度學(xué)習(xí)平臺,也在520這樣的日子里為開發(fā)者帶來了不少“糖”:發(fā)布Feipaddle開源框架新版本2.1,發(fā)布全新大型地圖檢索引擎開源文心厄尼四大預(yù)訓(xùn)練模型,發(fā)布全新推理部署導(dǎo)航地圖...
此外,還有15億資金,其中10億將“分配”給10萬家企業(yè)和百萬產(chǎn)業(yè)AI人才。
與以往不同的是,本次峰會透露出一種全新的基調(diào)——大融合、大創(chuàng)新。
百度首席技術(shù)官王海峰表示:
從技術(shù)角度看,多技術(shù)融合創(chuàng)新,知識與深度學(xué)習(xí)的結(jié)合,突破了知識增強(qiáng)的深層語義理解,在相同參數(shù)尺度條件下,效果大幅提升,可解釋性更強(qiáng)。
從平臺上看,深度學(xué)習(xí)平臺與芯片軟硬件融合創(chuàng)新,面對各種不同硬件配置的生產(chǎn)環(huán)境,滿足不同計算能力、功耗、時延等多樣化需求。,實(shí)現(xiàn)AI應(yīng)用的最佳效果。
從產(chǎn)業(yè)角度來看,人工智能技術(shù)越來越深入地與產(chǎn)業(yè)結(jié)合,在產(chǎn)業(yè)需求的驅(qū)動下,不斷打磨AI技術(shù)和平臺能力,與應(yīng)用場景融合創(chuàng)新。
△百度首席技術(shù)官王海峰
此外,降低AI門檻是本次峰會的另一個重點(diǎn),這是加速多元化和產(chǎn)業(yè)化進(jìn)程的核心。
至于整合創(chuàng)新,降低AI門檻,如何將AI價值帶入行業(yè),實(shí)現(xiàn)高效率、高質(zhì)量的量產(chǎn),百度集團(tuán)副總裁吳添認(rèn)為:
AI工業(yè)量產(chǎn)首先是在企業(yè)的生產(chǎn)活動中一步步實(shí)現(xiàn)的。進(jìn)一步發(fā)展,將從企業(yè)內(nèi)部的多人多任務(wù)分工走向全社會的AI量產(chǎn)協(xié)同。
△百度集團(tuán)副總裁吳添
接下來,我們來看看WAVE SUMMIT 2021。六個新版本
飛槳開源框架2.1版
作為國內(nèi)最大的深度學(xué)習(xí)平臺,本次峰會再次迎來升級——2.1版本。
專注!
四大功能重點(diǎn)優(yōu)化:設(shè)置自動混音精度優(yōu)化:以ResNet50和BERT為例,啟動該功能后,訓(xùn)練速度可提高3倍。動態(tài)圖形功能增強(qiáng):新增原地操作功能,內(nèi)存占用減少17%;優(yōu)化Python/C++交互開銷,訓(xùn)練速度提升10%。高級API:新支持GPU預(yù)處理、混合精度和模型共享機(jī)制。尤其是自定義運(yùn)算符功能的升級,大大降低了學(xué)習(xí)和開發(fā)自定義運(yùn)算符的成本,大大提高了開發(fā)的靈活性。
于是,一張2.1版本升級后的百度飛槳全景圖上線了。
在這張全景圖中,除了上面提到的核心框架開發(fā)功能的優(yōu)化,百度Feipaddle這次的升級遠(yuǎn)不止于此。
大規(guī)模圖形檢索引擎
分布式訓(xùn)練中百度飛槳2.1的發(fā)布,是一個大規(guī)模的地圖檢索引擎,核心亮點(diǎn)如下:
支持萬億邊分布式圖的存儲和檢索,支持線性擴(kuò)展。
比如在與網(wǎng)易云音樂的合作過程中,“主播推薦”就使用了這個功能。
支持億邊圖模型的訓(xùn)練,有效解決冷啟動問題,提高主播推薦場景的有效播放率。
不難看出,大規(guī)模地圖檢索引擎的發(fā)布,讓百度Feipaddle具備了更強(qiáng)的工業(yè)場景應(yīng)用特性。
文厄尼的四個前期訓(xùn)練模型都是開源的
在框架層之后,是模型套件層方面。
介紹了開源文新ERNIE的四個預(yù)訓(xùn)練模型:ERNIE-Gram:提出了一個顯式n-gram掩碼語言模型。通過引入多粒度語言知識,增強(qiáng)了預(yù)訓(xùn)練模型的效果,領(lǐng)先于五個典型的中文文本任務(wù)。ERNIE-Doc:針對長文本建模不足的問題,提出了回溯建模技術(shù)和增強(qiáng)記憶模型的機(jī)制,并在13個長文本理解任務(wù)中取得了領(lǐng)先效果。ERNIE-ViL:針對跨模態(tài)理解問題,基于知識增強(qiáng)的思想,實(shí)現(xiàn)場景知識融合的跨模態(tài)預(yù)訓(xùn)練,在5個跨模態(tài)理解任務(wù)中成績領(lǐng)先ERNIE-UNIMO:進(jìn)一步增強(qiáng)不同模態(tài)間的知識融合,通過跨模態(tài)比較學(xué)習(xí)同步提升跨模態(tài)語義理解和生成、文本理解和生成的效果,在13個跨模態(tài)和文本任務(wù)中成績領(lǐng)先。
但在復(fù)雜的語義理解需求下,這四種預(yù)訓(xùn)練模型都能發(fā)揮各自的長處。
同時也可以實(shí)現(xiàn)技術(shù)融合,達(dá)到“1 > 2”的創(chuàng)新效果。
不僅能理解語言,還能理解圖像,實(shí)現(xiàn)統(tǒng)一的跨模態(tài)語義理解。
推進(jìn)器推理部署工具鏈和導(dǎo)航圖
除了開發(fā)、訓(xùn)練和套件,推理部署工具鏈的節(jié)點(diǎn)也進(jìn)行了升級:PaddleSlim:進(jìn)一步優(yōu)化剪枝和壓縮技術(shù),增加非結(jié)構(gòu)化稀疏工具;率先支持OFA壓縮模式,保證壓縮后的精度。Paddle Lite:面向移動開發(fā)者的開箱即用工具集LiteKit發(fā)布,大幅降低了端側(cè)AI開發(fā)者的開發(fā)成本。Paddle Serving:增加一個完全異步的流水線模式,更好的支持真實(shí)業(yè)務(wù)中模型組合的問題。Paddle.js: New支持多種后端和主流的圖像分割和分類模型,兼容性強(qiáng),性能高。
除了升級現(xiàn)有的推理部署工具鏈,飛槳還提供了推理部署導(dǎo)航圖。
據(jù)了解,目前已經(jīng)覆蓋了300多條完全驗證的部署路徑,從而形成了如下圖所示的導(dǎo)航地圖。
在這棵樹中,從根到每個分支的路徑都是完整的路徑,可以幫助開發(fā)者成功實(shí)現(xiàn)AI部署。
而之所以這么做,百度Feioar給出了他的理由:
每一次“成功”都有跡可循,每一次“失敗”都可以追根溯源。
硬件生態(tài)成就
除了“軟”的一面,發(fā)布部署也有“硬”的一面。
據(jù)了解,飛槳已與百度昆侖等22家國內(nèi)外硬件廠商合作,開展適配和聯(lián)合優(yōu)化工作,31款芯片或IP已經(jīng)完成或正在適配。
這包括英特爾、英偉達(dá)、華為、廣海、瑞芯微、安霸等芯片公司。
更具體地說,有超過50個模型的螺旋槳適應(yīng)廣海DCU。
可見,在部署環(huán)節(jié)的硬件生態(tài)方面,百度Feipaddle已經(jīng)全面覆蓋國內(nèi)外硬件廠商。
云原生機(jī)器學(xué)習(xí)核心PaddleFlow
隨著人工智能技術(shù)向行業(yè)應(yīng)用發(fā)展,出現(xiàn)了更廣泛的AI開發(fā)場景,對平臺提出了更多樣化的需求:針對更廣泛的垂直行業(yè)AI應(yīng)用開發(fā)需求,針對深度定制的AI開發(fā)平臺需求,有AI原生容器服務(wù)。
基于此,百度AI產(chǎn)品R&D部總監(jiān)新舟宣布正式啟用——PaddleFlow,即paddle企業(yè)版的“核心”。
△百度AI產(chǎn)品R&D部總監(jiān),新洲
簡而言之,這是一個專為AI平臺開發(fā)者設(shè)計的云原生機(jī)器學(xué)習(xí)核心系統(tǒng),易于集成。
它的特點(diǎn)也非常明顯,就是云原生、性能優(yōu)秀、輕量易用等。
可以幫助AI平臺開發(fā)者高效構(gòu)建更加細(xì)分的場景和深度定制的AI平臺。
……
除了以上六大版本,還有一些重大升級。
去年正式發(fā)布了propeller PaddleHelix,但今天正式升級到了1.0版本,增加了復(fù)合預(yù)訓(xùn)練模型ChemRL,并將ChemRL模型應(yīng)用于更多的下游任務(wù)。
憑借propeller的能力,百度于今年3月在國際權(quán)威的圖形神經(jīng)網(wǎng)絡(luò)OGB上獲得了HIV和PCBA兩個涉毒數(shù)據(jù)集上的雙冠軍。
作為國內(nèi)首款支持量子機(jī)器學(xué)習(xí)的測槳,與飛槳框架2.0及以后版本同步更新,整體運(yùn)行速度大幅提升,平均提升21.9%,核心應(yīng)用場景最高提升40.5%。
同時在測槳中加入了量子核方法等特征提取方法。
針對難度較大的糾纏純化任務(wù),測槳增加了優(yōu)化的量子糾纏處理框架,給出了目前業(yè)界最佳的可實(shí)施的純化方案。還“送糖”15億元。
除了上面提到的“六大發(fā)布”,在本次浪潮峰會2021上,百度飛槳的“分糖”還在繼續(xù)。
而且是很實(shí)在的一種“糖”——給錢,15億。
在百度飛槳的“大航?!庇媱澲校巳ツ昴甑咨暇€的高校AI人才培養(yǎng)“啟航”,還包括:“大航?!弊o(hù)航計劃和“大航?!鳖I(lǐng)航計劃。
“大航?!弊o(hù)航計劃
10億元,這是護(hù)航計劃未來三年的資金投入。
對誰?
10萬家企業(yè),百萬工業(yè)AI人才。
怎么會?
整體上分為技術(shù)、人才、生態(tài)三個方面。
為企業(yè)保駕護(hù)航,就要實(shí)現(xiàn)智能化升級,通過技術(shù)賦能、市場營銷、資源引入等方式,縮短從技術(shù)創(chuàng)新到商業(yè)落地的路徑,包括:飛槳技術(shù)合伙人計劃、飛槳企業(yè)版(Gravity)、飛槳中國行。
為人才保駕護(hù)航的是AI私人俱樂部、AI快速通道、AICA首席AI架構(gòu)師培養(yǎng)計劃。
△百度AI技術(shù)生態(tài)部總經(jīng)理劉謙
“大航?!痹圏c(diǎn)計劃
這個計劃是針對核心開發(fā)者的,目標(biāo)是與社區(qū)開發(fā)者一起構(gòu)建開源生態(tài)系統(tǒng),探索前沿技術(shù)。
包括PPDE(飛螺開發(fā)者技術(shù)專家計劃)、PPSIG(飛螺社區(qū)特殊興趣小組)、飛螺飛行員小組、博士協(xié)會等組織形式。
與行業(yè)內(nèi)優(yōu)秀開源社區(qū)和開源項目合作,系統(tǒng)設(shè)置研發(fā)方向,包括探索生物計算、量子計算等前沿方向。
據(jù)了解,目前已有120個PPDE獲得認(rèn)證,飛槳城市/高校試點(diǎn)群體已覆蓋150個城市。
AI人才產(chǎn)教融合培養(yǎng)計劃正式發(fā)布。
事實(shí)上,在《領(lǐng)航》和《護(hù)航》發(fā)布之前,百度飛槳早在去年年底的WAVE SUMMIT+2020就已經(jīng)啟動了《大航海》系列的航行計劃:
未來三年,飛槳將投入價值5億元的資金和資源,支持全國500所高校,重點(diǎn)培養(yǎng)5000名高校AI教師,聯(lián)合培養(yǎng)50萬名AI學(xué)生。
時隔近半年,這個計劃取得了什么成果?
基于豐富的行業(yè)實(shí)踐,飛槳在高校人工智能實(shí)踐課程開發(fā)中,開設(shè)了包括人工智能全技術(shù)層面在內(nèi)的50多個實(shí)戰(zhàn)案例,到7月底將積累100多個案例。
高校教師深度學(xué)習(xí)師資培訓(xùn),目前Feipaddle已舉辦14期,為570所高校培訓(xùn)200醫(yī)學(xué)教師,幫助226所高校開設(shè)學(xué)分課程。
承辦過中國大學(xué)生計算機(jī)大賽等多項比賽,為大學(xué)生提供實(shí)習(xí)項目和就業(yè)指導(dǎo),培養(yǎng)適應(yīng)行業(yè)需求的復(fù)合型人才。
會上還舉行了飛槳與三所高校創(chuàng)新創(chuàng)業(yè)實(shí)驗室合作簽約儀式。
包括清華大學(xué)基礎(chǔ)產(chǎn)業(yè)實(shí)訓(xùn)中心、吉林大學(xué)創(chuàng)新創(chuàng)業(yè)實(shí)驗室、鄭州大學(xué)人工智能工程應(yīng)用實(shí)驗室。
他們將與飛槳一起,共同推動產(chǎn)學(xué)研融合發(fā)展,打造智能產(chǎn)業(yè)后備軍,開啟產(chǎn)教融合新時代。
最后,除了六大發(fā)布和三大生態(tài)計劃,浪潮峰會還聯(lián)合信通院發(fā)布了《飛櫓開源生態(tài)報告》(后臺對話框回復(fù)“信通院”獲取)。
報告指出,人工智能行業(yè)已經(jīng)進(jìn)入工程應(yīng)用爆發(fā)的窗口期。開源框架可以降低整個行業(yè)智能化升級的難度,提高其廣度和深度。
飛櫓以區(qū)域化、特色化、規(guī)?;l(fā)展,開啟國內(nèi)開源新生態(tài),加速產(chǎn)業(yè)鏈跨界協(xié)同創(chuàng)新,構(gòu)建人才培養(yǎng)體系。
該網(wǎng)站還正式宣布了開源框架前沿模型再現(xiàn)比賽。
這是由傳播學(xué)院主辦的人工智能創(chuàng)新與應(yīng)用大賽的子賽道,將由百度承辦,希望挖掘和培養(yǎng)更多人才,沉淀更多前沿模型,推動整個人工智能的發(fā)展。整合是為了更好的創(chuàng)新。
融合,這是貫穿常態(tài)峰會始終的一個“主旋律”。
那么百度Feioar力推“集成創(chuàng)新”的背后是一種怎樣的邏輯呢?
首先,集成創(chuàng)新是時代的需求。
不同于以往的算法優(yōu)先,人工智能進(jìn)入工業(yè)量產(chǎn)階段,需要算法、數(shù)據(jù)、計算力的合力發(fā)揮,碰撞出更多創(chuàng)新的新價值。
這一次,在開發(fā)、培訓(xùn)、部署等環(huán)節(jié),百度飛槳的細(xì)節(jié)技術(shù)升級都是基于這樣一個原則。
比如文心厄尼開源的四種前期訓(xùn)練模式,在技術(shù)上不是“單線程”,而是“1 > 2”,產(chǎn)生更多的創(chuàng)新價值。
其次,企業(yè)發(fā)展到一定程度后,面對激烈的行業(yè)競爭,單靠技術(shù)的發(fā)展是無法突破固有瓶頸的。
只有跨界融合,模式創(chuàng)新,才能適應(yīng)日益嚴(yán)峻的競爭。
但除了技術(shù)和跨界的融合,還有一點(diǎn)很重要,不可或缺。
那就是深度學(xué)習(xí)平臺開源生態(tài)的整合與創(chuàng)新,包括行業(yè)、開發(fā)者社區(qū)、人才培養(yǎng)。
這對應(yīng)了百度飛槳的“大航海”系列計劃。
截至目前,飛槳已聚集320萬開發(fā)者,服務(wù)12萬家企業(yè),創(chuàng)造36萬個模型,涉足醫(yī)療、金融、娛樂、環(huán)境、能源、工業(yè)制造等多個領(lǐng)域。
之所以能達(dá)到這樣的規(guī)模,正是因為技術(shù)、模式、人才、跨界等諸多方面的融合創(chuàng)新,大大降低了AI開發(fā)的門檻,豐富了產(chǎn)生的價值。
既能創(chuàng)建靈活全面的建模方法,又能滿足定制場景的需求。
那么,集成創(chuàng)新下的AI價值應(yīng)該以什么樣的路線帶入工業(yè)生產(chǎn)活動?
對此,百度集團(tuán)副總裁吳添總結(jié)了一條三段式路線:為了支持開拓者在尋路階段的快速驗證落地,F(xiàn)eioar為行業(yè)引入AI驗證提供了真實(shí)場景打磨的工業(yè)模型庫,通過便捷的多終端、多平臺部署推理機(jī),解決AI落地的“最后一公里”問題。為了幫助工場應(yīng)用階段的團(tuán)隊?wèi)?yīng)用AI創(chuàng)新,百度飛槳降低了門檻,讓小團(tuán)隊不用重復(fù)做輪子,從移植重用到針對性重寫再到完成自研的全流程提供支持。為了支持工業(yè)量產(chǎn)階段的多人多任務(wù)協(xié)作,通過對計算能力資源的高效管理和開發(fā)者的集成開發(fā)環(huán)境,提高整個過程的效率。開源并支持多種硬件,可以實(shí)現(xiàn)多個企業(yè)間的社會化協(xié)同生產(chǎn)。
可見,飛槳已經(jīng)走過了AI產(chǎn)業(yè)化應(yīng)用的整個階段,為大家找到了一條可借鑒、可實(shí)現(xiàn)的道路。
你覺得這個百度飛槳和這個520夠誠意嗎?
結(jié)束-
量子QBITAI頭條號簽約
關(guān)注我們,第一時間了解前沿科技動態(tài)。