近日,由共青團(tuán)北京市委員會(huì)、首都文明辦、市委網(wǎng)信辦等相關(guān)單位開展的“北京青年榜樣·時(shí)代楷模”評選結(jié)果揭曉,30位來自各行各業(yè)的青年榜樣獲此殊榮。在人工智能(AI)技術(shù)領(lǐng)域也有一位獲獎(jiǎng)?wù)摺@得“科創(chuàng)達(dá)人”稱號(hào)的百度深度學(xué)習(xí)技術(shù)平臺(tái)部總監(jiān)馬艷軍。他所負(fù)責(zé)的PaddlePaddle是我國首個(gè)也是唯一一個(gè)功能完備的自研深度學(xué)習(xí)開源框架。
在國外已有成熟開源學(xué)習(xí)框架(如TensorFlow、Caffe等)的情況下,再做國產(chǎn)深度學(xué)習(xí)框架并開源開放給開發(fā)者,是一件吃力但不一定討好的事情。為什么還要專門做國產(chǎn)的深度學(xué)習(xí)框架?如何讓開發(fā)者喜歡上它?《中國科學(xué)報(bào)》日前對馬艷軍進(jìn)行了獨(dú)家專訪,后者對于記者提出的上述問題進(jìn)行了詳細(xì)解讀。
PaddlePaddle緣起:原是一套內(nèi)部系統(tǒng)和工具
“其實(shí)百度做這個(gè)深度學(xué)習(xí)框架比較自然,原因就在于,百度很早就在研發(fā)和使用了深度學(xué)習(xí)技術(shù)。”馬艷軍舉例說,百度早在2012年就開始在語音、OCR場景使用深度學(xué)習(xí)相關(guān)技術(shù),2013年又在搜索、推薦等產(chǎn)品上進(jìn)行了應(yīng)用。
經(jīng)過幾年的積累,這套系統(tǒng)和工具,逐漸形成了深度學(xué)習(xí)框架的雛形。“我們這兒做一下,那兒完善一點(diǎn),最終就把它抽象成為一套深度學(xué)習(xí)框架的系統(tǒng)了。”馬艷軍說,這套系統(tǒng)在2013年前后基本成型,并最終在2016年9月正式宣布開源開放給開發(fā)者。
選擇開源開放,馬艷軍對《中國科學(xué)報(bào)》說,緣于百度看到了深度學(xué)習(xí)技術(shù)給百度產(chǎn)品帶來的價(jià)值,看到了這項(xiàng)技術(shù)給各行各業(yè)帶來的巨大潛力。
在這一波人工智能浪潮中,深度學(xué)習(xí)和深度學(xué)習(xí)框架是基礎(chǔ)性的核心技術(shù)。其中,深度學(xué)習(xí)框架作為介于底層硬件和上層應(yīng)用之間的基礎(chǔ)軟件能力(其意義相當(dāng)于操作系統(tǒng)和編譯系統(tǒng),編者注),不僅關(guān)乎相關(guān)產(chǎn)品和服務(wù)的開發(fā),還直接影響到AI芯片指令集的設(shè)計(jì)。
也正基于此,百度開放了這一核心的基礎(chǔ)能力。馬艷軍對記者說,這也源于百度在AI大勢下開放共贏的理念:開放PaddlePaddle 深度學(xué)習(xí)框架,“Everyone Can AI”。
事實(shí)也正是如此。PaddlePaddle深度學(xué)習(xí)框架開放后,涌入大批開發(fā)者打開AI所帶來的各類想象。北京工業(yè)大學(xué)4位自動(dòng)化專業(yè)的大學(xué)生基于該框架,開發(fā)了供桃農(nóng)分揀桃子的“桃子選美機(jī)”,機(jī)器分桃準(zhǔn)確率目前已超過90%,每年可幫助桃農(nóng)節(jié)省一大筆雇工費(fèi);北京林業(yè)大學(xué)基于PaddlePaddle研發(fā)了面向信息素誘捕器的智能蟲情監(jiān)測系統(tǒng),該系統(tǒng)大幅降低了蟲情監(jiān)測的人力成本,原本須一周的觀察時(shí)間一下子縮至30分鐘……馬艷軍說,諸如此類的例子不勝枚舉。
開放的底氣:PaddlePaddle的“幾招鮮”
馬艷軍告訴《中國科學(xué)報(bào)》,開源開放PaddlePaddle平臺(tái)的原因還在于,百度對在人工智能技術(shù)領(lǐng)域的積累“還是有底氣的”。“在百度內(nèi)部,2013年左右就把深度學(xué)習(xí)技術(shù)用在許多核心產(chǎn)品上了,2015年百度翻譯進(jìn)行升級,就上線了行業(yè)首個(gè)基于神經(jīng)網(wǎng)絡(luò)的在線翻譯引擎。”
此外,馬艷軍舉例說,百度在大規(guī)模稀疏場景的推薦引擎、自然語言處理、計(jì)算機(jī)視覺、自動(dòng)駕駛等方面的技術(shù)長期積累在業(yè)界有目共睹,這些技術(shù)能力也都沉淀到了PaddlePaddle,形成了在大規(guī)模深度學(xué)習(xí)并行技術(shù)、領(lǐng)先的算法模型庫、高速推理引擎幾個(gè)方面的技術(shù)優(yōu)勢。
“有這幾招鮮,開發(fā)者就奔著來了。”馬艷軍說,比如百度在自然語言理解方面會(huì)發(fā)布一些預(yù)訓(xùn)練模型,開發(fā)者或企業(yè)能夠在很高的起點(diǎn)繼續(xù)開發(fā),從而取得更好的效果。迄今為止,百度已經(jīng)先后開放多個(gè)領(lǐng)先的預(yù)訓(xùn)練中文模型,并將多個(gè)在國際大賽中取得冠軍的算法模型公之于眾,這吸引了許多包括一些國外開發(fā)團(tuán)隊(duì)在內(nèi)的開發(fā)者使用PaddlePaddle框架。
馬艷軍告訴記者,如今國外開發(fā)團(tuán)隊(duì)處理中文任務(wù)、研究中國市場的越來越多,加之百度在深度學(xué)習(xí)技術(shù)領(lǐng)域的“幾把刷子”被認(rèn)可,因此一些國外企業(yè)或開發(fā)者團(tuán)隊(duì)使用PaddlePaddle框架并不稀奇。他還看到過美國一家超市使用百度推出的Easy DL(Easy DL是基于PaddlePaddle 的零算法基礎(chǔ)定制化訓(xùn)練和服務(wù)平臺(tái),編者注)開發(fā)一款應(yīng)用,來檢測購物車是否有夾帶未付款商品。
“我們的產(chǎn)品降低門檻以后,其實(shí)也不那么分國界。這個(gè)門檻降下去了,用的人自然就多了。”馬艷軍說。
應(yīng)對深度學(xué)習(xí)人才荒:覆蓋10萬初學(xué)者
其實(shí)對于馬艷軍及其團(tuán)隊(duì)而言,開源開放PaddlePaddle意味著很大的挑戰(zhàn),開源開放把PaddlePaddle從內(nèi)部工具變成了服務(wù)整個(gè)行業(yè)的開發(fā)套件。當(dāng)它面對開發(fā)者時(shí),開發(fā)者是否愿意用、喜歡用,還要不斷“大練內(nèi)功”。
“我們的目標(biāo)是真正把它做得讓開發(fā)者容易用,并且具備我們的技術(shù)特色,讓開發(fā)者喜歡用。”馬艷軍說,在PaddlePaddle剛開源的時(shí)候,的確在使用便利性上(如社區(qū)不夠完善、資料積累不夠豐富等)存在一些問題,但隨著PaddlePaddle官網(wǎng)的上線、文檔和社區(qū)資料的豐富和開發(fā)套件版本的不斷迭代(目前已升級為PaddlePaddle3.0),問題已經(jīng)得到了“比較徹底的解決”。
不過,在馬艷軍看來,深度學(xué)習(xí)人才荒的問題才是真正的挑戰(zhàn)。據(jù)領(lǐng)英大數(shù)據(jù)顯示,全球AI人才整體供給在340萬人左右,其中深度學(xué)習(xí)人才僅9.5萬人,且流動(dòng)性較大,進(jìn)一步加大了缺口。
“真正懂深度學(xué)習(xí)、能夠把深度學(xué)習(xí)的基礎(chǔ)理論掌握得比較深入的人才、能夠看得懂深度學(xué)習(xí)框架底層設(shè)計(jì)進(jìn)而做一些底層設(shè)計(jì)和開發(fā)的人才在國內(nèi)還非常稀缺。所以培養(yǎng)和吸引人才來作深度學(xué)習(xí)開發(fā)、使用深度學(xué)習(xí)框架,一直是我們一個(gè)重點(diǎn)任務(wù)。”馬艷軍說。
基于PaddlePaddle平臺(tái),百度也在做一些努力。馬艷軍說,目前,百度已經(jīng)與國內(nèi)逾百所高校合作,為其相應(yīng)的課程提供基于PaddlePaddle的編程環(huán)境。“這些學(xué)校不必?fù)?dān)心沒有機(jī)器、沒有GPU,我們會(huì)提供一套AI Studio集成環(huán)境,讓學(xué)生直接在這個(gè)環(huán)境中學(xué)習(xí)深度學(xué)習(xí)的整套內(nèi)容。”馬艷軍透露:“通過這種方式我們可以覆蓋至少10萬名學(xué)生。”
同時(shí),馬艷軍告訴《中國科學(xué)報(bào)》,百度正在通過類似“黃埔計(jì)劃”(百度推出的“深度學(xué)習(xí)架構(gòu)師培養(yǎng)計(jì)劃”)的方式,面對面讓大家去了解深度學(xué)習(xí)框架如何在企業(yè)中發(fā)揮作用。“該活動(dòng)報(bào)名也是非常火爆,不少企業(yè)對這個(gè)培訓(xùn)很感興趣,愿意來學(xué)習(xí)和應(yīng)用。”馬艷軍說。
摘自《中國科學(xué)報(bào)》