新聞資訊
公司新聞

網站首頁 > 公司新聞

百度為(wéi)何開源深度機器學習平(píng)台?

5月20日,百(bǎi)度在github上開源了(le)其深度機器學習平台。此(cǐ)番發(fā)布的深度機器學習開源平台屬(shǔ)于“深盟”的開源組織,其核心(xīn)開發(fā)者來(lái)自百度深度學習研究院(IDL),微(wēi)軟亞洲研究院、華盛頓大學、紐約大學、香港(gǎng)科(kē)技大學,卡耐基·梅隴大(dà)學等知名公司和高校。

通過這一開(kāi)源平台,世(shì)界各地的開發者們可以免(miǎn)費(fèi)獲得更優質和更容(róng)易使用的(de)分布式機器學習算法源碼,從(cóng)而大幅降低開發和部(bù)署分布式機器學習系統及相關應用的門檻。包括今日頭條、汽車之(zhī)家(jiā)等在内的多家公司已經通過該開放平台受益。

作為在人工智能布(bù)局較早的玩家,百度(dù)擁有領先業界的實力。從2013年百度深度學習研究院(IDL)的創建及2014年Andrew Ng的加盟至今,百度DMLC分布式(shì)深(shēn)度機器學習開源項目(簡(jiǎn)稱“深盟(méng)”)已在深度學習的多個應用領域做(zuò)過探索,上線了如(rú)xgboost(速度快效果好的Boosting模型)、CXXNET(極緻(zhì)的C++深度(dù)學習(xí)庫)、Minerva(高效靈(líng)活的并行深度(dù)學習引擎)以及Parameter Server(一小時訓練600T數據)等産品(pǐn),在語音識(shí)别、OCR識别(bié)、人臉識别以及計算效率提升上發(fā)布了多個成熟産品。

而具有一(yī)系列領先優勢的百度卻選擇開源其深度機器學習平台(tái),為何交底自己的核(hé)心技術?

深思之下,卻是在面對業(yè)界無奈時的遠見之舉。

擁抱世界:開(kāi)源的魅力

開源,顧(gù)名(míng)思義,就是開放自己的源代碼給别人查閱和使用(yòng),盡管看起來很傻,然而諸多曆史事實卻告訴我們擁抱世界也能讓世界擁抱你。

Android的(de)逆襲(xí)就是明證(zhèng),在iOS侵占絕大多數智能手(shǒu)機操作系統的時(shí)代誕生,Google選擇開源,讓早已在蘋果(guǒ)面前沒有(yǒu)機會的業界見到了希望,至(zhì)今Android已擁有過半的市場份額,以至于在移動互聯網大行其道的今天,Google可以憑借它與旗下産品的整合打造屬于自(zì)己的強大生(shēng)态系統。相比之下,生而嬌貴(guì)的Windows mobile的(de)故事夠令人發醒的,終(zhōng)于微軟也不得不寄人籬下地去兼容Android和iOS平台(tái)應用。此外,作為微軟最主要(yào)的應用程(chéng)序框架,微軟對.net寄予厚望,希望它的開源可以來到所有平台(tái),進而重現(xiàn)JAVA的光輝曆史(shǐ)。這也證明了即使強大如微軟也無法憑借一己之力讓(ràng)其(qí)産品得到世界的擁抱。

衆人拾材火(huǒ)焰高:用平台籠(lóng)絡世界的力量

要實現人工智能,機(jī)器必須(xū)具備自主學習能(néng)力,深度學習作為機器學習領域的重大(dà)突破,可以完成具有高度(dù)抽象特征的人(rén)工智能任務,如自然語言理解(jiě)等複雜(zá)場景,因而備受業界追捧。當然,機器(qì)學習領域并不隻是有深度(dù)學習這一種算法的存在,然而深度學習卻有着顯著的(de)優勢(shì):在數據集足夠大的情況下,深度學習擁有最好的預測能力(lì)。盡管在算(suàn)法的選擇上仍然存在“殺雞焉用(yòng)宰牛刀”的争論,但深度(dù)學習算法為人工智能(néng)領域注入的強大能力卻是(shì)其他算法無以比拟的;同(tóng)時,随着深度學習技(jì)術的成熟,諸多傳統機器(qì)學習算法(fǎ)的淘汰幾乎是必然的。然而正如(rú)前述,深度(dù)學習對大(dà)量數據的需(xū)求及其本身的複雜性仍然是其發展壯大(dà)路上的最大阻礙,也是(shì)業界(jiè)的無奈所在。

百度在此領域發(fā)力較早,且在諸多方向上進行了深入的研究,利用深入學習結合自身(shēn)搜索引擎(qíng)的大數(shù)據讓機器翻譯及(jí)自然語言等技術實現了新(xīn)的(de)飛躍。然而在面向更廣大更具體的應用(yòng)場景(jǐng)時,任何一個(gè)公司都難以滿足所有需求。借鑒曆(lì)史(shǐ),開放共赢不僅可以把事情做(zuò)的,也讓業界和生态(tài)系統得到健康發展(zhǎn)。

百度此次開源也是完全奔着建(jiàn)平台去的。完全采用C++語言搭建核心,為平台的穩(wěn)定高效運行奠定了基礎(chǔ);覆蓋(gài)了三類最常用(yòng)的機器學習算(suàn)法,包括用于點擊預測的稀疏線性模型、用于排序的決策樹模型以及深入學習,滿足了最廣大的需(xū)求;重點開發的“蟲洞”項目将自動構建深盟所有項目,為所有組件提供一緻(zhì)的數據流支持(chí)且提供包括Amazon EC2,Microsoft Azure, Google Compute Engine在内的雲計算平台兼容支持,降低平台的(de)準入門檻。

開源(yuán)并入駐Github也進(jìn)一步強(qiáng)調了其開放的心态(tài)和對平台的信心。一系列的動(dòng)作都是希望讓開發者可以獲(huò)得更(gèng)優質更容易使用的深入學習算法(fǎ)源碼,降低開發和部署深入學習系統及(jí)相關應用的門檻,進而利(lì)用世界的力量(liàng)壯大自身(shēn)。

面對可預(yù)料(liào)的爆發,技術一定程度上漸發成熟,但(dàn)也因為各自的技術基因(yīn)和路線差異,面臨着極大的分裂傾向。開放的心态擁抱世界,打造機器學(xué)習領域的國際标準,百(bǎi)度的(de)此舉既是對前期研究投入的回收(shōu)保障,更是攜(xié)手(shǒu)籠絡(luò)友商,确保自(zì)身的話語權所在。