隨著Google、Microsoft和Facebook等巨頭的大力投入,深度學(xué)習(xí)正在超越機(jī)器學(xué)習(xí),人工智能來勢(shì)兇猛。那么,如今人工智能最熱門的技術(shù)趨勢(shì)是什么?
黑匣認(rèn)為,復(fù)雜神經(jīng)網(wǎng)絡(luò)、LSTMs(長(zhǎng)短期記憶網(wǎng)絡(luò))、注意力模型(AttentionModels)等十大趨勢(shì)將塑造人工智能未來的技術(shù)格局。
上述判斷來自NIPS(神經(jīng)信息處理系統(tǒng))2015大會(huì)。NIPS始于1987年,是人工智能領(lǐng)域兩大重要學(xué)習(xí)會(huì)議之一,由于AI的爆炸式發(fā)展,近年來逐漸成為許多硅谷公司必須參加的年度會(huì)議。
在蒙特利爾召開的NIPS2015吸引了眾多AI學(xué)界與業(yè)界的頂級(jí)專家,與會(huì)人數(shù)接近4000。大會(huì)總共收錄了403篇論文,其中深度學(xué)習(xí)課題約占11%。來自Dropbox的高級(jí)軟件工程師BradNeuberg分享了他所注意到的十大技術(shù)趨勢(shì),黑匣將對(duì)每種趨勢(shì)做了詳細(xì)分析。
1、神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來越復(fù)雜
感知和翻譯等大多數(shù)神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來越復(fù)雜,遠(yuǎn)非此前簡(jiǎn)單的前饋神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)所能比。特別需要注意的是,神經(jīng)網(wǎng)絡(luò)正與不同的技術(shù)(如LSTMs、卷積、自定義目標(biāo)函數(shù)等)相混合。
神經(jīng)網(wǎng)絡(luò)是多數(shù)深度學(xué)習(xí)項(xiàng)目的根基。深度學(xué)習(xí)基于人腦結(jié)構(gòu),一層層互相連接的人工模擬神經(jīng)元模仿大腦的行為,處理視覺和語(yǔ)言等復(fù)雜問題。這些人工神經(jīng)網(wǎng)絡(luò)可以收集信息,也可以對(duì)其做出反應(yīng)。它們能對(duì)事物的外形和聲音做出解釋,還可以自行學(xué)習(xí)與工作。
?。ㄈ斯つM神經(jīng)元試圖模仿大腦行為)
但這一切都需要極高的計(jì)算能力。早在80年代初期,GeoffreyHinton和他的同事們就開始研究深度學(xué)習(xí)。然而彼時(shí)電腦還不夠快,不足以處理有關(guān)神經(jīng)網(wǎng)絡(luò)的這些龐大的數(shù)據(jù)。當(dāng)時(shí)AI研究的普遍方向也與他們相反,人們都在尋找捷徑,直接模擬出行為而不是模仿大腦的運(yùn)作。
隨著計(jì)算能力的提升和算法的改進(jìn),今天,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)已經(jīng)成為人工智能領(lǐng)域最具吸引力的流派。這些神經(jīng)網(wǎng)絡(luò)還在變得更復(fù)雜,當(dāng)年“谷歌大腦”團(tuán)隊(duì)最開始嘗試“無監(jiān)督學(xué)習(xí)”時(shí),就動(dòng)用了1.6萬(wàn)多臺(tái)微處理器,創(chuàng)建了一個(gè)有數(shù)十億連接的神經(jīng)網(wǎng)絡(luò),在一項(xiàng)實(shí)驗(yàn)中觀看了千萬(wàn)數(shù)量級(jí)的YouTube圖像。
2、酷的人都在用LSTMs
當(dāng)你閱讀本文時(shí),你是在理解前面詞語(yǔ)的基礎(chǔ)上來理解每個(gè)詞語(yǔ)的。你的思想具有連續(xù)性,你不會(huì)丟棄已知信息而從頭開始思考。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的一大缺陷便是無法做到這一點(diǎn),而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)能夠解決這一問題。
RNN擁有循環(huán)結(jié)構(gòu),可以持續(xù)保存信息。過去幾年里,RNN在語(yǔ)音識(shí)別和翻譯等許多問題上取得了難以置信的成功,而成功的關(guān)鍵在于一種特殊的RNN——長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTMs)。
普通的RNN可以學(xué)會(huì)預(yù)測(cè)“thecloudsareinthesky”中最后一個(gè)單詞,但難以學(xué)會(huì)預(yù)測(cè)“IgrewupinFrance…IspeakfluentFrench.”中最后一個(gè)詞。相關(guān)信息(clouds、France)和預(yù)測(cè)位置(sky、French)的間隔越大,神經(jīng)網(wǎng)絡(luò)就越加難以學(xué)習(xí)連接信息。這被稱為是“長(zhǎng)期依賴關(guān)系”問題。
(長(zhǎng)期依賴問題)
LSTMs被明確設(shè)計(jì)成能克服之一問題。LSTMs有四層神經(jīng)網(wǎng)絡(luò)層,它們以特殊的方式相互作用。這使得“能記住信息很長(zhǎng)一段時(shí)間”可以被視作LSTMs的“固有行為”,它們不需要額外學(xué)習(xí)這一點(diǎn)。對(duì)于大多數(shù)任務(wù),LSTMs已經(jīng)取得了非常好的效果。
3、是時(shí)候注意“注意力模型(attentionmodels)了
LSTMs是人們使用RNNs的一個(gè)飛躍。還有其他飛躍嗎?研究者共同的想法是:“還有注意力(attention)!”
“注意力”是指神經(jīng)網(wǎng)絡(luò)在執(zhí)行任務(wù)時(shí)知道把焦點(diǎn)放在何處。我們可以讓神經(jīng)網(wǎng)絡(luò)在每一步都從更大的信息集中挑選信息作為輸入。
例如,當(dāng)神經(jīng)網(wǎng)絡(luò)為一張圖片生成標(biāo)題時(shí),它可以挑選圖像的關(guān)鍵部分作為輸入。
?。〒碛?ldquo;注意力”的RNN在圖像識(shí)別中的成功運(yùn)用)
4、神經(jīng)圖靈機(jī)依然有趣,但還無法勝任實(shí)際工作
當(dāng)你翻譯一句話時(shí),并不會(huì)逐個(gè)詞匯進(jìn)行,而是會(huì)從句子的整體結(jié)構(gòu)出發(fā)。機(jī)器難以做到這一點(diǎn),這一挑戰(zhàn)被稱為“強(qiáng)耦合輸出的整體估計(jì)”。NIPS上很多研究者展示了對(duì)跨時(shí)間、空間進(jìn)行耦合輸出的研究。
神經(jīng)圖靈機(jī)(NeuralTuringMachine)就是研究者們?cè)诠杵兄噩F(xiàn)人類大腦短期記憶的嘗試。它的背后是一種特殊類型的神經(jīng)網(wǎng)絡(luò),它們可以適應(yīng)與外部存儲(chǔ)器共同工作,這使得神經(jīng)網(wǎng)絡(luò)可以存儲(chǔ)記憶,還能在此后檢索記憶并執(zhí)行一些有邏輯性的任務(wù)。
(模仿人類短期工作記憶的神經(jīng)圖靈機(jī))
2014年10月,GoogleDeepMind公布了一臺(tái)原型電腦,它可以模仿一些人類大腦短期工作記憶的特性。但直到NIPS2015,所有的神經(jīng)圖靈機(jī)都過于復(fù)雜,并且只能解決一些“小玩具”問題。在未來它們或?qū)⒌玫綐O大改進(jìn)。
5、深度學(xué)習(xí)讓計(jì)算機(jī)視覺和自然語(yǔ)言處理不再是孤島
卷積神經(jīng)網(wǎng)絡(luò)(CNN)最早出現(xiàn)在計(jì)算機(jī)視覺中,但現(xiàn)在許多自然語(yǔ)言處理(NLP)系統(tǒng)也會(huì)使用。LSTMs與遞歸神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)最早出現(xiàn)在NLP中,但現(xiàn)在也被納入計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)。
此外,計(jì)算機(jī)視覺與NLP的交匯仍然擁有無限前景。想象一下程序?yàn)槊绖∽詣?dòng)嵌入中文字幕的場(chǎng)景吧。
6、符號(hào)微分式越來越重要
隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)及其目標(biāo)函數(shù)變得日益復(fù)雜和自定義,手動(dòng)推導(dǎo)出“反向傳播”(backpropagation)的梯度(gradients)也變得更加苦難而且容易出錯(cuò)。谷歌的TensorFlow等最新的工具包已經(jīng)可以超負(fù)荷試驗(yàn)符號(hào)微分式,能夠自動(dòng)計(jì)算出正確的微分,以確保訓(xùn)練時(shí)誤差梯度可被反向傳播。
7、神經(jīng)網(wǎng)絡(luò)模型壓縮的驚人成果
多個(gè)團(tuán)隊(duì)以不同方法大幅壓縮了訓(xùn)練一個(gè)良好模型所需的素材體量,這些方法包括二值化、固定浮點(diǎn)數(shù)、迭代修剪和精細(xì)調(diào)優(yōu)步驟等。
這些技術(shù)潛在的應(yīng)用前景廣闊,可能將會(huì)適應(yīng)在移動(dòng)設(shè)備上進(jìn)行復(fù)雜模型的訓(xùn)練。例如,不需要延遲就可以得到語(yǔ)音識(shí)別結(jié)果。此外,如果運(yùn)算所需要的空間和時(shí)間極大降低,我們就可以極高幀率(如30FPS)查詢一個(gè)模型,這樣,在移動(dòng)設(shè)備上也可以運(yùn)用復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,從而近乎實(shí)時(shí)地完成計(jì)算機(jī)視覺任務(wù)。
8、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)繼續(xù)交匯
雖然NIPS2015上沒有什么強(qiáng)化學(xué)習(xí)(reinforcementlearning)的重要成果,但“深度強(qiáng)化學(xué)習(xí)”研討會(huì)還是展現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)相結(jié)合的前景。
在“端對(duì)端”(end-to-end)機(jī)器人等領(lǐng)域出現(xiàn)了令人激動(dòng)的進(jìn)展,現(xiàn)在機(jī)器人已經(jīng)可以一起運(yùn)用深度和強(qiáng)化學(xué)習(xí),從而將原始感官數(shù)據(jù)直接轉(zhuǎn)化為實(shí)際動(dòng)作驅(qū)動(dòng)。我們正在超越“分類”等簡(jiǎn)單工作,嘗試將“計(jì)劃”與“行動(dòng)”納入方程。還有大量工作需要完成,但早期的工作已經(jīng)使人感到興奮。
9、難道你還沒有使用批標(biāo)準(zhǔn)化?
批標(biāo)準(zhǔn)化(batchnormalization)現(xiàn)在被視作評(píng)價(jià)一個(gè)神經(jīng)網(wǎng)絡(luò)工具包的部分標(biāo)準(zhǔn),在NIPS2015上被不斷提及。
10、神經(jīng)網(wǎng)絡(luò)研究與優(yōu)化齊頭并進(jìn)
創(chuàng)造新的神經(jīng)網(wǎng)絡(luò)方法需要研究者,還需要能將它們迅速付諸實(shí)踐的方法。谷歌的TensorFlow是少數(shù)能夠做到這些的庫(kù):使用Python或C++等主流編程語(yǔ)言,研究者可以迅速創(chuàng)作新的網(wǎng)絡(luò)拓?fù)鋱D,接著在單一或多個(gè)設(shè)備(包括移動(dòng)設(shè)備)上進(jìn)行測(cè)試。