當(dāng)前位置：首頁(yè) > 新聞資訊 > 機(jī)器人開(kāi)發(fā) > 【深度】未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)為何？

【深度】未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)為何？

來(lái)源：圖靈人工智能編輯：創(chuàng)澤時(shí)間：2020/5/28 主題：其他 [加盟]

計(jì)算機(jī)視覺(jué)是人工智能的“眼睛”，是感知客觀世界的核心技術(shù)。進(jìn)入21世紀(jì)以來(lái)，計(jì)算機(jī)視覺(jué)領(lǐng)域蓬勃發(fā)展，各種理論與方法大量涌現(xiàn)，并在多個(gè)核心問(wèn)題上取得了令人矚目的成果。為了進(jìn)一步推動(dòng)計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展，CCF-CV組織了RACV 2019，邀請(qǐng)多位計(jì)算機(jī)視覺(jué)領(lǐng)域資深專(zhuān)家對(duì)相關(guān)主題的發(fā)展現(xiàn)狀和未來(lái)趨勢(shì)進(jìn)行研討。

在“未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)”的專(zhuān)題中，各位專(zhuān)家從計(jì)算機(jī)視覺(jué)發(fā)展歷程、現(xiàn)有研究局限性、未來(lái)研究方向以及視覺(jué)研究范式等多方面展開(kāi)了深入的探討。

主題組織者：林宙辰，劉日升，闞美娜

討論時(shí)間：2019年9月27日

發(fā)言嘉賓：查紅彬，陳熙霖，盧湖川，劉燁斌，章國(guó)鋒

參與討論嘉賓[發(fā)言順序]：謝曉華，林宙辰，林倞，山世光，胡占義，紀(jì)榮嶸，王亦洲，王井東，王濤，楊睿剛，鄭偉詩(shī)，賈云得，魯繼文，王亮

我們將研討內(nèi)容按專(zhuān)題實(shí)錄整理，盡最大可能以原汁原味的形式還原觀點(diǎn)爭(zhēng)鳴現(xiàn)場(chǎng)，希望有助于激發(fā)頭腦風(fēng)暴，產(chǎn)生一系列啟發(fā)性的觀點(diǎn)和思想，推動(dòng)計(jì)算機(jī)視覺(jué)領(lǐng)域持續(xù)發(fā)展。

一、開(kāi)場(chǎng)：山世光、林宙辰

山世光：上次計(jì)算機(jī)視覺(jué)專(zhuān)委會(huì)常委會(huì)上，在譚院士的倡議下這次RACV嘗試一下相對(duì)比較小規(guī)模的、以討論未來(lái)與問(wèn)題為主的這樣一種形式。這次的RACV希望所有的發(fā)言人，都不是講自己的或已經(jīng)做的工作，而是圍繞著每一個(gè)主題講一講自己的觀點(diǎn)和看法。大家在發(fā)言的時(shí)候可以無(wú)所顧忌，可以爭(zhēng)論。我們會(huì)有記錄和錄音，但最后的文字會(huì)經(jīng)過(guò)大家的確認(rèn)之后才發(fā)布。

林宙辰： RACV是希望大家有一些深入的研討，互相挑戰(zhàn)，以達(dá)到深入討論的目的。第一個(gè)主題是未來(lái)5-10年CV的發(fā)展趨勢(shì)。希望我們這次研討會(huì)尤其是CV發(fā)展趨勢(shì)這個(gè)主題能夠類(lèi)似達(dá)特茅斯會(huì)議，產(chǎn)生一些新的思想。

二、嘉賓主題發(fā)言

1. 查紅彬

未來(lái)五年或十年CV的發(fā)展趨勢(shì)是很難預(yù)測(cè)的，有時(shí)候想的太多，反而容易跑偏。所以，今天我主要從自己認(rèn)識(shí)的角度說(shuō)說(shuō)后面我們?cè)撟鲂┦裁礃拥氖虑椤?

首先，說(shuō)說(shuō)什么叫計(jì)算機(jī)視覺(jué)？我這里給了一個(gè)比較嚴(yán)格的定義，即使用計(jì)算機(jī)技術(shù)來(lái)模擬、仿真與實(shí)現(xiàn)生物的視覺(jué)功能。但這個(gè)定義并沒(méi)有將事情完全講清楚，這里把計(jì)算機(jī)和視覺(jué)兩個(gè)概念揉到了一起，但到底什么叫計(jì)算機(jī)、什么叫視覺(jué)并沒(méi)有說(shuō)。什么叫計(jì)算機(jī)大家是能夠公認(rèn)的。但什么叫視覺(jué)，其實(shí)在計(jì)算機(jī)視覺(jué)領(lǐng)域里還沒(méi)有一個(gè)大家都認(rèn)可的定義。

我們不妨先看看現(xiàn)在計(jì)算機(jī)視覺(jué)領(lǐng)域里有哪些研究?jī)?nèi)容。先來(lái)看看今年ICCV各個(gè)分會(huì)的關(guān)鍵詞，其中最大的幾個(gè)領(lǐng)域是deep learning；recognition；segmentation, grouping and shape等。這些領(lǐng)域是視覺(jué)嗎？說(shuō)是圖像處理、分析與理解也能說(shuō)的通。關(guān)鍵問(wèn)題在于，我們講來(lái)講去到底是不是真的在做視覺(jué)？這點(diǎn)有必要再想想。

舉個(gè)例子--人臉識(shí)別：人臉識(shí)別現(xiàn)在能識(shí)別大量的人臉圖像與視頻，幾十萬(wàn)、幾百萬(wàn)人都能夠識(shí)別。它是用大數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)達(dá)到目的的，而且是離線學(xué)習(xí)的。但識(shí)別算法在實(shí)際應(yīng)用中對(duì)光照、遮擋等的魯棒性比較差。我們回過(guò)頭看看人的人臉識(shí)別有些什么樣的功能呢？我們?nèi)俗R(shí)別人臉的功能很強(qiáng)，但只能識(shí)別很少數(shù)量的人臉，如親戚、朋友、同事等，超過(guò)一定范圍之后人是很難識(shí)別出來(lái)陌生人的人臉的，我們能看到有差別但分不清誰(shuí)是誰(shuí)。

第二個(gè)，人是在生活情景當(dāng)中進(jìn)行主動(dòng)性的樣本學(xué)習(xí)。我們之所以能夠認(rèn)識(shí)親屬，是因?yàn)槲覀冊(cè)谌粘Ｉ町?dāng)中與他們生活在一起，建立了各種各樣的關(guān)系。我們主動(dòng)地用樣本來(lái)學(xué)，利用了不同層次的特征。所以，盡管我們識(shí)別人臉的數(shù)量少，但是我們對(duì)抗干擾的能力很強(qiáng)。所以我覺(jué)得這是人的人臉識(shí)別和現(xiàn)在機(jī)器的人臉識(shí)別之間的差別。也就是，人的視覺(jué)中的人臉識(shí)別有它明顯的特點(diǎn)，它能很好地應(yīng)對(duì)現(xiàn)實(shí)環(huán)境中的視覺(jué)處理任務(wù)。

那么現(xiàn)實(shí)環(huán)境中的視覺(jué)處理應(yīng)該考慮哪些因素呢？我們有計(jì)算機(jī)、機(jī)器人這些智能機(jī)器，同時(shí)還有其它兩個(gè)關(guān)鍵的部分。第一個(gè)部分是要通過(guò)視覺(jué)這個(gè)接口來(lái)同外部世界建立聯(lián)系，同環(huán)境進(jìn)行互動(dòng)；第二個(gè)是我們講視覺(jué)的時(shí)候，生物的感知機(jī)理給我們提供了很多依據(jù)。這其中，我們要應(yīng)對(duì)的是現(xiàn)實(shí)環(huán)境的開(kāi)放性，以及三維世界的復(fù)雜性，我們要面對(duì)場(chǎng)景當(dāng)中很多動(dòng)態(tài)的變化以及層次性結(jié)構(gòu)的多樣性。

另一方面，生物的感知機(jī)理有什么呢？它是一個(gè)學(xué)習(xí)過(guò)程，但這個(gè)學(xué)習(xí)是柔性的，并不是我們現(xiàn)在這樣的離線學(xué)習(xí)并固定的方式。我們現(xiàn)在的機(jī)器學(xué)習(xí)用起來(lái)就只是測(cè)試。但我們?nèi)说膶W(xué)習(xí)中測(cè)試和學(xué)習(xí)過(guò)程并不是嚴(yán)格可分的，它有結(jié)構(gòu)上的柔性，也需要層次化的處理。此外，它有主動(dòng)性，能夠根據(jù)它的目的和任務(wù)主動(dòng)地進(jìn)行學(xué)習(xí)。同時(shí)，我們?nèi)粘Ｉ町?dāng)中所需要的是一種時(shí)序數(shù)據(jù)的處理，是一種增量型的處理過(guò)程。從這樣的角度來(lái)看，我們將來(lái)的計(jì)算機(jī)視覺(jué)研究需要考慮把真實(shí)環(huán)境的特點(diǎn)與生物的感知機(jī)理融合進(jìn)來(lái)。這樣就會(huì)更接近“視覺(jué)”這個(gè)詞本來(lái)的意義。

那這其中有哪些事情我們可以去考慮呢？

首先是學(xué)習(xí)的問(wèn)題�，F(xiàn)在，深度學(xué)習(xí)用的很多，但它只是我們?nèi)说哪Ｊ阶R(shí)別當(dāng)中的一部分功能，對(duì)于視覺(jué)研究來(lái)說(shuō)，還有很大的挖掘空間。也就是說(shuō)，我們考慮計(jì)算機(jī)視覺(jué)中的機(jī)器學(xué)習(xí)的時(shí)候，不僅僅是深度，還要把網(wǎng)絡(luò)的寬度、結(jié)構(gòu)可重構(gòu)性與結(jié)構(gòu)柔性結(jié)合起來(lái)。我們要把不同的結(jié)構(gòu)層次研究明白，同時(shí)把不同模塊之間的連接關(guān)系考慮到網(wǎng)絡(luò)里來(lái)。我們?nèi)说拇竽X就是這樣的，大腦從視覺(jué)的低層特征抽取往上，它具有很多不同的功能性結(jié)構(gòu)在里面，而且這個(gè)功能性結(jié)構(gòu)是可塑的。

其次，除了通常講的識(shí)別功能之外，我們要把記憶、注意等一些認(rèn)知機(jī)制通過(guò)學(xué)習(xí)的方式實(shí)現(xiàn)出來(lái)。目前已經(jīng)有一些這方面的工作了。將來(lái)這些機(jī)制在計(jì)算機(jī)視覺(jué)里面可能會(huì)作為學(xué)習(xí)的一個(gè)核心目標(biāo)，融到我們現(xiàn)在的整個(gè)體系當(dāng)中。

另外，還應(yīng)考慮通過(guò)環(huán)境的交互這種方式來(lái)選擇需要的樣本進(jìn)行自主學(xué)習(xí)等。所以，這種學(xué)習(xí)方式上的結(jié)構(gòu)柔性應(yīng)該是我們追求的一個(gè)目標(biāo)。

另外一點(diǎn)，我們現(xiàn)在的計(jì)算機(jī)視覺(jué)還比較缺乏對(duì)動(dòng)態(tài)場(chǎng)景的處理。我們現(xiàn)在很多工作是在靜態(tài)場(chǎng)景里面，像人臉識(shí)別也是在靜態(tài)場(chǎng)景里面來(lái)做。盡管有時(shí)候我們用視頻來(lái)做，但并沒(méi)有深入考慮整個(gè)場(chǎng)景的動(dòng)態(tài)特性�，F(xiàn)在動(dòng)態(tài)目標(biāo)的跟蹤、檢測(cè)、分析、行為的識(shí)別與理解等這些工作都有在做，但還沒(méi)有上升到一個(gè)系統(tǒng)化的水平。我們也應(yīng)該把更多的注意力放到像移動(dòng)傳感器的定位、三維動(dòng)態(tài)場(chǎng)景的重建與理解等一些事情上面來(lái)。所以，我認(rèn)為動(dòng)態(tài)視覺(jué)是未來(lái)的另一個(gè)重要研究方向。

還有一個(gè)是主動(dòng)視覺(jué)。主動(dòng)視覺(jué)是把感知與運(yùn)動(dòng)、控制結(jié)合起來(lái)，形成一個(gè)閉環(huán)。計(jì)算機(jī)視覺(jué)里很早就有一個(gè)研究課題，叫視覺(jué)伺服，是想把控制和感知很好地結(jié)合起來(lái)。我們的感知一部分是為任務(wù)目的服務(wù)，另外一部分是為感知本身服務(wù)，即從一種主動(dòng)控制的角度來(lái)考慮感知功能的實(shí)現(xiàn)，以提高感知系統(tǒng)的自適應(yīng)能力，遷移學(xué)習(xí)、無(wú)間斷學(xué)習(xí)或終身學(xué)習(xí)等都可以應(yīng)用進(jìn)來(lái)。此外，還應(yīng)當(dāng)考慮常識(shí)、意識(shí)、動(dòng)機(jī)以及它們之間的關(guān)系。也就是說(shuō)，我們要把視覺(jué)上升到有意識(shí)的、可控制的一個(gè)過(guò)程。

如果我們把前面提到的時(shí)序與動(dòng)態(tài)處理等結(jié)合起來(lái)之后，應(yīng)該更多考慮在線學(xué)習(xí)。我們不應(yīng)該全部依賴(lài)目前這種離線學(xué)習(xí)、僅使用標(biāo)注數(shù)據(jù)，而是應(yīng)該在動(dòng)態(tài)的環(huán)境當(dāng)中，根據(jù)運(yùn)動(dòng)與動(dòng)態(tài)數(shù)據(jù)流本身的特性來(lái)做預(yù)測(cè)與學(xué)習(xí)。這樣可以把前面提到的記憶與注意力等一些機(jī)制結(jié)合起來(lái)，最終實(shí)現(xiàn)一種無(wú)監(jiān)督的在線學(xué)習(xí)系統(tǒng)。這樣一來(lái)就能把現(xiàn)實(shí)環(huán)境中的一些特點(diǎn)與變化考慮進(jìn)來(lái)，形成一套新的理論。而這個(gè)理論，跟現(xiàn)在的深度學(xué)習(xí)、圖像處理分析與理解等相比，會(huì)更接近我們講的視覺(jué)這個(gè)概念。

2. 陳熙霖

預(yù)測(cè)可見(jiàn)未來(lái)是一件風(fēng)險(xiǎn)極大的事，對(duì)于這個(gè)命題作文我只能說(shuō)個(gè)人的觀點(diǎn)。我更愿意從歷史的角度來(lái)看這件事情。

首先，我們回顧一下計(jì)算機(jī)視覺(jué)的發(fā)展歷程。我把過(guò)去幾十年的過(guò)程分為以下幾個(gè)階段。第一個(gè)階段我稱(chēng)之為啟蒙階段，標(biāo)志性的事件是1963年L. Robert的三維積木世界分析的博士論文(Machine Perception of Three-dimensional Solids)和1966年夏天Minsky安排幾個(gè)本科生做的手眼系統(tǒng)。這個(gè)階段對(duì)計(jì)算機(jī)視覺(jué)的估計(jì)過(guò)于樂(lè)觀，認(rèn)為這事太容易了，很快就可以解決，正如S. Papert的報(bào)告中寫(xiě)到的“The summer vision project is an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。啟蒙階段的重要啟示就是發(fā)現(xiàn)這個(gè)問(wèn)題遠(yuǎn)比想象的困難。

從七十年代初期開(kāi)始進(jìn)入第二個(gè)階段，我稱(chēng)之為重構(gòu)主義，這是以D. Marr的視覺(jué)框架為代表的。這個(gè)框架在Marr的總結(jié)性著作“Vision --A Computational Investigation into the Human Representation and Processing of Visual Information”中有很好的闡述。其核心是將一切對(duì)象恢復(fù)到三維表達(dá)。其基本過(guò)程是：圖像à基本要素圖(primal sketch)à以觀察者為中心的三維表達(dá)(2.5D skecth)à以觀察對(duì)象為中心的3D表達(dá)。這個(gè)過(guò)程看起來(lái)很漂亮，但卻存在兩方面的問(wèn)題——首先是這樣的過(guò)程是否是必須的，其次是如果都試圖恢復(fù)三維，這樣不論對(duì)感知測(cè)量還是計(jì)算是否現(xiàn)實(shí)。我個(gè)人認(rèn)為三維在計(jì)算機(jī)視覺(jué)中的作用也是有限的。這個(gè)階段的工作也導(dǎo)致了上世紀(jì)90年代初對(duì)計(jì)算機(jī)視覺(jué)研究的反思和爭(zhēng)論。有興趣的各位可以看看1991年CVGIP: Image Understanding第53卷第1期上的討論文章。

第三個(gè)階段我稱(chēng)之為分類(lèi)主義，反正只要能識(shí)別就好，不管白貓黑貓抓住老鼠就好。人臉識(shí)別、各種多類(lèi)物體識(shí)別等都在這個(gè)階段大行其道，研究者們采用各種各樣的方法，從研究各類(lèi)不變算子(如SIFT、HOG等)到分類(lèi)方法(如SVM、AdaBoost等)。這個(gè)階段推進(jìn)了識(shí)別問(wèn)題的解決，但似乎總差最后一公里。

最近的一個(gè)階段我稱(chēng)之為拼力氣比規(guī)模階段，其核心是聯(lián)結(jié)主義的復(fù)興，這得益于數(shù)據(jù)和計(jì)算資源的廉價(jià)化。這類(lèi)方法在各種分類(lèi)問(wèn)題上似乎得到了很好的解決。但這些方法背后缺少了很多研究需要追求和思考的東西，過(guò)去我們都在講找一個(gè)美妙的辦法。如同我們希望瞄準(zhǔn)目標(biāo)，以最小的代價(jià)擊中目標(biāo)�，F(xiàn)在這類(lèi)方法更像是炮決，今天我們似乎進(jìn)入了這樣的炮決時(shí)代。

那么未來(lái)會(huì)是怎么樣的？從前面的發(fā)展歷史來(lái)看，計(jì)算機(jī)視覺(jué)經(jīng)過(guò)幾十年的發(fā)展進(jìn)入了野蠻人的時(shí)代。什么叫進(jìn)入野蠻人的時(shí)代了？今天大家說(shuō)人工智能熱，可幾乎所有拿來(lái)驗(yàn)證人工智能的例子都是和計(jì)算機(jī)視覺(jué)相關(guān)的。而今天很多所謂的計(jì)算機(jī)視覺(jué)研究就是拿深度學(xué)習(xí)訓(xùn)練一個(gè)模型，所以說(shuō)這是個(gè)野蠻人的時(shí)代。那么野蠻人時(shí)代有什么問(wèn)題？

我們看上一個(gè)和野蠻人時(shí)代相關(guān)的歷史——羅馬帝國(guó)。羅馬帝國(guó)是被野蠻人消滅的，羅馬（更具體的是指西羅馬）從建國(guó)到被滅亡，中間大概有500年。而且西羅馬被滅了以后，還有一個(gè)叫神圣羅馬帝國(guó)，按照尤瓦爾·赫拉利《人類(lèi)簡(jiǎn)史》上的說(shuō)法后者既不神圣也不是帝國(guó)。當(dāng)年羅馬帝國(guó)也是所有的東西都講究漂亮美麗——斗獸場(chǎng)、引水渠以及打到哪修到哪的條條大路(通羅馬)。計(jì)算機(jī)視覺(jué)早年的研究者也是天天追求漂亮，要數(shù)學(xué)上美、物理上美等等，就和當(dāng)年羅馬帝國(guó)一樣�，F(xiàn)在也真的和羅馬帝國(guó)一樣了，我們遇到了蠻族人。

這個(gè)蠻族人是誰(shuí)？就是深度學(xué)習(xí)，和過(guò)去羅馬人關(guān)心文明，蠻族人關(guān)心財(cái)富一樣，在計(jì)算機(jī)視覺(jué)的研究上，我們也面臨著如何選擇的問(wèn)題。當(dāng)然，歷史也會(huì)驚人地相似，蠻族人占領(lǐng)羅馬以后也不是什么都沒(méi)干。后來(lái)他們建立神圣羅馬帝國(guó)，到后來(lái)導(dǎo)致文藝復(fù)興。今天計(jì)算機(jī)視覺(jué)的研究在我們看來(lái)也需要一個(gè)文藝復(fù)興。

什么是我們的文藝復(fù)興？我們當(dāng)下的計(jì)算機(jī)視覺(jué)就處在這么一個(gè)需要思考的時(shí)期。而不是一味地倒向深度學(xué)習(xí)。現(xiàn)在有些研究走向比蠻力的階段，就跟打仗比坦克、大炮的數(shù)量一樣，靠拼GPU的規(guī)模和計(jì)算能力。下一步，我們需要往哪里走？這是現(xiàn)在這個(gè)野蠻人時(shí)代需要思考的。

預(yù)測(cè)未來(lái)五到十年這是一個(gè)風(fēng)險(xiǎn)極大的問(wèn)題。所以我只能通過(guò)前面講的歷史和我的一點(diǎn)思考談?wù)剬?duì)未來(lái)的一些可能。

首先，一個(gè)值得關(guān)注的未來(lái)趨勢(shì)是從識(shí)別到理解，套用古人的說(shuō)法就是從知其然到知其所以然。過(guò)去十多年計(jì)算機(jī)視覺(jué)在識(shí)別方面取得了顯著的進(jìn)展，但是現(xiàn)在的識(shí)別遠(yuǎn)遠(yuǎn)不是我們所期望的識(shí)別。例如你教它識(shí)別一個(gè)杯子，它不會(huì)想到杯子和水有任何關(guān)系，不會(huì)想到杯子有任何的其他功能，因而完全是填鴨式的。今天的識(shí)別遠(yuǎn)遠(yuǎn)不是可解釋的。談到可解釋?zhuān)艺J(rèn)為在計(jì)算機(jī)視覺(jué)領(lǐng)域的可解釋?xiě)?yīng)該是對(duì)結(jié)論的解釋?zhuān)皇墙忉尵W(wǎng)絡(luò)行為，前者應(yīng)該更有價(jià)值。那么要解釋這一切靠什么？應(yīng)該是靠某種形式的邏輯關(guān)系，這種關(guān)系可以通過(guò)語(yǔ)言表達(dá)，語(yǔ)言應(yīng)該起到橋接作用。這里的語(yǔ)言和自然語(yǔ)言有關(guān)系也有區(qū)別，可以是獨(dú)立于我們自然語(yǔ)言的，是機(jī)器自己對(duì)世界理解的語(yǔ)言。換句話說(shuō)，我們把世界的物體重新編碼起來(lái)，然后把物體和物體，物體和環(huán)境的聯(lián)系建立起來(lái)就好。有了這樣的從基本屬性到對(duì)象直至環(huán)境的關(guān)系，就有可能實(shí)現(xiàn)從知其然到知其所以然。所以我覺(jué)得未來(lái)最重要的趨勢(shì)就是從無(wú)需知識(shí)支撐的識(shí)別到需要知識(shí)支撐的理解，或者說(shuō)從單純的Bottom-up的識(shí)別到需要知識(shí)啟發(fā)的具有反饋、推理的更廣義的計(jì)算機(jī)視覺(jué)，這也是我自己這幾年特別關(guān)注的研究方向。

其次，值得關(guān)注的一個(gè)趨勢(shì)就是對(duì)空間感的有限需求。關(guān)于為什么動(dòng)物需要視覺(jué)，主要是兩方面的需求——首先要保證尋找食物和不被天敵吃掉——識(shí)別能力；其次是保證不會(huì)因?yàn)閷?duì)空間的錯(cuò)誤判斷而造成意外傷害(摔倒或者撞擊等)。視覺(jué)最重要的就是解決這兩件事情。那么為什么講對(duì)空間感的有限需求？我們的三維空間感，只是在相對(duì)比較近的時(shí)候，才需要很精確。在距離稍遠(yuǎn)一點(diǎn)的情況下，大多數(shù)時(shí)候其實(shí)不關(guān)心精確的空間位置，而可能關(guān)心一些如遮擋、順序等關(guān)系。另外，如果你試圖把一切對(duì)象都用三維來(lái)表示的話，不管是從計(jì)算的代價(jià)還是從可實(shí)現(xiàn)性來(lái)講都很難。試想恢復(fù)一個(gè)一米遠(yuǎn)處的對(duì)象，可以做得很精確，而對(duì)于一百米或者更遠(yuǎn)的對(duì)象，如果希望保持相同的量化精度，對(duì)深度值的量化就會(huì)成問(wèn)題。這就是說(shuō)的有限需求的含義，但是我覺(jué)得這件事情一定很重要，特別是在較近的時(shí)候。

第三個(gè)值得關(guān)注的趨勢(shì)就是不同模態(tài)的結(jié)合，即所謂聰明合一，人的聰明離不開(kāi)耳聰目明。這里的模態(tài)不僅僅限于視聽(tīng)覺(jué)，還可以包括不同的二維、三維的視覺(jué)傳感信息等。生物的感知從來(lái)不是僅靠單一模態(tài)的。在多模態(tài)中需要解決好的一個(gè)問(wèn)題是不同模態(tài)間的對(duì)齊與因果問(wèn)題。如果同時(shí)存在從多個(gè)模態(tài)獲取的信息，時(shí)空對(duì)齊是非常重要的挑戰(zhàn)。與時(shí)空對(duì)齊相關(guān)的另一個(gè)問(wèn)題是因果關(guān)系，雖然我們希望獲得因果，但絕大多數(shù)時(shí)候得到的僅僅是關(guān)聯(lián)，兩個(gè)現(xiàn)象之間可以是第三個(gè)因素導(dǎo)致的，如同云層間放電導(dǎo)致電閃和雷鳴，這兩件事是關(guān)聯(lián)的，但絕不是電閃導(dǎo)致雷鳴。在絕大多數(shù)情況下我更傾向于去探索關(guān)聯(lián)而不是因果，特別是在數(shù)據(jù)驅(qū)動(dòng)的模型下，離開(kāi)機(jī)理試圖發(fā)現(xiàn)因果是困難的。但在未來(lái)的計(jì)算機(jī)視覺(jué)研究中不同模態(tài)的結(jié)合和關(guān)聯(lián)是一個(gè)重要的趨勢(shì)。

第四個(gè)需要關(guān)注的趨勢(shì)是主動(dòng)視覺(jué)，所謂主動(dòng)就是在視覺(jué)系統(tǒng)中納入了反饋的機(jī)制，從而具有選擇的可能。視覺(jué)如果僅僅以獨(dú)立的形式存在，則不論是從感知所需的精度、分辨率以及處理的能力都需要成指數(shù)規(guī)模的增加，生物視覺(jué)由于有了主動(dòng)選擇的機(jī)制，因而在視野、分辨率、三維感知與能量消耗方面得到了很好的平衡。當(dāng)計(jì)算機(jī)視覺(jué)的研究不僅僅是為了驗(yàn)證某個(gè)單一的功能時(shí)，上述生物視覺(jué)的平衡一樣需要在計(jì)算機(jī)視覺(jué)系統(tǒng)中考慮，實(shí)現(xiàn)從感知、響應(yīng)到行為的閉環(huán)。從被動(dòng)感知走到主動(dòng)的感知，這是從算法到系統(tǒng)的一個(gè)重要趨勢(shì)。將視覺(jué)的“看”與“響應(yīng)”和“行為”構(gòu)成廣義的計(jì)算機(jī)視覺(jué)系統(tǒng)，通過(guò)有主動(dòng)的“行為”進(jìn)行探索，實(shí)現(xiàn)“魂”和“體”的合一。這對(duì)視覺(jué)應(yīng)用系統(tǒng)是至關(guān)重要的——例如一個(gè)經(jīng)過(guò)預(yù)訓(xùn)練的服務(wù)機(jī)器人，可以通過(guò)在新環(huán)境中的主動(dòng)探索，實(shí)現(xiàn)整體智能的提升。所以我認(rèn)為這是未來(lái)視覺(jué)應(yīng)用系統(tǒng)的重要趨勢(shì)。

我沒(méi)有講具體的算法哪些是重要的。我想說(shuō)一件事情，就是關(guān)于深度學(xué)習(xí)，我覺(jué)得未來(lái)深度學(xué)習(xí)就會(huì)像今天計(jì)算機(jī)里看到的寄存器、觸發(fā)器、存儲(chǔ)器乃至CPU一樣，成為基本構(gòu)件。關(guān)于趨勢(shì)，延續(xù)前面的劃分，計(jì)算機(jī)視覺(jué)將進(jìn)入一個(gè)知識(shí)為中心的階段。隨著深度學(xué)習(xí)的廣泛應(yīng)用，計(jì)算機(jī)視覺(jué)系統(tǒng)將不僅處理單一任務(wù)。在復(fù)雜視覺(jué)任務(wù)的處理中，主動(dòng)視覺(jué)將起到重要的作用。通過(guò)主動(dòng)的響應(yīng)和探索，構(gòu)建并完善視覺(jué)系統(tǒng)對(duì)觀察世界的關(guān)聯(lián)(因果)關(guān)系并借此理解空間對(duì)象的時(shí)空關(guān)系、物理屬性等。這算是我對(duì)今天討論問(wèn)題的個(gè)人預(yù)測(cè)。

3. 盧湖川

剛才前面兩位老師已經(jīng)提綱挈領(lǐng)的提了一些觀點(diǎn)，我可能有一些和他們是相似的。

從理論方面來(lái)講，我覺(jué)得目前深度學(xué)習(xí)的理論好像有點(diǎn)走不太動(dòng)了。具體來(lái)說(shuō)，從Backbone的發(fā)展來(lái)看，網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)，基本上沒(méi)有更多新的內(nèi)容。另一方面，某些領(lǐng)域還是比較熱門(mén)的，發(fā)展比較快。比如說(shuō)自然語(yǔ)言處理（NLP）和視覺(jué)的結(jié)合，這幾年取得了很多進(jìn)展，特別是聊天機(jī)器人等相關(guān)的實(shí)際需求，驅(qū)動(dòng)著VQA等技術(shù)都有較大的進(jìn)展。尤其是基于圖的方法和視覺(jué)結(jié)合在一起可能會(huì)越來(lái)越熱。

以知識(shí)圖譜為例，如果知道一些先驗(yàn)知識(shí)，知道一些知識(shí)圖譜的話，可能會(huì)更好的去理解圖像或者視頻。例如，給定一幅圖像，里面有一只貓和一個(gè)魚(yú)缸，貓用爪子抱住了魚(yú)缸，還盯著魚(yú)缸里面的魚(yú)，如果我們知道知識(shí)圖譜里貓和魚(yú)的關(guān)系，我們就能很好的描述出貓想吃魚(yú)缸里的魚(yú)，從而更好的幫助視覺(jué)理解圖像或視頻里目標(biāo)和目標(biāo)之間的關(guān)系。所以說(shuō)，我覺(jué)得基于圖或圖譜的方法和視覺(jué)結(jié)合在一起未來(lái)幾年會(huì)有更大的發(fā)展。

第二方面，我覺(jué)得三維視覺(jué)會(huì)繼續(xù)快速發(fā)展。從前兩年開(kāi)始冒頭，到現(xiàn)在已經(jīng)較為火爆，不僅僅局限于三維場(chǎng)景重構(gòu)等領(lǐng)域，最近基于三維視覺(jué)的檢測(cè)與分割等都有一些優(yōu)秀的工作涌現(xiàn)。隨著基于各種各樣的嵌入式設(shè)備和手機(jī)端的需求，像華為手機(jī)已經(jīng)有三個(gè)背面的攝像頭，甚至多個(gè)攝像頭（它的三個(gè)攝像頭的定義，一個(gè)是超廣角的，一個(gè)是廣角的，另外一個(gè)是高精度的攝像頭，不同的分辨率，可以更多的去模仿人的視覺(jué)方式）。由于人觀測(cè)世界本身是三維的，所以移動(dòng)端的這種大量的應(yīng)用會(huì)牽引著三維視覺(jué)在這方面越來(lái)越走向更深入的發(fā)展。

第三方面，最初我們提到深度學(xué)習(xí)時(shí)，通常都會(huì)說(shuō)手工設(shè)計(jì)的特征（handcrafted feature）有各種各樣的不好，而深度學(xué)習(xí)是一個(gè)端到端的網(wǎng)絡(luò)。實(shí)際上，深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)也是手工設(shè)計(jì)的（handcrafted）。目前，網(wǎng)絡(luò)結(jié)構(gòu)搜索NAS興起之后，我覺(jué)得在這方面可能會(huì)有更多的一些改善，能夠把一些常規(guī)的操作，包括一些常規(guī)的模塊都融入進(jìn)去，來(lái)不斷優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)而不是手工設(shè)計(jì)（handcrafted design）。我覺(jué)得未來(lái)幾年在這方面，甚至包括網(wǎng)絡(luò)結(jié)構(gòu)的壓縮和裁剪方面都會(huì)有更多的進(jìn)步。

第四方面，深度學(xué)習(xí)興起之后，我們看到誕生了一大堆的數(shù)據(jù)集，并且都是有g(shù)round truth標(biāo)注的數(shù)據(jù)，在其驅(qū)動(dòng)下，深度網(wǎng)絡(luò)達(dá)到了一個(gè)比較好的性能，目前絕大多數(shù)的數(shù)據(jù)集在性能方面基本上也趨于飽和了，但是距離實(shí)際問(wèn)題仍然有較大的距離。另一方面，人對(duì)世界的認(rèn)知基本都是小樣本學(xué)習(xí)的結(jié)果，和目前的大數(shù)據(jù)驅(qū)動(dòng)的模式不太一樣。所以能否將當(dāng)前大數(shù)據(jù)驅(qū)動(dòng)的方式和人參與的方式結(jié)合起來(lái)？現(xiàn)在也有很多這樣的論文來(lái)研究人主動(dòng)參與的或者是human in the loop的學(xué)習(xí)方式，可以把人對(duì)ground truth的主動(dòng)標(biāo)記結(jié)合起來(lái)，引導(dǎo)快速的學(xué)習(xí)，甚至把性能提高到一個(gè)更高的高度。

第五方面，視頻理解在前幾年開(kāi)始有初步的發(fā)展，特別是到這幾年有更多的需求和深入的趨勢(shì)。因?yàn)楝F(xiàn)在基于圖像的所有任務(wù)做到一定程度之后可能都做不動(dòng)了，或者說(shuō)沒(méi)有更多的花樣了，那么對(duì)視頻的各種理解越來(lái)越多，包括視頻摘要、視頻場(chǎng)景分類(lèi)、廣告識(shí)別、臺(tái)標(biāo)識(shí)別等等，很多這方面的應(yīng)用，我覺(jué)得未來(lái)幾年會(huì)有更長(zhǎng)足的發(fā)展。

我覺(jué)得在主題（topic）方面，未來(lái)會(huì)有更多的發(fā)展領(lǐng)域。隨著剛才陳老師說(shuō)到野蠻人的時(shí)代來(lái)了，大家參與視覺(jué)研究的熱情很高，不光是學(xué)術(shù)界，產(chǎn)業(yè)界對(duì)這種需求也是非常巨大的。因此我覺(jué)得目前深度學(xué)習(xí)領(lǐng)域，視覺(jué)會(huì)在各個(gè)行業(yè)縱深發(fā)展。

舉個(gè)例子，這兩天有一個(gè)公司提出這樣的一個(gè)需求，即鞋印踩上去之后，希望能識(shí)別是哪個(gè)犯罪嫌疑人來(lái)踩的，這個(gè)就是足跡識(shí)別。進(jìn)一步，他們想通過(guò)這個(gè)足跡來(lái)判斷這個(gè)鞋的鞋面是什么樣的，是什么牌子的。然后通過(guò)這些線索進(jìn)而去庫(kù)里搜索比對(duì)，搜索完了之后，再去視頻里面去找犯罪嫌疑人，即穿這種鞋的人到底是誰(shuí)。這個(gè)過(guò)程中，一步一步的從源頭開(kāi)始到后面，形成了一系列的視覺(jué)問(wèn)題，行業(yè)的這種縱深發(fā)展需求是無(wú)限巨大的。

視覺(jué)里面還有很多之前沒(méi)有想到的事情在不斷進(jìn)步，兩天前我參加了工業(yè)機(jī)器人展，看到有一個(gè)撿包裹的機(jī)器人。我們都知道快遞小哥要送了一大堆包裹，各種各樣的包裹都有，能否在包裹車(chē)?yán)瓉?lái)一車(chē)包裹后，讓機(jī)器人去分類(lèi)呢？我在展會(huì)上看到就有這么個(gè)機(jī)器人，它會(huì)自動(dòng)的去識(shí)別是什么樣的包裹，而且知道它的三維的曲面是怎么樣，因?yàn)榘诺慕嵌榷纪耆煌�，它�?huì)調(diào)整機(jī)械臂，適應(yīng)包裹的三維曲面的法線方向，去吸附它。我感覺(jué)在不同行業(yè)實(shí)際需求下，像分割、三維建模等視覺(jué)技術(shù)都會(huì)快速在各個(gè)行業(yè)里得到深入的發(fā)展。

另外，我覺(jué)得在醫(yī)療圖像方面也會(huì)有很大的進(jìn)展。醫(yī)療圖像現(xiàn)在更多的是各個(gè)疾病的檢測(cè)。昨天跟一個(gè)醫(yī)療單位在一起交流，他們提供了一個(gè)很大的平臺(tái)，它的最終目標(biāo)是通過(guò)病人的不同模態(tài)的信息，來(lái)最后綜合判斷病人到底是什么樣的病。不僅僅是關(guān)注醫(yī)學(xué)影像信息的，還有一些其他的一些檢查結(jié)果，其實(shí)是一個(gè)跨模態(tài)的融合，包括圖像標(biāo)注、病案標(biāo)注等等，他們都使得醫(yī)療圖像未來(lái)和視覺(jué)的結(jié)合會(huì)越來(lái)越緊密。

目前5G不光是速度快容量大，它其實(shí)給計(jì)算機(jī)視覺(jué)AI帶來(lái)了一個(gè)更廣闊的前景，特別是無(wú)人車(chē)方面，剛才幾位也提到了三維的地圖等。跟中國(guó)移動(dòng)交流了之后，發(fā)現(xiàn)他們的高精度地圖，可以通過(guò)5G帶寬實(shí)時(shí)傳輸，是可以看到馬路崖子這種厘米級(jí)的精細(xì)度。所以我覺(jué)得5G+AI會(huì)為我們視覺(jué)相關(guān)領(lǐng)域的發(fā)展帶來(lái)巨大的機(jī)會(huì)。以上就是我對(duì)未來(lái)5-10年視覺(jué)發(fā)展趨勢(shì)的一些理解。

4. 劉燁斌

我主要圍繞三維視覺(jué)、虛擬現(xiàn)實(shí)和人工智能的發(fā)展談點(diǎn)想法。虛擬現(xiàn)實(shí)是2016年火了之后一直發(fā)展比較平穩(wěn)。2018年習(xí)總書(shū)記有過(guò)關(guān)于虛擬現(xiàn)實(shí)的重要性的指示，虛擬現(xiàn)實(shí)技術(shù)改變了未來(lái)的交互方式，主要是這種人與環(huán)境、人與人之間的交互方式可能會(huì)變得更加自然簡(jiǎn)單，并且取代鍵盤(pán)、手機(jī)觸屏等現(xiàn)有的功能。

三維視覺(jué)的趨勢(shì)是做視覺(jué)信息的重構(gòu)，提供三維的內(nèi)容給虛擬現(xiàn)實(shí)，這個(gè)是三維重建，三維虛擬現(xiàn)實(shí)通過(guò)真實(shí)渲染能夠產(chǎn)生很多數(shù)據(jù)，為視覺(jué)問(wèn)題服務(wù)。很多視覺(jué)問(wèn)題皆有數(shù)據(jù)驅(qū)動(dòng)，數(shù)據(jù)如何得來(lái)，越來(lái)越多的部分時(shí)通過(guò)三維引擎來(lái)得到。計(jì)算機(jī)視覺(jué)的研究對(duì)象有好幾類(lèi)，室外的、室內(nèi)的、包括人體人臉還有手，還有一些醫(yī)學(xué)和生命對(duì)象。以人為本是計(jì)算機(jī)視覺(jué)的核心，所以我主要以人作為視覺(jué)研究對(duì)象，舉例說(shuō)明計(jì)算機(jī)視覺(jué)的發(fā)展趨勢(shì)。

從人為研究對(duì)象的角度，虛擬現(xiàn)實(shí)有三個(gè)目標(biāo)，也即三個(gè)I，一個(gè)Immersion，一個(gè)Interaction，一個(gè)Imagination。三者都是虛擬人（AI、機(jī)器等）和真實(shí)人之間的作用關(guān)系。首先，虛擬人在視覺(jué)外觀上是真實(shí)的，未來(lái)的虛擬人不管是真實(shí)做出來(lái)的機(jī)器人還是存儲(chǔ)在計(jì)算機(jī)中的，都有逼近真人的發(fā)展趨勢(shì)，使得交互更加友好。而這個(gè)目標(biāo)，本質(zhì)上就是人體的三維重建。第二個(gè)要素是人機(jī)的交互，虛擬人一定要能感知真實(shí)人的行為，包括手勢(shì)識(shí)別，行為識(shí)別，情緒等這樣的一些理解。最后，虛擬人需要對(duì)場(chǎng)景有反應(yīng)，能夠智能化，他能夠根據(jù)你的行為智能地做下一步的處理，保證產(chǎn)生一個(gè)真實(shí)的虛擬人。

總體來(lái)說(shuō)，虛擬現(xiàn)實(shí)的智能建模技術(shù)被列為新一代人工智能發(fā)展規(guī)劃里的八大關(guān)鍵共性技術(shù)，重點(diǎn)突破虛擬對(duì)象智能的行為建模技術(shù)，提升虛擬現(xiàn)實(shí)中智能對(duì)象行為的社會(huì)性、多樣性、交互逼真性，實(shí)現(xiàn)虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等技術(shù)與人工智能的有機(jī)結(jié)合和高效互動(dòng)。上述定義中的重點(diǎn)是行為建模，行為必須是接近人的智能的行為，才能有交互的逼真性等等。圍繞這個(gè)人體的建模，目前的目標(biāo)一個(gè)是要精準(zhǔn)的重建，第二是要規(guī)�；牟杉�，第三是要便攜式（手機(jī)單圖像也能做），第四是速度足夠快，能夠響應(yīng)交互的要求，第五就是現(xiàn)在一個(gè)大的發(fā)展趨勢(shì)，建模的結(jié)果含有語(yǔ)義信息，即語(yǔ)義化建模，包括服裝，人臉，頭發(fā)等。最后第六就是智能生成，即重建結(jié)果能真實(shí)動(dòng)畫(huà)展示�，F(xiàn)有的三維視覺(jué)重建技術(shù)很難滿足這六個(gè)方面的要求，所以圍繞這些目標(biāo)還有很多研究需要做。

人體重建主要目的之一是全息通信。這里展示微軟做的holoportation系統(tǒng)，它實(shí)現(xiàn)實(shí)時(shí)的，多相機(jī)下的人體動(dòng)態(tài)三維重建。但這個(gè)系統(tǒng)的缺點(diǎn)是，它要求具有主動(dòng)光，導(dǎo)致系統(tǒng)復(fù)雜度高，實(shí)時(shí)性和便捷性成為矛盾。實(shí)現(xiàn)實(shí)時(shí)高精度三維動(dòng)態(tài)重建，也是未來(lái)的一個(gè)學(xué)術(shù)研究趨勢(shì)。我們研制的單個(gè)深度相機(jī)實(shí)時(shí)的重建，雖然速度和便捷性都趨于完美，但精度還有待提高。單圖像人體三維重建，雖然現(xiàn)在的質(zhì)量還不算完美，但我覺(jué)得這是一個(gè)很實(shí)用的技術(shù)應(yīng)用趨勢(shì)。通過(guò)單個(gè)圖像我們就可以來(lái)簡(jiǎn)便地重建它的三維模型，未來(lái)肯定是能大放光彩的。單圖像人手動(dòng)態(tài)三維重建，通過(guò)單個(gè)RGB監(jiān)控相機(jī)就可以來(lái)實(shí)現(xiàn)實(shí)時(shí)性，可以看出三維重建輸出了語(yǔ)義信息，已經(jīng)取代了傳統(tǒng)二維計(jì)算機(jī)視覺(jué)識(shí)別問(wèn)題成為發(fā)展趨勢(shì)。

服裝產(chǎn)業(yè)占據(jù)國(guó)民生產(chǎn)總值的6%，數(shù)字化服裝是一個(gè)非常重要的計(jì)算機(jī)視覺(jué)應(yīng)用之地。這個(gè)是展示我們最新做的一些事情，通過(guò)單個(gè)視頻，可以網(wǎng)上的視頻，就能通過(guò)語(yǔ)義的建模來(lái)實(shí)現(xiàn)比較高質(zhì)量的服裝三維建模，對(duì)一些VR、AR都可以應(yīng)用，它是通過(guò)對(duì)人體和服裝的解耦，語(yǔ)義信息的加入，包括光照和紋理的解耦來(lái)實(shí)現(xiàn)。這種東西未來(lái)可以產(chǎn)生一些應(yīng)用，包括改變體型，包括增強(qiáng)現(xiàn)實(shí)的模擬，右邊就是一個(gè)互聯(lián)網(wǎng)視頻的重構(gòu)，它可以改變服裝的顏色等等。我覺(jué)得這種便攜實(shí)時(shí)的三維重建的趨勢(shì)就是從低層次的三維建模，包括體素的、網(wǎng)格的，逐漸走向高層次的三維建模，包括部件級(jí)的重建、物理信息分離、感知物理動(dòng)力學(xué)、特征空間的提取。這些高維信息能夠智能地建模和生成，響應(yīng)環(huán)境，控制和預(yù)測(cè)。包括圖形學(xué)里做的一些研究，好玩的比如能讓一個(gè)人去動(dòng)的虛擬對(duì)象的這種物理的約束，包括我們自己去爬山這種增強(qiáng)現(xiàn)實(shí)的技術(shù)也會(huì)引入進(jìn)來(lái)，把物理、智能響應(yīng)引入進(jìn)來(lái)。

最后再談?wù)劯袕V泛意義的一些動(dòng)態(tài)三維重建問(wèn)題。例如，醫(yī)療方面的比如外科手術(shù)的術(shù)野場(chǎng)景的三維感知，就是個(gè)非剛性復(fù)雜動(dòng)態(tài)場(chǎng)景的三維建模問(wèn)題。這是展示肝臟手術(shù)的視頻，能夠動(dòng)態(tài)跟蹤它的形狀，三維掃描的CT可以在動(dòng)態(tài)的場(chǎng)景下實(shí)時(shí)非剛性映射，輔助醫(yī)療和手術(shù)。

還有就是在生命科學(xué)領(lǐng)域的動(dòng)物行為三維重建，我覺(jué)得動(dòng)物是未來(lái)視覺(jué)的一個(gè)很大的可以應(yīng)用的點(diǎn)，我們叫計(jì)算行為學(xué)，也叫神經(jīng)行為學(xué)。它研究的是行為跟神經(jīng)活動(dòng)的映射關(guān)系，通過(guò)采集動(dòng)物行為數(shù)據(jù)來(lái)進(jìn)行分析。行為學(xué)上對(duì)人進(jìn)行分析非常難，因?yàn)槿说幕虿顒e非常大。但對(duì)于動(dòng)物來(lái)說(shuō)，可以做到每個(gè)小鼠基因都是一樣的，像譬如在豬、猴子上也比較容易控制一些其他的差別的因素，所以對(duì)醫(yī)療，包括基因控制都會(huì)有幫助。在Nature子刊、Nature methods、Neural Science上都有一些相關(guān)的文章。

這里面其實(shí)有很多問(wèn)題，包括群體對(duì)象自然環(huán)境下的交互，非剛性的捕捉，高層語(yǔ)義檢測(cè)，互遮擋三維恢復(fù)，時(shí)間序列分析，有很多研究發(fā)表在Nature上。動(dòng)物行為三維重建研究趨勢(shì)就是希望動(dòng)物更加自由地在實(shí)驗(yàn)環(huán)境里去生活，被記錄，藥物干預(yù)后提早發(fā)現(xiàn)行為差別。這樣的研究還是很多的，包括可以提取維度更高的特征。我們也是在做這樣一些研究，這里面有四個(gè)小豬，有兩個(gè)是有漸凍癥的，我們通過(guò)多視點(diǎn)拍攝，希望重構(gòu)三維小豬的動(dòng)作，通過(guò)重建動(dòng)作來(lái)識(shí)別漸凍癥小豬的行為特點(diǎn)，對(duì)未來(lái)的基因調(diào)控和藥物治療帶來(lái)幫助。

5. 章國(guó)鋒

幾位老師已經(jīng)從計(jì)算機(jī)視覺(jué)大的層面對(duì)未來(lái)5-10年發(fā)展趨勢(shì)做了展望，我從我熟悉的三維視覺(jué)和AR方面對(duì)未來(lái)5-10年的發(fā)展趨勢(shì)發(fā)表一下自己的看法。

我的研究方向主要是SLAM，所以我就先從SLAM的角度做一些發(fā)展趨勢(shì)的展望。我們都知道視覺(jué)SLAM是很依賴(lài)特征的，未來(lái)SLAM技術(shù)的發(fā)展趨勢(shì)必然會(huì)從以前的底層特征比如點(diǎn)、線、面，向高層特征比如語(yǔ)義、文字、物體等趨勢(shì)發(fā)展。并且，現(xiàn)在已經(jīng)有一些提取運(yùn)動(dòng)規(guī)律的工作比如人的步態(tài)規(guī)律、機(jī)器人和無(wú)人車(chē)的運(yùn)動(dòng)規(guī)則等等，來(lái)進(jìn)一步提高定位的穩(wěn)定性。

有一個(gè)趨勢(shì)是朝著多傳感器融合的方向發(fā)展，其實(shí)每個(gè)傳感器都有著它的優(yōu)點(diǎn)和缺點(diǎn)，那么最好的方法就是把這些傳感器的信息都融合起來(lái)，比如說(shuō)隨著深度相機(jī)的流行，一些手機(jī)上都安裝了深度攝像頭，還有Wifi、藍(lán)牙、地磁信號(hào)等等，把這些信號(hào)都融合起來(lái)肯定可以提升定位的穩(wěn)定性。未來(lái)還會(huì)有更多類(lèi)型的傳感器出現(xiàn)，比如這幾年新出來(lái)的事件相機(jī)、偏振相機(jī)，相信未來(lái)5-10年還會(huì)有一些新的傳感器出來(lái)。通過(guò)多傳感器融合，我相信SLAM技術(shù)會(huì)做的越來(lái)越精準(zhǔn)和魯棒。

還有一個(gè)趨勢(shì)就是隨著5G時(shí)代的到來(lái)SLAM會(huì)朝著云和端結(jié)合的趨勢(shì)發(fā)展，比如說(shuō)現(xiàn)在高精度地圖的構(gòu)建是放在云上，并且支持動(dòng)態(tài)的更新。這就很自然地涉及到移動(dòng)端上的SLAM和云上的高精度地圖如何做緊耦合，如何利用語(yǔ)義地圖的信息來(lái)更好地定位，不同終端如何協(xié)同來(lái)做SLAM。

現(xiàn)在主要是深度學(xué)習(xí)的時(shí)代，對(duì)于SLAM來(lái)說(shuō)，目前已有不少基于深度學(xué)習(xí)的工作，相信未來(lái)還會(huì)有更多這方面的工作涌現(xiàn)出來(lái)，比如如何學(xué)習(xí)一個(gè)更好的特征，如何學(xué)習(xí)更好的策略去解決SLAM中手寫(xiě)規(guī)則的困境，可能還會(huì)有做得很好的端到端的位姿學(xué)習(xí)。還有一個(gè)非常重要的就是語(yǔ)義信息的融合，比如說(shuō)，結(jié)構(gòu)的信息怎么跟語(yǔ)義信息做更好的融合，就像人眼一樣看世界。我覺(jué)得這是未來(lái)的一個(gè)發(fā)展趨勢(shì)。

以上是關(guān)于SLAM方面的。然后，三維重建，劉老師前面已經(jīng)討論得很多了，尤其是動(dòng)態(tài)場(chǎng)景的重建，我這里稍微再做一點(diǎn)補(bǔ)充。我覺(jué)得未來(lái)物體的三維掃描方面，一些便攜式、移動(dòng)式的RGBD傳感器會(huì)越來(lái)越流行，比如說(shuō)基于結(jié)構(gòu)光和ToF的深度傳感器，未來(lái)我相信還會(huì)有一些新的傳感器出現(xiàn)，可以幫助實(shí)現(xiàn)實(shí)時(shí)高效的三維重建。這里重建的不只是幾何和紋理，還包括材質(zhì)、語(yǔ)義等等�；谡掌�/視頻的三維重建技術(shù)未來(lái)幾年也還會(huì)有一些進(jìn)展，比如實(shí)現(xiàn)更高的幾何精度和紋理，能得到更細(xì)粒度的語(yǔ)義，并且結(jié)合分布式平臺(tái)的算力實(shí)現(xiàn)更高效的重建。

在大規(guī)模場(chǎng)景的三維掃描方面，目前基于相機(jī)拍攝的視頻或者照片已經(jīng)可以做到城市級(jí)場(chǎng)景的三維重建。一般都是通過(guò)無(wú)人機(jī)航拍，然后重建出來(lái)。如果進(jìn)一步結(jié)合深度傳感器（比如Lidar），相信可以實(shí)現(xiàn)更高精度的場(chǎng)景構(gòu)建。再結(jié)合分布式平臺(tái)的計(jì)算能力，實(shí)現(xiàn)整個(gè)城市甚至整個(gè)地球的完整三維地圖的重建將不是問(wèn)題。當(dāng)然只是靜態(tài)場(chǎng)景的重建還不算太難，更難的是怎么實(shí)現(xiàn)動(dòng)態(tài)物體的重建和場(chǎng)景的動(dòng)態(tài)更新，因?yàn)檎鎸?shí)的世界不是靜態(tài)的，而是動(dòng)態(tài)變化的。我覺(jué)得未來(lái)可能會(huì)通過(guò)相對(duì)低成本比如多傳感器融合的方式來(lái)實(shí)現(xiàn)四維的場(chǎng)景地圖的動(dòng)態(tài)更新。包括前面講的通過(guò)三維掃描獲得的物體模型可以注冊(cè)到真實(shí)世界的三維地圖中，來(lái)實(shí)現(xiàn)三維信息的共享和傳遞。

然后，我想談一下識(shí)別和重建的關(guān)系。識(shí)別和重建未來(lái)5到10年會(huì)往更深層次的融合。目前三維重建基本上是bottom-up的方式，對(duì)先驗(yàn)知識(shí)的利用不夠充分，未來(lái)5-10年可能會(huì)誕生top-down的方式，比如說(shuō)先識(shí)別后重建，或者兩者同步進(jìn)行。識(shí)別能夠提供更高層次的結(jié)構(gòu)先驗(yàn)，反過(guò)來(lái)重建能夠幫助做更好的物體識(shí)別，因此未來(lái)會(huì)更加緊密的融合。另外，也還需要深度學(xué)習(xí)和幾何優(yōu)化算法的融合，才能最終構(gòu)建出兼具幾何外觀、語(yǔ)義信息、結(jié)構(gòu)化的、可動(dòng)態(tài)更新的3D場(chǎng)景表示。

另外，因?yàn)槲冶救艘恢痹谧鯝R方面的應(yīng)用，所以也想談一下關(guān)于AR/VR、AI和三維視覺(jué)協(xié)同發(fā)展的趨勢(shì)。其實(shí)AR主要是AI和三維視覺(jué)的應(yīng)用。這三者如果能夠緊密協(xié)同發(fā)展，那么我相信未來(lái)五到十年就可以實(shí)現(xiàn)一個(gè)地球級(jí)的現(xiàn)實(shí)世界的數(shù)字化。左邊這個(gè)圖是華為前不久提出的Cyberverse數(shù)字現(xiàn)實(shí)技術(shù)，它主要是通過(guò)相機(jī)、Lidar等傳感器對(duì)真實(shí)世界進(jìn)行掃描并構(gòu)建高精度地圖，然后基于高精度地圖來(lái)實(shí)現(xiàn)室內(nèi)外精準(zhǔn)的定位和導(dǎo)航以及各種AR效果。Cyberverse實(shí)際上也不是一個(gè)完全新的概念，Magic Leap在2018年就提出過(guò)類(lèi)似的概念Magicverse，旨在將大規(guī)模物理世界和數(shù)字世界持續(xù)地融合在一起。如右圖所示，Magicverse包括好幾個(gè)層，主要兩種類(lèi)型，一類(lèi)是叫做基礎(chǔ)層（包含物理世界和數(shù)字世界），還有一類(lèi)叫空間應(yīng)用層�；A(chǔ)層最底下是物理世界，然后在物理世界上構(gòu)造一個(gè)對(duì)應(yīng)的數(shù)字世界，然后再上面就是空間應(yīng)用層，包括流動(dòng)性、能源與水、健康與保健、通訊、娛樂(lè)等。

要實(shí)現(xiàn)這樣一個(gè)數(shù)字化的現(xiàn)實(shí)世界，最關(guān)鍵的一點(diǎn)就是對(duì)物理世界進(jìn)行三維數(shù)字化，也就是如何對(duì)高精度地圖進(jìn)行采集、構(gòu)建和更新。我相信未來(lái)必然是朝著多模態(tài)、多傳感器采集和融合的方式發(fā)展，因?yàn)槊總€(gè)傳感器都有著它的優(yōu)點(diǎn)和缺點(diǎn)，需要融合互補(bǔ)。這里最難的問(wèn)題可能是怎么進(jìn)行動(dòng)態(tài)更新。我相信眾包式的采集和更新是實(shí)現(xiàn)這個(gè)目標(biāo)的有效方式，可以實(shí)現(xiàn)低成本、高頻次的更新。高精度地圖除了三維還應(yīng)該包括語(yǔ)義信息，因此語(yǔ)義信息的提取也是非常重要的，而且需要滿足不同應(yīng)用的語(yǔ)義信息，比如說(shuō)定位、AR/VR的展示、行為分析等等。這就要實(shí)現(xiàn)不同粒度語(yǔ)義信息的提取，這里面的粒度可以大到整個(gè)商場(chǎng)，再到一個(gè)門(mén)店，再小一點(diǎn)就是一個(gè)商品。除了物理世界的三維數(shù)字化，還需要對(duì)人的行為進(jìn)行數(shù)字化，運(yùn)動(dòng)行為、消費(fèi)的行為、社交行為等等。

對(duì)于這樣構(gòu)建的人的行為也好、三維空間也好，再結(jié)合SLAM、AR技術(shù)，我們可以實(shí)現(xiàn)地球級(jí)的AR應(yīng)用。當(dāng)然，這里首先需要解決云端的高精度地圖怎么與終端SLAM緊耦合，這樣才能夠?qū)崿F(xiàn)長(zhǎng)時(shí)間大范圍的精準(zhǔn)定位和高品質(zhì)虛實(shí)融合。松耦合模式會(huì)有一些缺陷，誤差累積會(huì)很快，穩(wěn)定性也不夠好。基于這樣的一種方式，我們可以實(shí)現(xiàn)室內(nèi)外的分米級(jí)甚至到厘米級(jí)的定位和導(dǎo)航。

另外，我們知道5G時(shí)代很快就要到來(lái)了。目前的AR計(jì)算還主要是在終端，比如手機(jī)、AR眼鏡等。未來(lái)有5G的情況下很多計(jì)算都可以放到云或邊上，對(duì)終端的計(jì)算要求相對(duì)弱化，終端未來(lái)更多的是提供數(shù)據(jù)采集、連接和顯示的能力。因?yàn)橛性贫怂懔Φ募映郑咂焚|(zhì)的AR效果可以得以實(shí)現(xiàn)，比如高逼真的物理效果模擬，準(zhǔn)確的遮擋效果和虛實(shí)交互，精準(zhǔn)的光照估計(jì)和電影級(jí)的真實(shí)感繪制與虛實(shí)融合效果就成為可能。在5G時(shí)代，一方面?zhèn)鬏斔俣确浅？�，另一方面有云端算力加持，未�?lái)應(yīng)用APP甚至都不要預(yù)裝，我們打開(kāi)一個(gè)APP就像在瀏覽器上輸入網(wǎng)址或電視機(jī)上切換頻道一樣便捷。

以上是我對(duì)三維視覺(jué)和AR方面未來(lái)發(fā)展趨勢(shì)的看法，供大家參考。

三、專(zhuān)家討論發(fā)言

謝曉華：

我感覺(jué)我們是不是忽略了一點(diǎn)，就是硬件發(fā)展。例如我們之前做超分辨率，做了很多，但是后來(lái)高清相機(jī)一出來(lái)，很多工作就白做了。那會(huì)不會(huì)在未來(lái)的十年范圍內(nèi)視覺(jué)傳感器這一塊會(huì)有比較大的突破，然后剛才提到的一些工作就沒(méi)有必要去做了。

林宙辰：

我想說(shuō)一說(shuō)什么樣的計(jì)算體系適合做計(jì)算機(jī)視覺(jué)？現(xiàn)在我們都是基于馮諾依曼體系，但是人的視覺(jué)處理過(guò)程跟馮諾依曼體系有很大的差別。如果是在新型的計(jì)算平臺(tái)上面，是不是很多計(jì)算機(jī)視覺(jué)的問(wèn)題能更好或更高效的解決，我覺(jué)得是可以探討的。另外一個(gè)，我贊成主動(dòng)視覺(jué)和在線學(xué)習(xí)。我覺(jué)得現(xiàn)在的視覺(jué)系統(tǒng)觸碰到了一點(diǎn)是，每個(gè)人都是from scratch，這樣的話精力有限你就只能做一個(gè)非常簡(jiǎn)單的任務(wù)。我覺(jué)得將來(lái)可以做一個(gè)像wiki一樣的項(xiàng)目，全世界都可以貢獻(xiàn)，這樣的話大家都在共同構(gòu)建一個(gè)統(tǒng)一的系統(tǒng)，而且這個(gè)系統(tǒng)可以利用網(wǎng)絡(luò)上的所有數(shù)據(jù)，可以自我進(jìn)化（evolution）。然后這個(gè)系統(tǒng)大家都可以公用，這樣就可以解決每個(gè)人的系統(tǒng)不停的從頭學(xué)習(xí)的問(wèn)題，因?yàn)閱蝹€(gè)人做的話只能做很小的一部分。

林倞：

我想談一談關(guān)于benchmark或者關(guān)于AI的評(píng)價(jià)系統(tǒng)或者CV評(píng)價(jià)系統(tǒng)的好壞的基準(zhǔn)。因?yàn)槲艺J(rèn)為我們很多的研究是受這個(gè)基準(zhǔn)所驅(qū)動(dòng)的，或者說(shuō)是跟這個(gè)benchmark是相互驅(qū)動(dòng)的。現(xiàn)在CV的趨勢(shì)是融合、協(xié)同等，那么未來(lái)我們可能會(huì)需要一種新的評(píng)價(jià)體系來(lái)看CV的狀況，可能不需要在一個(gè)特別的識(shí)別問(wèn)題或者分割問(wèn)題上達(dá)到特別高的精度，但是我們同時(shí)接入理解、分析、可解釋性等，這樣才能評(píng)價(jià)一個(gè)AI或者CV系統(tǒng)的魯棒性，更像人一樣的而不是把它歸類(lèi)為一個(gè)分類(lèi)問(wèn)題或者重建問(wèn)題，我覺(jué)得這個(gè)可能是我們要很具體的去討論和去發(fā)現(xiàn)的問(wèn)題。

山世光：

我們討論十年后視覺(jué)可以發(fā)展到一個(gè)什么樣的水平，可是我們并沒(méi)有定義清楚，我們?cè)撊绾螐目傮w上度量視覺(jué)智能的進(jìn)步，比如說(shuō)現(xiàn)在視覺(jué)智能水平是60分，十年后我們可以做到80分，這個(gè)沒(méi)有明確的標(biāo)準(zhǔn)。包括什么是視覺(jué)理解、圖像理解，怎么定義呢？比如我們做人臉識(shí)別，很清楚，就是以某個(gè)數(shù)據(jù)庫(kù)上的識(shí)別率為準(zhǔn)。可是作為一個(gè)general的視覺(jué)我們好像沒(méi)有這樣的一個(gè)標(biāo)準(zhǔn)。

另外，作為一個(gè)標(biāo)準(zhǔn)的benchmark的角度來(lái)說(shuō)的話，是不是人的視覺(jué)也是分兩種，一種是通用的視覺(jué)，一種是專(zhuān)用的視覺(jué)。比如我們普通人看不懂醫(yī)療影像但專(zhuān)業(yè)醫(yī)師就可以，但是我們都有通用的視覺(jué)的能力。這兩類(lèi)視覺(jué)實(shí)現(xiàn)的路徑是一樣的還是不一樣的？

還有一個(gè)就是剛才提到的十年后我們可能把地球都數(shù)字化了，但是這個(gè)數(shù)字話不見(jiàn)得是個(gè)簡(jiǎn)單的數(shù)字化，比如是地圖化的，那地圖化的話對(duì)我們做視覺(jué)的有什么樣的幫助呢？我覺(jué)得是不是類(lèi)似于出現(xiàn)了一個(gè)視覺(jué)智能測(cè)試的“靶場(chǎng)”，我們的很多東西都可以在這個(gè)“靶場(chǎng)”里去測(cè)試。例如很多做自動(dòng)駕駛的系統(tǒng)初步的訓(xùn)練都是用的合成的模擬數(shù)據(jù)。那么也許我們有了一個(gè)很好的關(guān)于地球的數(shù)字化模擬的時(shí)候，我們就有了一個(gè)很好的視覺(jué)的“靶場(chǎng)”，這個(gè)“靶場(chǎng)”既可以做訓(xùn)練也可以做測(cè)試。

此外，要不要做視覺(jué)常識(shí)？大家都在說(shuō)知識(shí)，我覺(jué)得知識(shí)這個(gè)體系如果沒(méi)有常識(shí)，感覺(jué)有些空中樓閣。我們做視覺(jué)先得有視覺(jué)常識(shí)，有常識(shí)才有可能有所謂的理解，我不知道是否正確，我覺(jué)得這個(gè)問(wèn)題可以討論。

陳熙霖：

關(guān)于理解的評(píng)價(jià)問(wèn)題，我們可以想想人是怎么做的。對(duì)于人類(lèi)形成體系的知識(shí)我們確實(shí)有benchmark，確實(shí)有考題。可是對(duì)人類(lèi)探索中的知識(shí)是沒(méi)有考題的。大家理解的知識(shí)最后形成一個(gè)公共認(rèn)可的交集，最后逐步拓展。所以，我個(gè)人認(rèn)為在未來(lái)的推動(dòng)理解的研究中，benchmark不能沒(méi)有，但是不能唯Benchmark。如果說(shuō)過(guò)去近30年中Benchmark推動(dòng)了計(jì)算機(jī)視覺(jué)的發(fā)展，今天可能成為束縛了計(jì)算機(jī)視覺(jué)發(fā)展的一個(gè)因素。我經(jīng)常跟學(xué)生為此爭(zhēng)論，一些學(xué)生認(rèn)為離開(kāi)可評(píng)測(cè)數(shù)據(jù)集的工作就不是研究。而對(duì)真正智能的研究可能就是沒(méi)有Benchmark——沒(méi)有最聰明，只有更聰明。對(duì)于場(chǎng)景理解一類(lèi)的任務(wù)而言，一個(gè)機(jī)器可能發(fā)掘出100組關(guān)系，另一個(gè)機(jī)器可能發(fā)掘出300組關(guān)系，那后者的理解能力可能就超越了前者，如果前者的關(guān)系是后者的真子集，那后者就一定具有更強(qiáng)的理解能力。當(dāng)然更多的是兩者可能具有互補(bǔ)性，如同人類(lèi)的三人行必有我?guī)煛?

第二件事情是說(shuō)通用視覺(jué)與專(zhuān)用視覺(jué)，我的觀點(diǎn)是對(duì)于醫(yī)療判讀這類(lèi)的所謂專(zhuān)用視覺(jué)其實(shí)遠(yuǎn)遠(yuǎn)超越了視覺(jué)本身，它不僅僅是視覺(jué)，醫(yī)生的判斷是在視覺(jué)現(xiàn)象基礎(chǔ)上的知識(shí)/邏輯推理。

胡占義：

這個(gè)觀點(diǎn)我有點(diǎn)不大同意。我最近十多年一直在研究生物視覺(jué)，視覺(jué)絕不是說(shuō)就是感知，視覺(jué)包含認(rèn)知。僅僅視覺(jué)物體識(shí)別這個(gè)具體問(wèn)題，人類(lèi)就有約三分之一的大腦皮層參與。當(dāng)然，某個(gè)大腦皮層區(qū)域參與視覺(jué)問(wèn)題，絕不能說(shuō)該皮層就是視覺(jué)皮層。大腦的大多數(shù)高級(jí)皮層，都在于加工多種感覺(jué)信息融合后的信息，進(jìn)行認(rèn)知決策和行為規(guī)劃。所以說(shuō)視覺(jué)問(wèn)題，它涉及真?zhèn)€大腦，包括皮層和皮下組織的聯(lián)合加工，絕不是完全由大腦的視覺(jué)皮層完成。視覺(jué)皮層是指主要對(duì)視覺(jué)信息進(jìn)行加工的皮層，很多皮層參與視覺(jué)信息加工，但不是視覺(jué)皮層。

我先說(shuō)第一個(gè)觀點(diǎn)，人的視覺(jué)和計(jì)算機(jī)視覺(jué)是有區(qū)別的，如果說(shuō)把人類(lèi)視覺(jué)的腦加工機(jī)制完全解釋清楚，我覺(jué)得和搞清楚宇宙起源的難度沒(méi)有區(qū)別，我研究了差不多十五六年生物視覺(jué)，據(jù)我所知，神經(jīng)科學(xué)領(lǐng)域目前對(duì)視覺(jué)V1區(qū)研究的比較清楚，V2區(qū)已不太清楚，更不用后面的V4和IT區(qū),以及前額葉（PFC）等高級(jí)皮層。視覺(jué)問(wèn)題處理基本涉及到大腦皮層的各個(gè)區(qū)域。所以說(shuō)研究計(jì)算機(jī)視覺(jué)我覺(jué)得我們要弄清楚到底什么是計(jì)算機(jī)視覺(jué)，什么是計(jì)算機(jī)視覺(jué)的核心科學(xué)問(wèn)題，我們不能夠把什么東西都往上加。我覺(jué)得我們要好好討論討論，五到十年內(nèi)我們到底主要是研究視覺(jué)感知還是視覺(jué)認(rèn)知？如果研究視覺(jué)認(rèn)知那是一萬(wàn)年的事。我目前不怎么研究計(jì)算機(jī)視覺(jué)了，我主要關(guān)注生物視覺(jué)了，也許我說(shuō)的不對(duì)，但我覺(jué)得大家還是聚焦一些，目標(biāo)可實(shí)現(xiàn)一些。

我們討論五到十年的計(jì)算機(jī)視覺(jué)研究方向，不是指具體的算法，我們十年前也不知道深度學(xué)習(xí)能達(dá)到今天這樣的一個(gè)高度，我們要討論到底哪些方向是值得研究的，我自己覺(jué)得有三個(gè)需要關(guān)注的方向：1.基于神經(jīng)生理的計(jì)算機(jī)視覺(jué)，估計(jì)在五到十年以?xún)?nèi)是一個(gè)重大方向；2.視頻理解；3.涉及中國(guó)特色的全球戰(zhàn)略相關(guān)的視覺(jué)研究：如衛(wèi)星數(shù)據(jù)理解（全球戰(zhàn)略），深海水下視覺(jué)信息處理（深海戰(zhàn)略）。

紀(jì)榮嶸：

我自己覺(jué)得我從博士畢業(yè)到現(xiàn)在大概10年的時(shí)間，我認(rèn)為計(jì)算機(jī)視覺(jué)是遠(yuǎn)遠(yuǎn)超過(guò)了我當(dāng)時(shí)讀書(shū)時(shí)的任何方向，比如說(shuō)自然語(yǔ)言理解，信息檢索等等。我覺(jué)得一個(gè)重要的原因是深度學(xué)習(xí)帶來(lái)的收獲。但另一個(gè)方面，我們的這些系統(tǒng)太大太厚重，有沒(méi)有可能把這個(gè)系統(tǒng)做的小一些，做的開(kāi)銷(xiāo)更小一些，這里面有幾個(gè)維度。大家能馬上想到的維度就是把系統(tǒng)做小，做小就可以把它放到端上，放到嵌入式設(shè)備上。

第二個(gè)就是把系統(tǒng)做快，現(xiàn)在自動(dòng)駕駛或者端上的設(shè)備的計(jì)算，有可能需要系統(tǒng)處理數(shù)據(jù)要遠(yuǎn)遠(yuǎn)快于實(shí)時(shí)。

第三點(diǎn)，現(xiàn)在我們很多時(shí)候都是在做單點(diǎn)的系統(tǒng)，每個(gè)攝像機(jī)執(zhí)行的功能都是一個(gè)完整的閉環(huán)，花了很多的計(jì)算代價(jià)做了很多重復(fù)的事情，未來(lái)的視覺(jué)系統(tǒng)有沒(méi)有可能由點(diǎn)到面進(jìn)行大范圍系統(tǒng)之間的協(xié)同。就是說(shuō)有沒(méi)有可能由專(zhuān)到廣的，為什么是由專(zhuān)到廣，現(xiàn)在每個(gè)模型只能解決一個(gè)任務(wù)，為了解決目標(biāo)識(shí)別用的是目標(biāo)識(shí)別的模型，為了解決語(yǔ)義分割用的是語(yǔ)義分割的模型，為了解決人臉而用人臉的模型，我覺(jué)得我們的人腦并沒(méi)有分得那么清楚。one by one或者 1 v 1的我個(gè)人感覺(jué)太消耗資源了，有沒(méi)有可能有一種更靈活的機(jī)制，網(wǎng)絡(luò)結(jié)構(gòu)可以由不同的形式組合在一起，比如說(shuō)一套模型的backbone，它往上的話既可以做識(shí)別又可以做分割還可以檢索，還可以做相關(guān)的理解。這樣的話就可以把整個(gè)計(jì)算量給降下來(lái)。我相信人類(lèi)進(jìn)化到現(xiàn)在這個(gè)階段，我們用我們的大腦實(shí)現(xiàn)了多任務(wù)的，高效能的，并行而且只占用極小的存儲(chǔ)開(kāi)銷(xiāo)，我們每天只用吃三碗米飯，我們能完成這個(gè)計(jì)算機(jī)系統(tǒng)消耗多少的計(jì)算量來(lái)完成的事情。

第四個(gè)觀點(diǎn)，我覺(jué)得我們的系統(tǒng)現(xiàn)在“吃”數(shù)據(jù)“吃”的太厲害。我覺(jué)得我們?nèi)祟?lèi)自身真的沒(méi)有用到這么多的數(shù)據(jù)進(jìn)行學(xué)習(xí)，我們用了大量的數(shù)據(jù)復(fù)用，比如說(shuō)我識(shí)別消防車(chē)，只需要在車(chē)子上加一些特殊的部件，我就能識(shí)別消防車(chē)，我們?nèi)耸呛苤悄艿�。但是我們現(xiàn)在的計(jì)算機(jī)系統(tǒng)太吃這些硬性的資源，所以我覺(jué)得在計(jì)算資源的消耗上和訓(xùn)練數(shù)據(jù)消耗上我們也應(yīng)該探索更多的機(jī)制。

然后，從我自己的感受來(lái)說(shuō)，過(guò)去的時(shí)間我們看到世界往前發(fā)展，我特別希望未來(lái)的五到十年里面，計(jì)算機(jī)視覺(jué)的發(fā)展是由我們中國(guó)的學(xué)者去引領(lǐng)的，因?yàn)槲覀儸F(xiàn)在有巨量的市場(chǎng)，這個(gè)市場(chǎng)有我們能馬上可以看到的技術(shù)痛點(diǎn)，這痛點(diǎn)就在我們身邊，應(yīng)該是我們來(lái)做，而不是讓外國(guó)人來(lái)做我們的痛點(diǎn)，我們應(yīng)該去引領(lǐng)它，所以我覺(jué)得未來(lái)的五到十年有很多是我們這些中國(guó)計(jì)算機(jī)視覺(jué)的學(xué)者應(yīng)該去做的事情。

林宙辰：

在手機(jī)上要越做越小，我覺(jué)得這不是正確的方向。將來(lái)的視覺(jué)系統(tǒng)應(yīng)該越做越大，不是越做越小。所有的運(yùn)算通過(guò)5G放在云上面運(yùn)算是未來(lái)的一個(gè)趨勢(shì)。我們大家都在云端上建立一個(gè)大系統(tǒng)，這樣的話能夠解決多樣性的問(wèn)題。因?yàn)橐靡粋€(gè)小系統(tǒng)來(lái)解決各種各樣的問(wèn)題，我覺(jué)得這個(gè)概率上講是不可能的，就是要建立一個(gè)跟人腦一樣復(fù)雜的一個(gè)系統(tǒng)，它才能夠解決各式各樣的問(wèn)題，這個(gè)系統(tǒng)肯定只能放在云上面，手機(jī)端愿意多算就多，少算就少算，不要把所有的計(jì)算都擠到一個(gè)小的手機(jī)上面來(lái)。

紀(jì)榮嶸：

我覺(jué)得不一定完全正確。我覺(jué)得端上可以做一些輕量級(jí)的計(jì)算，云上做更重量的計(jì)算。而且端上的計(jì)算可以使數(shù)據(jù)的傳輸由重量級(jí)變輕量級(jí)。比如說(shuō)原來(lái)傳圖像，現(xiàn)在可以只傳特征，原來(lái)要傳所有的區(qū)域，現(xiàn)在只要傳特定的區(qū)域。因?yàn)槭謾C(jī)只用作攝像設(shè)備感覺(jué)太浪費(fèi)了，手機(jī)其實(shí)是一個(gè)很好的計(jì)算設(shè)備。

林宙辰：

我們并不矛盾。我是說(shuō)想在手機(jī)上解決所有的問(wèn)題這一點(diǎn)我是反對(duì)的。一開(kāi)始你說(shuō)要在手機(jī)上做小網(wǎng)絡(luò)這個(gè)東西，肯定是越小功能越差。

胡占義：

對(duì)于這個(gè)問(wèn)題我提個(gè)建議，5G對(duì)我們計(jì)算機(jī)視覺(jué)影響有多大，其實(shí)就是小終端和大終端的問(wèn)題。如果5G網(wǎng)絡(luò)很快，終端干脆就可以很小，不需要在這里處理，直接放到云上。我覺(jué)得5G對(duì)計(jì)算機(jī)視覺(jué)的影響確實(shí)要好好理解。

王亦洲：

你倆說(shuō)的沒(méi)有矛盾，在專(zhuān)業(yè)任務(wù)上一定要壓縮。處理是與任務(wù)相關(guān)的，只要滿足任務(wù)的需求就行。視覺(jué)是一個(gè)ill-defined problem。什么是視覺(jué)這個(gè)概念太大了，但如果局限到圖像，又太小了。所以怎么去把握它呢？我們丟這個(gè)陣地，就丟在了問(wèn)題的復(fù)雜度上面�，F(xiàn)在已經(jīng)被深度學(xué)習(xí)占領(lǐng)了，我們?cè)倨恋睦碚�、性能都不行�?然后我們丟在哪兒了呢？視覺(jué)問(wèn)題是不是深度學(xué)習(xí)就解決了？視覺(jué)并不僅僅是一個(gè)學(xué)習(xí)問(wèn)題，剛才說(shuō)視覺(jué)可以很大，它可以是個(gè)認(rèn)知的問(wèn)題，top-down、bottom-up、然后各種任務(wù),我們定義的視覺(jué)問(wèn)題的復(fù)雜度不夠，系統(tǒng)的復(fù)雜度也不夠。所以我們要把系統(tǒng)的復(fù)雜度給加上去，把任務(wù)的復(fù)雜度也加上去，但是在每個(gè)具體的專(zhuān)項(xiàng)的任務(wù)上面, 我們要盡量讓它簡(jiǎn)潔（compact）, 讓它適合于任務(wù)（fit for task）就夠, 所以怎么去拿回這個(gè)陣地，我覺(jué)得要在這兩方面，復(fù)雜度上面加大，然后才能夠有可能把這個(gè)視覺(jué)的東西給拿回來(lái)。但視覺(jué)其實(shí)不單單是視覺(jué)問(wèn)題，應(yīng)該是視覺(jué)主導(dǎo)的任務(wù)完成的一個(gè)問(wèn)題。所以，以后CVPR它有沒(méi)有存在的意義，或者說(shuō)是不是還是那個(gè)趨之若鶩的東西都不一定。

山世光：

我們值得討論的問(wèn)題是，怎么撇清計(jì)算機(jī)視覺(jué)與機(jī)器學(xué)習(xí)的關(guān)系？我們?cè)谖磥?lái)幾年是不是就認(rèn)慫了，是不是計(jì)算機(jī)視覺(jué)的問(wèn)題就是機(jī)器學(xué)習(xí)的問(wèn)題。這個(gè)我覺(jué)得我們年輕人還是特別困惑，比如說(shuō)有什么問(wèn)題是機(jī)器學(xué)習(xí)肯定搞不定，只能靠計(jì)算機(jī)視覺(jué)理論和方法來(lái)去搞定的呢？

陳熙霖：

是現(xiàn)在很多東西都被劃到機(jī)器學(xué)習(xí)了�？梢詫�(duì)比一下30年前機(jī)器學(xué)習(xí)的書(shū)和30年前模式識(shí)別的書(shū)，再拿今天機(jī)器學(xué)習(xí)和模式識(shí)別的書(shū)，看差別就行。

胡占義：

我覺(jué)得機(jī)器學(xué)習(xí)這個(gè)東西，是一種手段，它可以用于計(jì)算機(jī)視覺(jué)，也可以用于自然語(yǔ)言處理。模式識(shí)別和數(shù)學(xué)沒(méi)有區(qū)別，我比較理想，我覺(jué)得一個(gè)是一種解釋手段，一個(gè)是說(shuō)要解決什么科學(xué)問(wèn)題。

王井東：

接著剛才山老師提到這個(gè)問(wèn)題�，F(xiàn)在計(jì)算機(jī)視覺(jué)這么火，有多少是機(jī)器學(xué)習(xí)能做出來(lái)的東西。像alexnet也是做視覺(jué)問(wèn)題，其實(shí)根本沒(méi)必要擔(dān)心。我自己也做過(guò)機(jī)器學(xué)習(xí)，可以舉個(gè)例子，早先做過(guò)加速、大規(guī)模等，在Matlab上面做，這怎么能證明這是個(gè)大規(guī)模的問(wèn)題，所以說(shuō)同樣根本不用擔(dān)心這個(gè)問(wèn)題。

剛才討論到一個(gè)問(wèn)題，就是說(shuō)計(jì)算機(jī)視覺(jué)5到10年怎么走�，F(xiàn)在遇到一個(gè)狀況，不管是中國(guó)還是美國(guó)，今年年視覺(jué)方向的工作機(jī)會(huì)（opening）特別少，從2012起視覺(jué)火了8年，應(yīng)該怎么繼續(xù)走。計(jì)算機(jī)行業(yè)外的人給予CV很高的期望，比如超越人類(lèi)。其實(shí)這件事情不靠譜，根本沒(méi)有超越人類(lèi)。但是不做計(jì)算機(jī)視覺(jué)的人總覺(jué)得計(jì)算機(jī)視覺(jué)的人應(yīng)該做些什么東西。但是現(xiàn)在到這個(gè)階段，也許這跟當(dāng)年神經(jīng)網(wǎng)絡(luò)一樣，像過(guò)街老鼠一樣，說(shuō)計(jì)算機(jī)視覺(jué)的人吹牛皮。其實(shí)不是我們吹得，是別人吹的。我們要思考，我們視覺(jué)如果繼續(xù)往前走，科學(xué)研究方面是一個(gè)問(wèn)題，另一方面是如何去得到持續(xù)關(guān)注真正做一些能夠work的系統(tǒng)出來(lái)。盡管我們今天已經(jīng)在很多方面做得不錯(cuò)，但坦白來(lái)講還沒(méi)真正work。計(jì)算機(jī)視覺(jué)是不是應(yīng)該純粹從視覺(jué)的角度解決，其實(shí)多模態(tài)是一個(gè)很好的方向，單單靠視覺(jué)這一點(diǎn)，在監(jiān)控系統(tǒng)里面還是很大的一個(gè)問(wèn)題。從方向上來(lái)講我比較看好多模態(tài)這個(gè)方向。

王濤：

關(guān)于未來(lái)計(jì)算機(jī)視覺(jué)發(fā)展的趨勢(shì)很多。我感覺(jué)一個(gè)最重要的趨勢(shì)應(yīng)該是主動(dòng)視覺(jué)。Imagenet競(jìng)賽能識(shí)別很多的物體，但是圖像分類(lèi)真正在實(shí)際場(chǎng)景中就不管用。真正管用的是基于物體檢測(cè)，然后再進(jìn)行識(shí)別的像人臉識(shí)別這種技術(shù)。為什么人臉識(shí)別成功了，圖像分類(lèi)系統(tǒng)還不成熟。輸入一張圖像，你必須得按不同的區(qū)域不同的粒度進(jìn)行分析，比如在會(huì)場(chǎng)我們拍張照片，識(shí)別人，那我們?nèi)?shù)人頭。但是如果要識(shí)別投影儀設(shè)備，必須定位到這個(gè)投影儀圖像才能找到。第二個(gè)問(wèn)題是投影儀的信息有多種層次，比如說(shuō)有人想知道牌子，那你必須再細(xì)看到那個(gè)Logo，但是另外有人想知道怎么操作這個(gè)投影儀，那你必須得識(shí)別它的各種接口，你才能把它的功能識(shí)別出來(lái)。我感覺(jué)最近的Imagenet和ActivityNet行為識(shí)別競(jìng)賽，大家現(xiàn)在做的這兩類(lèi)競(jìng)賽都是用圖像分類(lèi)的競(jìng)賽做。用圖像分類(lèi)做競(jìng)賽，實(shí)際中都不能用，為什么呢？它沒(méi)有像人一樣主動(dòng)去識(shí)別，你得看到這個(gè)人，看到那個(gè)人真正發(fā)生動(dòng)作的那一幀，這才能把它識(shí)別出來(lái)，所以我感覺(jué)主動(dòng)是非常重要的。

第二個(gè)，要有層次。層次就是不僅要識(shí)別出一些基本的要素，還要把里面的不同層次關(guān)系能夠結(jié)構(gòu)化的提取出來(lái)。我們實(shí)驗(yàn)發(fā)現(xiàn)把東西拿在一起學(xué)的效果會(huì)很差，但是如果把這個(gè)東西分成兩個(gè)部分，先固定解碼器學(xué)編碼器，然后再固定編碼器學(xué)解碼器，系統(tǒng)就學(xué)出來(lái)了。我們的學(xué)習(xí)得有一些像搭積木一樣的層次，先把基本的比如人臉、水杯、花識(shí)別出來(lái)，然后拍一張照片能把物體之間的關(guān)系給識(shí)別出來(lái)。

第三個(gè)，應(yīng)該怎么研究。視覺(jué)研究很廣，想要做成功，得針對(duì)具體的應(yīng)用。人臉識(shí)別系統(tǒng)很成熟，但是用在自動(dòng)駕駛上識(shí)別行人就不行，得一類(lèi)一類(lèi)來(lái)，在不同應(yīng)用場(chǎng)景中，需要看到不同的數(shù)據(jù)和不同的性質(zhì)。所以我認(rèn)為針對(duì)具體應(yīng)用，未來(lái)除了在深度學(xué)習(xí)基礎(chǔ)上主動(dòng)視覺(jué)，發(fā)揮層次融合推理應(yīng)該是一個(gè)比較好的趨勢(shì)。

胡占義：

我覺(jué)得主動(dòng)視覺(jué)很重要，但5-10年主動(dòng)視覺(jué)不可能取得巨大進(jìn)展。這涉及到生物里面反饋（feedback）的高層知識(shí)，但反饋很難短期內(nèi)取得進(jìn)展。關(guān)于視覺(jué)的目的1994年CVGIP組織了一個(gè)專(zhuān)刊，曾經(jīng)有過(guò)一個(gè)辯論。從1994年到現(xiàn)在，可以說(shuō)主動(dòng)視覺(jué)沒(méi)有任何的進(jìn)展。在生物神經(jīng)系統(tǒng)里面有大量的反饋，但不知道反饋是什么東西。如果神經(jīng)科學(xué)很難給出一點(diǎn)啟示的話，那么我們計(jì)算機(jī)視覺(jué)就很難把它做成。這是我的一點(diǎn)個(gè)人觀點(diǎn)。

王濤：

我覺(jué)得以前主動(dòng)視覺(jué)不成功是因?yàn)檠芯糠椒ú粚?duì)和技術(shù)限制。

胡占義：

Recurrent有兩個(gè)，一個(gè)是同層的抑制，一個(gè)是高層的反饋，而高層的反饋在生物視覺(jué)里面大家知道有大量的反饋，但是反饋的是什么東西還不清楚。所以說(shuō)根據(jù)我的理解，我覺(jué)得3-5年內(nèi)生物視覺(jué)很難有較大進(jìn)展。

王亦洲：

我補(bǔ)充一下，回到學(xué)習(xí)上，學(xué)習(xí)是視覺(jué)的核心。視覺(jué)其實(shí)是個(gè)偽問(wèn)題，但學(xué)習(xí)是一個(gè)永恒的本質(zhì)問(wèn)題。沒(méi)有學(xué)習(xí)，視覺(jué)存不存在都不太重要了。與其叫計(jì)算機(jī)視覺(jué)還不如叫computational visual intelligence. 視覺(jué)是一種智能，智能的核心是學(xué)習(xí)怎么去獲得知識(shí)，反饋只是學(xué)習(xí)和推理的一個(gè)環(huán)節(jié)。學(xué)習(xí)是什么？是簡(jiǎn)單的模式識(shí)別，還是高級(jí)學(xué)習(xí)，這可能是學(xué)習(xí)下一步應(yīng)該走的，給學(xué)習(xí)起一個(gè)俗的名字叫元學(xué)習(xí)，如果要和計(jì)算機(jī)視覺(jué)對(duì)應(yīng)，我們叫元認(rèn)知。核心就是學(xué)習(xí)，不搞學(xué)習(xí)是不行的。

楊睿剛：

我覺(jué)得機(jī)器視覺(jué)與生物視覺(jué)應(yīng)該有區(qū)別，不一定機(jī)器視覺(jué)要學(xué)習(xí)生物視覺(jué)。舉個(gè)例子，比如說(shuō)看全局我要大照片，然后看局部我要小照片，但是如果你有一個(gè)攝像頭，可以一下子拍10億像素，或者有一個(gè)攝像裝置能把光場(chǎng)記錄下來(lái)，那active learning與passive learning就沒(méi)有區(qū)別了。這種硬件區(qū)別至少在二維圖像上，將來(lái)我覺(jué)得十億像素應(yīng)該是很快到來(lái)的事情。

陳熙霖：

這個(gè)地方我補(bǔ)充一句，這里的主動(dòng)不僅指分辨率，其本質(zhì)是通過(guò)主動(dòng)的“行為”進(jìn)行探索，從而達(dá)到有限資源的最大化利用。

楊睿剛：

你說(shuō)的是一種主動(dòng)感知的explore，還有一種不改變環(huán)境不改變物體的。

陳熙霖：

即使是不做改變，比如從一個(gè)角度看和從另一個(gè)角度看，光場(chǎng)相機(jī)并不解決這類(lèi)問(wèn)題，我們無(wú)法獲得對(duì)象背后的光場(chǎng)。

楊睿剛：

光場(chǎng)相機(jī)陣列。

林宙辰：

楊睿剛的意思是說(shuō)干脆把所有的信息都采集了，這個(gè)機(jī)制還是有點(diǎn)不一樣。

王亦洲：

主動(dòng)學(xué)習(xí)有一個(gè)停機(jī)問(wèn)題，有一個(gè)選擇的問(wèn)題。就是說(shuō)，你所有信息都在這兒，你什么時(shí)候停下來(lái)，你決定采哪一塊，這是最重要的。所以主動(dòng)學(xué)習(xí)，它并不是你把所有東西都拍上去，你也得要選擇。

楊睿剛：

選擇的問(wèn)題肯定要在里面，但是現(xiàn)在做主動(dòng)學(xué)習(xí)肯定涉及到機(jī)器人等問(wèn)題，超出了計(jì)算機(jī)視覺(jué)的范疇。

王亦洲：

所以就不要抱著計(jì)算機(jī)視覺(jué)了，這個(gè)就是我的意思。

胡占義：

主動(dòng)學(xué)習(xí)這里面有兩個(gè)概念。第一個(gè)是要有探索和注視，否則的話就沒(méi)有主動(dòng)性。第二個(gè)是記憶，主動(dòng)視覺(jué)是從生物來(lái)的概念。在計(jì)算機(jī)視覺(jué)里面，主動(dòng)視覺(jué)這個(gè)概念太大了。

查紅彬：

我想這里可以將主動(dòng)視覺(jué)與深度學(xué)習(xí)進(jìn)行對(duì)比。深度學(xué)習(xí)的問(wèn)題在于要有標(biāo)注數(shù)據(jù)庫(kù)，需要事先整理好的數(shù)據(jù)。而視覺(jué)系統(tǒng)在實(shí)際場(chǎng)景中工作時(shí)，需要自己選擇對(duì)自己有用的樣本。這樣，將樣本選擇與視點(diǎn)選擇，結(jié)構(gòu)重構(gòu)，計(jì)算優(yōu)化等策略結(jié)合起來(lái)，就能有效地發(fā)揮其主動(dòng)性，而不需要讓人把所有的數(shù)據(jù)都收集好喂給它。

鄭偉詩(shī)：

學(xué)習(xí)對(duì)視覺(jué)很重要。Benchmark推動(dòng)也束縛了目前計(jì)算機(jī)視覺(jué)的發(fā)展，ReID做到97%，大家就想不到該做什么，但問(wèn)題本身并沒(méi)解決。數(shù)據(jù)庫(kù)太有限，采集的東西沒(méi)有完全反映整個(gè)問(wèn)題，比如說(shuō)行人的遮擋問(wèn)題，各種各樣的問(wèn)題。在有限數(shù)據(jù)的時(shí)候，學(xué)習(xí)可能不能完完全全地解決它。有限數(shù)據(jù)下的學(xué)習(xí)，有沒(méi)有可能受到3D方面的啟發(fā)？把一個(gè)人整個(gè)3D的信息，還有行人整個(gè)行為的3D信息都能捕捉到的話，我們就可以去掉開(kāi)放環(huán)境下所受到的這些影響，然后我們就可以重構(gòu)。像我們可以構(gòu)造一個(gè)靶場(chǎng)，這個(gè)靶場(chǎng)很重要，無(wú)論我們做任何的系統(tǒng)都要做測(cè)試，但如果只在有限數(shù)據(jù)上或片面的數(shù)據(jù)上做測(cè)試的話，我們?cè)谡鎸?shí)應(yīng)用的時(shí)候可能就會(huì)有受限。因此如果我們能夠把3D這種因素嵌入到現(xiàn)在以2D圖像為主導(dǎo)的計(jì)算機(jī)視覺(jué)里面的話，可能會(huì)對(duì)我們整個(gè)計(jì)算機(jī)視覺(jué)在未來(lái)3到5年的發(fā)展能有另外一個(gè)維度的推動(dòng)作用。

那么為什么做3D？另外一件事情就是現(xiàn)在可能在全世界都在談的數(shù)據(jù)隱私問(wèn)題。數(shù)據(jù)采集的隱私問(wèn)題越來(lái)越重要，如果你用的是一個(gè)虛擬的靶場(chǎng)的話，這種隱私問(wèn)題就完全不存在。所以，在未來(lái)包括可能在國(guó)外人臉識(shí)別、行人識(shí)別，甚至一些行為識(shí)別都有可能會(huì)受到嚴(yán)重的法律因素的滯后的影響的話，那么我們更需要從3D的角度，從另外一個(gè)維度去考慮，是不是在這方面可以拓寬計(jì)算機(jī)視覺(jué)的發(fā)展方向，這是我的觀點(diǎn)。

賈云得：

我們做視覺(jué)很早了，早先把它作為一條小河，我們流那么多年，突然下大暴雨，現(xiàn)在是洪水猛獸（深度學(xué)習(xí)）來(lái)了。五年以后估計(jì)這個(gè)模式都過(guò)去了。我覺(jué)得那條河還會(huì)在。因?yàn)椋瑥囊暰W(wǎng)膜到視皮層這條通路在那擺著呢，非常高效。因此，還會(huì)有好多人研究，五年十年以后我們中國(guó)實(shí)驗(yàn)室做什么？肯定還是小河里面。

我看好兩個(gè)方向。第一個(gè)是三維視覺(jué)，三維視覺(jué)不會(huì)很熱，也不會(huì)很冷，會(huì)一直往下走。第二，就是胡老師說(shuō)的視頻理解。這個(gè)好幾個(gè)老師也說(shuō)了，多模態(tài)，就像我們看電影也是一樣的，看會(huì)兒畫(huà)面看字幕，看會(huì)兒字幕看畫(huà)面，來(lái)回互相理解，現(xiàn)在好像挺熱的。原來(lái)我們遇到的是數(shù)據(jù)-語(yǔ)義的鴻溝。后面我們?cè)谧R(shí)別結(jié)果和意識(shí)間的鴻溝也會(huì)出現(xiàn)，一旦有鴻溝就變成熱點(diǎn)，因?yàn)槔镞呏饔^加的東西太多了。我覺(jué)得視頻理解應(yīng)該是一個(gè)熱點(diǎn)。

魯繼文：

我覺(jué)得我們現(xiàn)在用了很多機(jī)器學(xué)習(xí)的知識(shí)。下一步，我自己更愿意做一些特別的工作，就是從機(jī)器學(xué)習(xí)到機(jī)器推理。比如給你一幅圖像，你一看就知道這個(gè)圖像未來(lái)應(yīng)該怎么樣發(fā)展，但對(duì)于計(jì)算機(jī)再?gòu)?qiáng)的網(wǎng)絡(luò)都不行。我覺(jué)得現(xiàn)在計(jì)算機(jī)視覺(jué)里面很多時(shí)候性能之所以好，是在于我們對(duì)這個(gè)問(wèn)題的定義，在這種定義基礎(chǔ)上已經(jīng)基本上可以解決。現(xiàn)在我們可能要再去找一些更能夠描述或者更能夠匹配人類(lèi)視覺(jué)能力的計(jì)算機(jī)視覺(jué)任務(wù)�，F(xiàn)在比如說(shuō)檢測(cè)、分割、檢索、識(shí)別，都是單獨(dú)的視覺(jué)任務(wù)，這種單純的視覺(jué)任務(wù)還是有點(diǎn)簡(jiǎn)單。當(dāng)然有的老師可能有不同的觀點(diǎn)，就是說(shuō)他們的變化這種東西可能比較難。但實(shí)際上人的視覺(jué)更多的時(shí)候可能不是這樣子的。所以，我覺(jué)得在計(jì)算機(jī)視覺(jué)里面一個(gè)很重要的問(wèn)題是怎么樣找到這樣的任務(wù)，能夠更好的與我們?nèi)祟?lèi)的視覺(jué)任務(wù)匹配起來(lái)，這樣的任務(wù)既不能太難也不能太簡(jiǎn)單。這樣的任務(wù)我覺(jué)得還需要我們多花時(shí)間去思考討論，我自己也不知道是什么任務(wù)。

王亮：

未來(lái)5到10年的CV發(fā)展趨勢(shì)這個(gè)主題的主要目的是希望聽(tīng)聽(tīng)我們國(guó)內(nèi)視覺(jué)界專(zhuān)家們的新見(jiàn)解。今天聽(tīng)了各位講了很多，方方面面都有。如果說(shuō)個(gè)趨勢(shì)的話，每一個(gè)方面可能都會(huì)有一定的趨勢(shì)，但大家的意見(jiàn)有不相同，也有相同的地方。這個(gè)主題的定位是希望通過(guò)這次的深度研討梳理幾個(gè)視覺(jué)領(lǐng)域中最重要的大家都認(rèn)可的這樣一個(gè)發(fā)展趨勢(shì)，有不同的意見(jiàn)沒(méi)有關(guān)系，而且這個(gè)討論也是有交叉的。

查紅彬：

這種討論我覺(jué)得挺好。講一些發(fā)展趨勢(shì)，然后大家能夠有一些思想上的碰撞和火花。做視覺(jué)研究，大家在發(fā)展趨勢(shì)上，如果有完全一樣的看法會(huì)很奇怪。要整理出比較明確的發(fā)展趨勢(shì)也很難。為什么呢? 誰(shuí)要想做出很好的工作，他就應(yīng)該有一些與別人不一樣的看法，如果大家都是同樣的看法，這事情就很難往下做。所以我覺(jué)得，我們更多的是通過(guò)交流各自的想法，啟發(fā)我們自己能有一些新的思路，或者在我自己的這些想法上能找到一些更多的理由、依據(jù)，然后把這個(gè)事情做下去。所以我想通過(guò)這些討論，更多的是咱們能不能將來(lái)在國(guó)際會(huì)議上，在研究成果方面，我們也有自己的一些特色在里邊。到目前為止，我們寫(xiě)文章是在拼什么？就拼數(shù)據(jù)庫(kù)測(cè)試上性能提高了百分之幾，而且大多數(shù)是在別人方法上改進(jìn)一下，然后做個(gè)實(shí)驗(yàn)說(shuō)我提高了百分之多少。但是我們很少有說(shuō)你的想法跟別人在什么地方不一樣，然后你這個(gè)不一樣的東西在某個(gè)地方用起來(lái)會(huì)有一些效果。一開(kāi)始你可能效果會(huì)比較差，而且你也不容易輕松地打動(dòng)別人，但是在你的帶領(lǐng)之下很多人都會(huì)來(lái)做這個(gè)事情的時(shí)候就不一樣了。所以我想說(shuō)，能不能將來(lái)不是只盯著這個(gè)數(shù)據(jù)庫(kù)上的數(shù)據(jù)去拼，而是有更多的比較好的創(chuàng)意出來(lái)。

山世光：

是不是可以倡議建立一個(gè)只評(píng)價(jià)idea、方法原理，不評(píng)價(jià)在benchmark或者數(shù)據(jù)庫(kù)上的好壞的審稿機(jī)制？

陳熙霖：

胡老師剛才提到的1994年CVGIP組織的一個(gè)專(zhuān)刊中，當(dāng)年提出了三個(gè)需要改進(jìn)的方面，今天真正實(shí)現(xiàn)的只有一件——就是benchmark。那場(chǎng)討論中說(shuō)我們這個(gè)領(lǐng)域里的工作缺乏比較，自說(shuō)自話，之后就產(chǎn)生了各種各樣比較的數(shù)據(jù)集。所以我剛才有一句話，在過(guò)去近30年中Benchmark推動(dòng)了計(jì)算機(jī)視覺(jué)研究的進(jìn)步，就是指的那場(chǎng)討論開(kāi)始的。

查紅彬:

我同意你的觀點(diǎn)。現(xiàn)在回過(guò)頭來(lái)看看，計(jì)算機(jī)視覺(jué)研究了這么多年，也許就是在那些文章出來(lái)之后，我們?cè)贈(zèng)]有看到什么新的主意、新的理論出來(lái)了。在那之前百家齊放，好像有很多新的說(shuō)法出來(lái)。在那個(gè)benchmark出來(lái)之后大家都在做同樣的事情，最后整個(gè)領(lǐng)域就變得不怎么活躍了。

胡占義：

我們既然研究計(jì)算機(jī)視覺(jué)，我建議大家讀一讀Marr的書(shū)。

盧湖川：

剛才說(shuō)到的benchmark，我覺(jué)得至少計(jì)算機(jī)視覺(jué)這個(gè)benchmark的存在，使得計(jì)算機(jī)視覺(jué)有別于純粹的機(jī)器學(xué)習(xí)，而且特別是起到了該有的歷史作用�，F(xiàn)在大家對(duì)它的詬病最主要的原因就是它還是一個(gè)單一的benchmark。那只能說(shuō)這個(gè)benchmark并不像人一樣，那如果有人再去定一個(gè)更復(fù)雜的benchmark，它是多維的，也許這個(gè)benchmark就能夠驅(qū)動(dòng)下一個(gè)時(shí)代的發(fā)展，也許就能夠完成像人一樣的學(xué)習(xí)或者識(shí)別等等。我覺(jué)得benchmark本身并沒(méi)有太大問(wèn)題，因?yàn)槿藦男∈芙逃臅r(shí)候就是教他這是什么那是什么，只是人是一個(gè)綜合的智能體�，F(xiàn)在的benchmark如果再往更高的維度發(fā)展，也許能夠有更好的收獲。

楊睿剛：

現(xiàn)在的benchmark太多了，哪些benchmark重要，哪些benchmark不重要，還有隨之而來(lái)的各種各樣的比賽，哪些是重要的，哪些不重要。在某種意義上是不是也跟大家說(shuō)，我又拿了個(gè)世界第一，但可能這個(gè)世界第一里面只有十個(gè)人參加。那有沒(méi)有一種方法可以有這樣的一個(gè)更加好的量化機(jī)制，可以給benchmark一個(gè)benchmark。

王井東：

Benchmark現(xiàn)在有個(gè)很大的問(wèn)題是很多人做不了。Imagenet很多人做不了，那做不了從我們研究人員的角度來(lái)講，就是文章可能出不去，這是一個(gè)可能不好的地方。但從另外一個(gè)角度來(lái)講benchmark挺重要的。視覺(jué)的任務(wù)目的很多，我們做視覺(jué)還有一個(gè)重要目的就是培養(yǎng)學(xué)生，那至于視覺(jué)培養(yǎng)學(xué)生這個(gè)功能可能是區(qū)別于其他的，比如Multimedia。Multimedia從培養(yǎng)學(xué)生的角度上我覺(jué)得是很好的。但它有個(gè)很大的缺點(diǎn)，是沒(méi)有benchmark。從這個(gè)角度來(lái)講benchmark還是需要的。只是現(xiàn)在審稿人對(duì)數(shù)據(jù)集的規(guī)模期望更大了，這對(duì)很多人來(lái)講尤其是學(xué)校里面是很有挑戰(zhàn)的，現(xiàn)在可能就少數(shù)幾個(gè)公司比較強(qiáng)。這是我對(duì)benchmark的觀點(diǎn)。

王亦洲：

建議PRCV單開(kāi)一個(gè)track，鼓勵(lì)創(chuàng)新性。單開(kāi)一個(gè)不看性能的track。

【深度】未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)為何？

音樂(lè)人工智能、計(jì)算機(jī)聽(tīng)覺(jué)及音樂(lè)科技

讓大規(guī)模深度學(xué)習(xí)訓(xùn)練線性加速、性能無(wú)損，基于BMUF的Adam優(yōu)化器并行化實(shí)踐

基于深度學(xué)習(xí)和傳統(tǒng)算法的人體姿態(tài)估計(jì)，技術(shù)細(xì)節(jié)都講清楚了

傳統(tǒng)目標(biāo)檢測(cè)算法對(duì)比

基于深度學(xué)習(xí)目標(biāo)檢測(cè)模型優(yōu)缺點(diǎn)對(duì)比

如何更高效地壓縮時(shí)序數(shù)據(jù)？基于深度強(qiáng)化學(xué)習(xí)的探索

滴滴機(jī)器學(xué)習(xí)平臺(tái)調(diào)度系統(tǒng)的演進(jìn)與K8s二次開(kāi)發(fā)

人工智能和機(jī)器學(xué)習(xí)之間的差異及其重要性

面向動(dòng)態(tài)記憶和學(xué)習(xí)功能的神經(jīng)電晶體可塑性研究

CVPOS自助收銀的挑戰(zhàn)以及商品識(shí)別算法工程落地方法和經(jīng)驗(yàn)

內(nèi)容流量管理的關(guān)鍵技術(shù)：多任務(wù)保量?jī)?yōu)化算法實(shí)踐

百變應(yīng)用場(chǎng)景下，優(yōu)酷基于圖執(zhí)行引擎的算法服務(wù)框架筑造之路

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

機(jī)器人開(kāi)發(fā)平臺(tái)

【深度】未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)為何？

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

機(jī)器人開(kāi)發(fā)平臺(tái)

【深度】未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)為何？

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)