來源:中國電商物流網(wǎng) 發(fā)布時間:2019-5-4 11:10
隨著深度學習的迅猛發(fā)展,計算機視覺已成為人工智能領域影響最深遠的技術之一。在計算機視覺領域深入研究、有著強大技術積累的百度,以17篇論文入選計算機視覺和模式識別大會CVPR 2019,其不俗成績再次成為國際視覺頂級盛會中受矚目的“中國面孔”。
據(jù)了解,CVPR 2019即將于6月在美國長灘召開,作為人工智能領域計算機視覺方向的重要學術會議,CVPR每年都會吸引全球最頂尖的學術機構和公司的研究人員投稿。
CVPR官網(wǎng)顯示,今年有超過5165篇的大會論文投稿,最終錄取1299篇,錄取率約為25%。據(jù)了解,去年的CVPR 2018共有979篇論文被主會收錄,錄用率約為29%。相比2018,今年的競爭更加激烈。
今年百度公司有17篇論文被CVPR接收,內容涵蓋了語義分割、網(wǎng)絡剪枝、ReID、GAN等諸多方向,以下為百度入選CVPR 2019的17篇論文。
1)Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation
論文作者:Yawei Luo; Liang Zheng; Tao Guan; Junqing Yu; Yi Yang
論文介紹:在虛擬圖像集(源域)上訓練出的語義分割網(wǎng)絡,往往在真實圖像集(目標域)上表現(xiàn)不佳。網(wǎng)絡分割性能下降是由于兩個域間存在較大差異,而深度模型泛化能力不足。傳統(tǒng)方法嘗試通過全局對齊源域和目標域間特征分布的來解決此問題,而該類方法往往忽略了特征間的局部語義一致性。本文首次結合了聯(lián)合訓練和對抗訓練來處理此問題。不同于傳統(tǒng)方法,本文根據(jù)每一個特征的語義對齊程度,自適應的調整特征對齊的力度。該方法解決了傳統(tǒng)方法中特征語義不一致問題和負遷移的問題。實驗結果證明我們的方法能大大提高網(wǎng)絡在目標域圖像上的分割精度。
應用場景:自動駕駛。本方法將電腦合成圖像訓練出的網(wǎng)絡直接泛化到現(xiàn)實數(shù)據(jù)集上,大大減少了自動駕駛領域中街景數(shù)據(jù)采集和數(shù)據(jù)標注的工作量。
論文地址:
https://arxiv.org/abs/1809.09478
2)Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration
論文作者:Yang He, Ping Liu, Ziwei Wang, Zhilan Hu, Yi Yang
論文介紹:在本文中,我們分析了關于網(wǎng)絡剪枝的“小范數(shù) -低重要性”的標準。以前的工作利用“小范數(shù) -低重要性”的標準來修剪在卷積神經(jīng)網(wǎng)絡中具有較小范數(shù)值的濾波器,但出它的有效性取決于兩個并不總是滿足的要求:(1)濾波器的范數(shù)的標準差應該很大; (2)濾波器的最小范數(shù)應該很小。為了解決這個問題,我們提出了一種新的濾波器修剪方法,即通過"幾何平均數(shù)"進行濾波器剪枝,以便在不考慮這兩個要求的情況下對模型進行壓縮,我們稱之為FPGM。與之前的方法不同,F(xiàn)PGM通過去掉冗余的濾波器來壓縮CNN模型,而不是去掉那些范數(shù)小的過濾器。我們在圖像分類任務上的兩個數(shù)據(jù)集上,驗證了FPGM的有用性。在Cifar-10數(shù)據(jù)集上,F(xiàn)PGM在ResNet-110上的計算量降低了52%以上,相對精確度提高了2.69%。此外,在ILSVRC-2012數(shù)據(jù)集上,F(xiàn)PGM還在ResNet-101上減少了超過42%的計算量。
應用場景:本文提出的方法能夠有效提升神經(jīng)網(wǎng)絡壓縮率?梢詫嚎s后的網(wǎng)絡部署到便攜式設備,比如手機、攝像機等,加快處理速度。
論文地址:
https://arxiv.org/abs/1811.00250
GItHub地址:
https://github.com/he-y/filter-pruning-geometric-median
3)Detailed Human Shape Estimation from a Single Image by Hierarchical Mesh Deformation
論文作者:Hao Zhu; Xinxin Zuo; Sen Wang; Xun Cao; Ruigang Yang
論文介紹:本文提出了一個新的框架,可以根據(jù)單個圖像恢復詳細的人體形狀。由于諸如人體形狀、身體姿勢和視角的變化等因素,因而這是一項具有挑戰(zhàn)性的任務,F(xiàn)有方法通常嘗試使用缺少表面細節(jié)的基于參數(shù)的模板來恢復人體形狀。因此,所得到的身體形狀似乎沒有衣服。在本文中,我們提出了一種新穎的基于學習的框架,它結合了參數(shù)模型的魯棒性和自由3D變形的靈活性。我們使用深度神經(jīng)網(wǎng)絡在層次網(wǎng)格變形(HMD)框架中利用身體關節(jié)、輪廓和每像素著色信息的約束來細化3D形狀。我們能夠恢復除皮膚模型之外的詳細人體形狀。實驗證明,我們的方法優(yōu)于先前的最先進方法,在2D IoU數(shù)和3D度量距離方面實現(xiàn)了更好的準確性。
論文地址:
https://arxiv.org/abs/1904.10506v1
GItHub地址:
https://github.com/zhuhao-nju/hmd.git
4)GA-Net: Guided Aggregation Net for End-to-end Stereo Matching
論文作者:Feihu Zhang; Victor Adrian Prisacariu; Yang Ruigang; Philip Torr
論文介紹:在立體匹配任務中,為了準確估計差異,匹配成本聚合在傳統(tǒng)方法和深度神經(jīng)網(wǎng)絡模型中都是至關重要的。我們提出了兩個新的神經(jīng)網(wǎng)絡層,分別用于捕獲局部和整個圖像的成本相關性。第一個是半全局聚合層,它是半全局匹配的可微近似;第二個是局部引導聚合層,它遵循傳統(tǒng)的成本過濾策略來細化薄結構。這兩層可以用來代替廣泛使用的3D卷積層,該層由于具有立方計算/存儲器復雜性而計算成本高且消耗存儲器。在實驗中,我們表明,具有雙層引導聚合塊的網(wǎng)絡很輕易地超過了具有19個3D卷積層的最先進的GC-Net。我們還訓練了深度引導聚合網(wǎng)絡(GA-Net),它比場景流數(shù)據(jù)集和KITTI基準測試中的最新方法具有更好的準確性。
論文地址:
https://arxiv.org/abs/1904.06587
GitHub地址:
https://github.com/feihuzhang/GANet
5)Invariance Matters: Exemplar Memory for Domain Adaptive Person Re-identification
論文作者:Zhun Zhong, Liang Zheng, Zhiming Luo, Shaozi Li, Yi Yang
論文介紹:本論文旨在解決行人再識別中的跨數(shù)據(jù)集問題:利用有標注的源數(shù)據(jù)集和無標注的目標數(shù)據(jù)集學習一個在目標數(shù)據(jù)集具有很好的魯棒性的模型。主流的研究方法主要通過降低源域和目標域之間的特征分布的差異。然而,這些方法忽略了目標域的域間變化,這些變化中包含了影響目標域測試性能的重要因素。在本文的工作中,我們全面的探討了目標域中的域間變化,并基于三種潛在的域內不變性(樣例不變性,相機不變性和領域不變性)提出了一個新的模型泛化方法。為了實現(xiàn)這個方法,我們在模型訓練過程中引入了一個樣例記憶模塊用以存儲目標數(shù)據(jù)在訓練過程中的中間特征。該樣例記憶模塊可以使我們快速的計算目標域中局部訓練樣本和全局樣本的相似性,同時有效的在模型訓練中加入提出的三個不變性限制。實驗證明本文提出的三個不變性性質對提升領域適應的性能是不可或缺的。同時,我們的方法在三個行人再識別的目標域中的準確率大大的超過了當前現(xiàn)有的方法。
應用場景:本文提出的方法能夠有效提升行人再識別模型在跨場景下的泛化能力。使得我們可以在現(xiàn)有的標注數(shù)據(jù)情況下,以無監(jiān)督的方式提升模型在新的場景下的性能。
論文地址:
https://arxiv.org/abs/1904.01990
GitHub地址:
https://github.com/zhunzhong07/ECN
6)Searching for A Robust Neural Architecture in Four GPU Hours
論文作者:Xuanyi Dong, Yi Yang
論文介紹:本論文旨在解決神經(jīng)網(wǎng)絡搜索算法消耗GPU資源過大的問題。目前很多神經(jīng)網(wǎng)絡搜索算法在小數(shù)據(jù)集CIFAR上,都需要消耗成百上千的GPU/TPU。為了提高神經(jīng)網(wǎng)絡的搜索效率,我們提出了一種利用可微網(wǎng)絡結構采樣器的基于梯度的搜索方法。我們的方法將整個搜索空間用一個有向無環(huán)圖來表示,這個圖包含了成百萬多個子圖,每一個子圖都代表了一種網(wǎng)絡結構。針對這個有向無環(huán)圖,我們設計了一個可微的采樣器,利用Gumbel-Softmax技術將離散的采樣過程變成可微可導的;在訓練過程中,通過驗證集上的目標損失函數(shù)來優(yōu)化這個采樣器,使得采樣器最終能過獲得一個性能較好的網(wǎng)絡結構。在實驗中,我們在一個GPU上,通過幾個小時的搜索時間,就可以在CIFAR上找到一個高性能的網(wǎng)絡結構。
應用場景:本文提出的方法能夠有效地在較短時間利用少量GPU搜索出魯棒的網(wǎng)絡結構,可以廣泛地應用在大部分任務里,搜索出對更小更快精度更高的網(wǎng)絡模型。
GitHub地址:
https://github.com/D-X-Y/GDAS
7)DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-image Synthesis
論文作者:Minfeng Zhu, Pingbo Pan, Wei Chen, Yi Yang
論文介紹:本論文旨在提升基于文本生成的圖片的真實性。當前的方法都是先生成比較粗糙的初始圖像,然后再優(yōu)化圖像從而生成高分辨率的真實圖像。然而,目前大多數(shù)方法仍存在兩個問題:(1)當前方法的結果很大程序上取決于初始圖像的質量。如果初始圖像質量不高,則第二階段優(yōu)化很難將圖像優(yōu)化到令人滿意的程度。(2)每個單詞對于不同的圖片內容都有不同的信息量,但當前方法在兩個階段中仍然保持了相同的單詞重要性。
在本文工作中,我們提出動態(tài)記憶生成對抗網(wǎng)絡(DM-GAN)來生成高質量的圖片。我們提出了一個動態(tài)記憶模塊來優(yōu)化粗糙的初始圖像,即使初始圖像生成不良,它也可以生成高質量的圖像。具體來說,動態(tài)記憶模塊包括一個根據(jù)初始圖像選擇重要文本信息的記憶寫入門和一個自適應融合圖片特征和文本信息的反饋門。我們在COCO和CUB數(shù)據(jù)集上評估了我們的模型。實驗結果表明,我們的方法在FID和IS指標以及真實性上都超過了當前方法。
應用場景:文本提出的方法可以顯著提升基于文本生成圖片的真實性,我們可以實現(xiàn)文章自動配圖等功能,可以大大降低創(chuàng)作者的配圖成本。
論文地址:
https://arxiv.org/abs/1904.01310
8)Sim-Real Joint Reinforcement Transfer for 3D Indoor Navigation
論文作者:Fengda Zhu, Linchao Zhu, Yi Yang
論文介紹:在室內3D導航中,環(huán)境中的機器人根據(jù)指令移動到目標點。但是在物理世界中部署用于導航的機器人,需要大量的培訓數(shù)據(jù)來學習有效的策略。為機器人訓練獲得足夠的真實環(huán)境數(shù)據(jù)是代價昂貴的,因此我們提出通過合成數(shù)據(jù)渲染環(huán)境隨后將策略遷移到真實環(huán)境中。雖然合成環(huán)境有利于來促進現(xiàn)實世界中的導航訓練,但真實環(huán)境與合成環(huán)境有兩個方面不同。首先,兩種環(huán)境的視覺表示具有顯著的差異。其次,兩個環(huán)境的房屋計劃有很大不同。因此,需要在強化模型中調整兩種類型的信息,即視覺表示和策略行為。視覺表征和策略行為的學習過程是互惠的。
我們提出聯(lián)合調整視覺表現(xiàn)和策略行為,以實現(xiàn)環(huán)境和策略的相互影響。具體來說,我們的方法采用了用于視覺表征轉移的對抗特征適應模型和用于策略行為模仿的模擬策略。實驗結果表明,我們的方法在沒有任何額外的人類注釋的情況下優(yōu)于基礎模型高達21.73%。
應用場景:本文提出的視覺特征適應模型和策略模擬模型可以有效將機器人在虛擬環(huán)境中學習到的策略和特征遷移到實際場景中,有利于導航機器人,無人車等需要大量數(shù)據(jù)訓練的應用在缺乏復雜場景的真實數(shù)據(jù)時,通過渲染環(huán)境獲得更好的策略。
論文地址:
https://arxiv.org/abs/1904.03895
9)Contrastive Adaptation Network for Unsupervised Domain Adaptation
論文作者:Guoliang Kang, Lu Jiang, Yi Yang, Alexander G. Hauptmann
論文介紹:無監(jiān)督域適應旨在利用帶標簽源域數(shù)據(jù)和無標簽目標域數(shù)據(jù),獲得在目標域數(shù)據(jù)上的優(yōu)良的預測性能。以往的方法在消除域差異的過程中沒有充分利用類別信息,導致對齊錯誤,影響泛化性能。為了解決這些問題,這篇文章提出了新的域差異度量指標 “對比域差異” 來刻畫類內和類間域差異,并且提出 “對比適應網(wǎng)絡” 來優(yōu)化這個指標。我們設計了新的類感知采樣方法,采用交替更新的方式端到端地優(yōu)化我們的網(wǎng)絡。我們在兩個標準數(shù)據(jù)集上取得了比現(xiàn)有的方法更好的性能。
應用場景:可以提高單一場景訓練模型在缺乏標簽的新場景下的識別性能,如利用人工合成帶標簽數(shù)據(jù)集,在實際場景圖片上進行識別等任務。
論文地址:
https://arxiv.org/abs/1901.00976
10)ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving
論文作者:Xibin Song, Peng Wang, Dingfu Zhou, Rui Zhu, Chenye Guan, Yuchao Dai, Hao Su, Hongdong Li, Ruigang Yang
亮點介紹:(1)本文提出了目前已知自動駕駛領域最大規(guī)模的三維車輛姿態(tài)數(shù)據(jù)集,共包含5000+高分辨率圖像(3384*2710)、6萬+車輛的三維姿態(tài)信息及對應的車輛二維語義關鍵點信息。圖像中每輛車使用工業(yè)級高精度的三維車輛模型進行三維與二維的匹配獲取車輛姿態(tài)。本數(shù)據(jù)集的規(guī)模是目前自動駕駛領域相關數(shù)據(jù)集的20倍左右,如PASCAL3D+,KITTI等;(2)基于此數(shù)據(jù)集,本文提出了不同的方法進行車輛三維姿態(tài)估計,包括基于關鍵點的方法和非關鍵點的方法;(3)本文提出了完整的車輛三維信息評估方法,包括車輛的形狀和姿態(tài)信息,相比目前自動駕駛領域相關數(shù)據(jù)集的評估標準,本文的評估更加全面。
落地場景:自動駕駛領域,基于單張圖像的車輛姿態(tài)估計。
論文地址:
https://arxiv.org/abs/1811.12222
11)UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos
論文作者:Yang Wang, Peng Wang, Zhenheng Yang, Chenxu Luo, Yi Yang, and Wei Xu
亮點介紹:只通過雙目攝像頭的視頻,通過深度學習,就能學習到 雙目深度視覺,光流和相機姿態(tài)。
落地場景:可以輔助支持自動駕駛雙目視覺模型,從而更好的從激光的離散深度變換到稠密深度。
論文地址:
https://arxiv.org/abs/1810.03654
12)Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes
論文作者:Chengquan Zhang, Borong Liang, Zuming Huang, Mengyi En, Junyu Han, Errui Ding, Xinghao Ding
亮點介紹:受限于神經(jīng)網(wǎng)絡感受野大小約束和簡單的文字包圍盒表達(比如矩形框或四邊形),以往的文字檢測器在長詞和任意形狀的文字場景容易失敗。本文提出了一個新的文字檢測器框架,針對性的解決了這兩個問題。新的文字檢測器框架由三部分組成,直接回歸器(Direct Regressor, DR)、迭代改善模塊(Iterative Refinement Module, IRM)和文字形狀表達模塊(Shape Expression Module, SEM)。
DR輸出四邊形表達的文字檢測候選;IRM基于四邊形對應的特征塊逐步感知和改善完整的四邊形文字包圍盒以解決長詞檢測問題;SEM模塊則通過回歸完整四邊形候選框內的文字實例幾何信息,來重建更加精準的上下頂點線對稱的多邊形文字表示。IRM和SEM作為可學習的和可插入的模塊,能夠聯(lián)合DR一起進行端到端的訓練。在包含多方向、長詞、任意彎曲和多語種場景的五個具有權威性的公開數(shù)據(jù)集合(ICDAR2017-RCTW, SCUT-CTW1500, Total-Text, ICDAR2015 and ICDAR17-MLT)上,我們提出的新檢測器和所有已公開論文中的純檢測方法作對比指標都達到了最好的效果(SOTA)。
論文地址:
https://arxiv.org/abs/1904.06535
13)STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing
論文作者:Ming Liu, Yukang Ding, Min Xia, Xiao Liu, Errui Ding, Wangmeng Zuo, Shilei Wen
亮點介紹:提出了STGAN方法用于圖片/視頻的端到端屬性轉換。對傳統(tǒng)方法提出了兩點改進:1) 在自編碼網(wǎng)絡結構中引入選擇性屬性編輯單元強化了屬性編輯的效果 ;2) 提出了基于屬性更改的訓練機制。在celebA數(shù)據(jù)集上轉換效果全方位好于已有方法。
落地場景:視頻拍攝特效、物料樣式生成。
論文地址:
https://arxiv.org/abs/1904.09709
GitHub地址:
https://github.com/csmliu/STGAN
14)Attentive Feedback Network for Boundary-Aware Salient Object Detection
論文作者:Mengyang Feng, Huchuan Lu, and Errui Ding
論文介紹:最近基于深度學習的顯著目標檢測方法在完全卷積神經(jīng)網(wǎng)絡(FCN)的基礎上實現(xiàn)了可喜的性能。然而,他們中的大多數(shù)都遭受了邊界挑戰(zhàn)。目前最先進的方法采用特征聚合技術,并且可以精確地找出其中的顯著目標,但是它們經(jīng)常無法將具有精細邊界的整個對象分割出來,尤其是那些凸起的窄條紋。因此,基于FCN的模型仍有很大的改進空間。在本文中,我們設計了注意反饋模塊(AFM),以更好地探索對象的結構。我們還采用邊界增強損失(BEL)進一步學習精細邊界。我們提出的深度模型在目標邊界上獲得了令人滿意的結果,并在5個廣泛測試的顯著目標檢測基準上實現(xiàn)了最先進的性能。該網(wǎng)絡采用完全卷積方式,以26 FPS的速度運行,不需要任何后期處理。
論文地址:
https://github.com/ArcherFMY/AFNet
15)A Mutual Learning Method for Salient Object Detection with intertwined Multi-Supervision
論文作者:Runmin Wu, Mengyang Feng, Wenlong Guan, Dong Wang, Huchuan Lu, Errui Ding
論文介紹:盡管近來深度學習技術在顯著目標檢測方面取得了很大進展,但由于目標的內部復雜性以及卷積和池化操作中的步幅導致的不準確邊界,預測的顯著圖仍然存在不完整的預測。為了緩解這些問題,我們建議通過利用顯著目標檢測,以及前景輪廓檢測和邊緣檢測的監(jiān)督來訓練顯著性檢測網(wǎng)絡。首先,我們以交織的方式利用顯著目標檢測和前景輪廓檢測任務來生成具有均勻高光的顯著圖。其次,前景輪廓和邊緣檢測任務同時相互引導,從而導致精確的前景輪廓預測并減少邊緣預測的局部噪聲。此外,我們開發(fā)了一種新穎的相互學習模塊(MLM),它作為我們方法的構建模塊。每個MLM由多個以相互學習方式訓練的網(wǎng)絡分支組成,性能得意大大提高。我們對七個具有挑戰(zhàn)性的數(shù)據(jù)集進行的大量實驗表明,我們所提出的方法在顯著目標檢測和邊緣檢測方面都能達到最好的效果。
GitHub地址:
https://github.com/JosephineRabbit/MLMSNet
16)L3-Net: Towards Learning based LiDAR Localization for Autonomous Driving
論文作者:Weixin Lu, Yao Zhou, Guowei Wan, Shenhua Hou, Shiyu Song
亮點介紹:自定位模塊是無人車系統(tǒng)的基礎模塊之一,一個成熟的L4級別無人車定位系統(tǒng)需要提供厘米級定位精度的輸出結果。百度提出了一種基于學習的點云定位技術,不同于傳統(tǒng)的人工設計的復雜算法,該技術對傳統(tǒng)的定位方法進行拆解,使用深度學習網(wǎng)絡來取代傳統(tǒng)的各個環(huán)節(jié)和步驟,并在一個包含多種場景路況和大尺度時間跨度的數(shù)據(jù)集上驗證了算法效果,實現(xiàn)了厘米級的定位精度。該方案是全球范圍內,業(yè)界首次通過使用直接作用于激光點云的深度學習網(wǎng)絡來解決自動駕駛的自定位問題。數(shù)據(jù)集包含了城市道路、園區(qū)道路和高速等多種富有挑戰(zhàn)的路況場景,數(shù)據(jù)總里程達380km,即將在百度Apollo平臺開放。
落地場景:百度無人車
論文地址:
https://songshiyu01.github.io/publication/cvpr2019_localization/
17)Improving Transferability of Adversarial Examples with Input Diversity
論文作者:Cihang Xie; Yuyin Zhou; Song Bai; Zhishuai Zhang; Jianyu Wang; Zhou Ren; Alan Yuille
論文介紹:盡管CNN已經(jīng)在各種視覺任務上取得了非常好的表現(xiàn),但它們很容易受到對抗性示例的影響,這些示例是通過在清晰的圖像中加入人類不易察覺的擾動而精心制作的。然而,大多數(shù)現(xiàn)有的對抗性攻擊在具有挑戰(zhàn)性的黑盒設置下只能獲得相對較低的成功率,因為攻擊者不了解模型結構和參數(shù)。為此,我們建議通過創(chuàng)建不同的輸入模式來提高對抗性示例的可遷移性。我們的方法不是僅使用原始圖像來生成對抗性示例,而是在每次迭代時將隨機變換應用于輸入圖像。
ImageNet上的大量實驗表明,我們所提出的攻擊方法生成的對抗性示例可以比現(xiàn)有基線更好地遷移到不同的網(wǎng)絡。通過評估我們針對NIPS 2017對抗性競爭中的頂級防御解決方案和官方基線的方法,增強型攻擊的平均成功率達到73.0%,在NIPS競爭中的前1次攻擊提交率大幅提高6.6%。我們希望我們提出的攻擊策略可以作為評估網(wǎng)絡對抗的穩(wěn)健性和未來不同防御方法的有效性的強大基準基線。
論文地址:
https://arxiv.org/abs/1803.06978
GitHub地址:
https://github.com/cihangxie/DI-2-FGSM
關注ITBear科技資訊公眾號(itbear365 ),每天推送你感興趣的科技內容。
特別提醒:本網(wǎng)內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網(wǎng)有任何內容侵犯您的權益,請及時聯(lián)系我們,本站將會在24小時內處理完畢。