2018年06月19日,F(xiàn)acebook AI Reaserch(FAIR)今天正式開源了DensePose,一項將2D RGB圖像的所有人類像素實時映射至3D模型的技術(shù)。
最近在人類認(rèn)識方面的研究主要是定位一組零散分布的關(guān)節(jié),如手腕或肘部。這對手勢或動作識別等應(yīng)用程序而言可能已經(jīng)足夠,但這減少了圖像解釋。Facebook則希望更進一步,比如說通過一張照片來進行試裝,或者替換圖片中朋友的衣服。對于這些任務(wù),我們需要更完整的基于表面的圖像解釋。
DensePose項目旨在解決這個問題,通過基于表面的模型來理解圖像中的人類。Facebook的研究表明,我們可以高效地計算2D RGB圖像和人體三維表面模型之間的密集對應(yīng)關(guān)系。與人體姿勢估計中利用10個或20個人體關(guān)節(jié)的常見項目不同,DensePose涉及整個人體,需要超過5000個節(jié)點。Facebook系統(tǒng)的最終速度和準(zhǔn)確性加速了與增強現(xiàn)實和虛擬現(xiàn)實的聯(lián)系。
早期對這個問題的研究在速度上相對緩慢,而DensePose則可以在單個GPU上以每秒多幀的速度運行,并且能夠同時處理數(shù)十,甚至數(shù)百人。
為了實現(xiàn)這一點,F(xiàn)acebook推出了DensePose-COCO。這個大型標(biāo)注數(shù)據(jù)集,在50000張COCO的圖像上手工標(biāo)注了圖像-人體表面(image-to-surface)的對應(yīng)點。在第一階段,標(biāo)注者將劃定與可見的、語義上定義的身體部位相對應(yīng)的區(qū)域。在第二階段,F(xiàn)acebook用一組大致等距的點對每個部位的區(qū)域進行采樣,并要求標(biāo)注者將這些點與表面相對應(yīng)。
Facebook同時開發(fā)了一種新穎的深層網(wǎng)絡(luò)架構(gòu)。Facebook以Detectron系統(tǒng)為基準(zhǔn),并且納入了密集姿態(tài)估計的功能。和Detectron的Mask-RCNN系統(tǒng)一樣,F(xiàn)acebook采用了Region-of-Interest Pooling,并且引入了一個全卷積網(wǎng)絡(luò)。Facebook用三個輸出通道來增強網(wǎng)絡(luò),訓(xùn)練它把像素分配給各個部分,以及U-V坐標(biāo)。得益于Caffe2,所產(chǎn)生的架構(gòu)實際上與Mask-RCNN一樣快。
Facebook表示,之所以開源是因為他們希望DensePose可以為計算機視覺,增強現(xiàn)實和計算機圖形的研究人員和開發(fā)者可以更緊密地合作,并且助力新體驗的發(fā)展。據(jù)映維網(wǎng)了解,DensePose目前已經(jīng)托管至GitHub。Facebook同時為DensePose-COCO準(zhǔn)備多個預(yù)先訓(xùn)練模型的性能基準(zhǔn),以及人工標(biāo)注信息。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...