近日,《Science》雜志公布了一項(xiàng)新的機(jī)器學(xué)習(xí)算法,該算法可根據(jù)文本或者碎片式的信息來(lái)重建完整的視頻,如根據(jù)證人描述重現(xiàn)事故現(xiàn)場(chǎng)。
據(jù)了解,該算法是一種小型神經(jīng)網(wǎng)絡(luò),即一系列小型計(jì)算元素層。其主要的工作分為兩個(gè)階段:一是通過(guò)文本生成視頻的“主旨”,即一個(gè)模糊的背景圖片上加注一些重要的標(biāo)注;二通過(guò)綜合“主旨”和文本內(nèi)容產(chǎn)生一個(gè)短視頻。此外,在訓(xùn)練過(guò)程中,第二部分的網(wǎng)絡(luò)會(huì)對(duì)新增加的視頻內(nèi)容進(jìn)行反復(fù)的對(duì)比,以提升性能。
目前,研究人員采用了十種生活場(chǎng)景對(duì)其訓(xùn)練,包括在草地上打高爾夫、在海上玩風(fēng)箏沖浪等,算法生成的圖像還比較粗糙,呈現(xiàn)VHS錄像的顆粒感畫面�,F(xiàn)在,可達(dá)到高準(zhǔn)確率的視頻約為32幀,持續(xù)時(shí)間為1秒,大小為64×64像素。研究人員之一,杜克大學(xué)的計(jì)算機(jī)科學(xué)家Yitong Li解釋道,“更高的分辨率會(huì)降低其準(zhǔn)確度。”
雖然當(dāng)前算法生成的視頻尚十分粗糙,但是這項(xiàng)研究實(shí)現(xiàn)了文本直接轉(zhuǎn)視頻技術(shù)上的質(zhì)的飛躍。“這是一個(gè)非常難的問(wèn)題,而他們的方法非常有趣,只要兩個(gè)階段。所以,對(duì)于他們現(xiàn)在取得的成就和突破,我感到非常高興。”馬里蘭大學(xué)計(jì)算機(jī)科學(xué)家Hamed Pirsiavash評(píng)價(jià)道。
比利時(shí)魯汶大學(xué)計(jì)算機(jī)科學(xué)家Tinne Tuytelaars也對(duì)此贊不絕口:“這是我所知道的第一部如此棒的文字轉(zhuǎn)視頻作品,它不完美,但至少看起來(lái)像是真正的視頻。這真的很好。”
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...