免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

首頁 > 資訊 > 數(shù)字化

華中科技大學(xué)開源多模態(tài)大模型“Monkey”,看圖說話能力號稱超越微軟谷歌

2023/12/14 16:57      IT之家


  據(jù)華中科技大學(xué)消息,近日,華中科技大學(xué)軟件學(xué)院白翔教授領(lǐng)銜的 VLRLab 團(tuán)隊發(fā)布了多模態(tài)大模型 ——“Monkey”。該模型號稱能夠?qū)崿F(xiàn)對世界的“觀察”,對圖片進(jìn)行深入的問答交流和精確描述。

  IT之家注:多模態(tài)大模型是一類可以同時處理和整合多種感知數(shù)據(jù)(例如文本、圖像、音頻等)的 AI 架構(gòu)。

  據(jù)介紹,Monkey 模型在 18 個數(shù)據(jù)集上的實驗中表現(xiàn)出色,特別是在圖像描述和視覺問答任務(wù)方面,超越了眾多現(xiàn)有知名的模型如微軟的 LLAVA、谷歌的 PALM-E、阿里的 Mplug-owl 等。此外,Monkey 在文本密集的問答任務(wù)中顯示出“顯著的優(yōu)勢”,甚至在某些樣本上超越了業(yè)界公認(rèn)的領(lǐng)先者 ——OpenAI 的多模態(tài)大模型 GPT-4V。

  Monkey 的一個顯著特點是“看圖說話”能力。在詳細(xì)描述任務(wù)中,Monkey 展現(xiàn)了對圖像細(xì)節(jié)的感知能力,能夠察覺到其他多模態(tài)大模型所忽略的內(nèi)容。如對下圖進(jìn)行的文本描述中,Monkey 正確地將其識別為埃菲爾鐵塔的繪畫,并提供了構(gòu)圖和配色方案的詳細(xì)描述。而對左下角的文字,只有 Monkey 和 GPT-4V 能將其準(zhǔn)確地識別為作者名。

  Monkey 號稱能夠利用現(xiàn)有的工具構(gòu)建一種多層級的描述生成方法,即通過五個步驟依次對圖片進(jìn)行整體簡述、空間定位、模塊化識別、描述賦分選取和最終總結(jié),此舉可以充分結(jié)合不同工具的特性,提升描述的準(zhǔn)確性和豐富程度。

  “一個個工具就好比不同的零件,合理的排列組合才能使其發(fā)揮最大作用,”白翔教授說,“我們團(tuán)隊從 2003 年開始便從事圖像識別研究,去年我們又從海外引進(jìn)了專攻多模態(tài)大模型的青年人才,Monkey 的最終方案是大家一起反復(fù)討論,嘗試了 10 余種方案后最終確定的。”白翔教授說。

  Monkey 的另一亮點是能夠處理分辨率最高 1344×896 像素的圖像,這是目前其他多模態(tài)大模型所能處理的最大尺寸的 6 倍,這意味著 Monkey 能對更大尺寸的圖片進(jìn)行更準(zhǔn)確、豐富、細(xì)致的描述甚至推理。

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標(biāo)題鏈接已成功復(fù)制

最新新聞

熱門新聞

欧洲人性生活视频| 先锋av影音| 羞羞色漫 - 在线漫画-为爱漫画的人而生| 女m被s调教虐玩抽打| 漂亮韩秭秭韩漫无遮挡| **毛茸茸japanese| 摸进她的内裤里疯狂揉她出水视频| 美女的娇喘| 国产精品久久久久久福利| 美女被男生插| 美女av免费在线观看| 一级毛片欧美**视频| 男出轨h慎入偷欲| 床戏被强到高潮床戏| 爽好大快深一点| abo婚后调教高h强制| 深夜视频免费在线观看| 办公室秘书高h喷水h| xxxxxtube4| 欧美西装中年办公室激情| 亚洲免费人成| 九色porny国模私拍av| 黄色激情小说网| 国产专区在线视频| 国产一二三四| 高考前在考场附近的宾馆第三季| 精品国产女人高潮毛片| 国产三级精品三级在线专区动图| 口述娇妻4p被三个男人感受| 午夜剧场中文字幕| 2021最新热播中文字幕-第1页-看片视频| 日本在线国产| 和男神们啪啪np高h| 久久亚洲国产精品尤物| 爱草成年| 强制sm胶衣窒息调教| 黄色片网站视频| 刑警娇妻地下会所调教h| 在线观看深夜福利| 免费国产羞羞网站视频| 在线观看免费高清在线观看|