昨日,OpenAI發(fā)布可實時進行音頻、視覺和文本推理的新一代AI模型GPT-4o引發(fā)廣泛關(guān)注。今日,360集團創(chuàng)始人、董事長周鴻祎發(fā)表視頻分享了自己對于GPT-4o技術(shù)原理的理解和潛在的社會影響。
在談及GPT-4o的技術(shù)原理時,周鴻祎指出,據(jù)OpenAI發(fā)布會上簡短的技術(shù)原理介紹,區(qū)別于傳統(tǒng)將把語音先翻譯成文字處理后再翻譯成語音的做法,這次的技術(shù)是直接把語音進行了處理,形成了一個整合的大模型引擎,實現(xiàn)對語音輸入的直接理解——包括把語音中飽含的情緒、感情、語調(diào)、口音這些細節(jié)都進行了理解,同時是直接輸出語音。
“這就帶來了一個全新的體驗,就是時延大概只有300毫秒左右,達到了人類和人類談話的響應速度,這樣不僅能聽得懂你話里的情緒,在輸出回答的時候也可以伴隨著高興、悲傷、失望、興奮或者是更復雜的感情。”周鴻祎表示。
周鴻祎還指出,除了語音處理層面帶來的驚艷之外,有一個容易被忽視的地方是,實際上GPT-4o的還可以直接打開手機攝像頭,直接通過手機攝像頭賦予它更強大的眼睛的能力。這個可能還比不上Sora,但是它比GPT-4.5的版本可以輸入圖片輸入表格的能力又提升了一步。“所以總結(jié)來講就是,GPT-4.0相當于給人工智能賦予了對知識理解的能力,相當于有了一個大腦,然后GPT-4.5相當于給了一些初級的看見的能力,而GPT-4o實際上是給它增加了真正能看懂這個世界的眼睛,和能聽明白人說話的耳朵,而且嘴巴還能夠自由自在地表達自己情緒和情感的能力。”。
在周鴻祎看來,有些人會對此次發(fā)布OpeanAI沒有推出GPT-5.0覺得比較失望,但是通向通用人工智能不僅是要在超級的推理能力、知識能力、邏輯能力上要趕超人類,更重要的能力還包括跟人交互的能力。所以,當AI能通過無論是手機攝像頭還是無處不在的物聯(lián)網(wǎng)攝像頭更看明白這個世界,而且能以跟人一樣的響應速度進行交互的時候,這件事就變得非�?膳铝�,“也就是它就讓人工智能真正的更像人了”。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...