免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

首頁 > 資訊 > 數(shù)字化

DeepSeek R1悄悄更新,用「小版本」干翻大模型

2025/05/30 11:25      字母榜 涯角


  雖然DeepSeek-R2并沒有像2個月之前盛傳的那樣,在5月甚至之前準(zhǔn)時赴約。但是,DeepSeek正在不斷地用小升級追趕其他廠商的大版本。

  昨天DeepSeek官方的一則「R1已完成小版本試升級」的消息,在各個AI討論群里炸開了花。這回的DeepSeek-R1-0528版本在各個社區(qū)引發(fā)震動的最主要原因是:它真的不是一次小更新!

  目前該升級版的DeepSeek-R1-0528已經(jīng)全量上線官方網(wǎng)頁、APP、小程序等等,API也已經(jīng)可以接入。

  關(guān)于DeepSeek官方多么有誠意,我們已經(jīng)在V3版本的升級上看到了——模型性能大幅提升只是開胃小菜,成本價格比更是再度優(yōu)化。這回的更新也是一樣,新版本的DeepSeek-R1主要在編程能力上大幅提升。據(jù)一家LLM API接入網(wǎng)站OpenRouter,這回的新版本R1的輸入輸出價格幾乎與先前版本毫無變化!

  在智能水平上,新版本DeepSeek-R1-0528在 Extended NYT Connections 基準(zhǔn)測試上相比原始 DeepSeek R1有了大幅提升:38.6 → 49.8。

  01

  它真的很難說是「小升級」

  現(xiàn)在,全網(wǎng)都在瘋狂拿它跟全面替代AI coding真神的Claude 4對比,發(fā)現(xiàn):這倆模型竟然不相上下?甚至有一張?jiān)贚ivecodebench上DeepSeek-R1-0528與o3-high旗鼓相當(dāng)?shù)幕鶞?zhǔn)測試對比圖,在網(wǎng)上瘋傳。許多網(wǎng)友認(rèn)為這回更新后的DeepSeek-R1-0528在代碼生成等編程領(lǐng)域的實(shí)力已經(jīng)進(jìn)入*梯隊(duì)了。

  我們搜集了全網(wǎng)最有趣的實(shí)測體驗(yàn),看看這回的DeepSeek-R1-0528到底將AI coding的能力拓展了多少:

  有X網(wǎng)友@karminski3設(shè)置了一個「DeepSeek-R1-0528 VS Claude-4-sonnet」挑戰(zhàn)賽,用彈球撞擊墻面的效果作對比。

  實(shí)測下來發(fā)現(xiàn):DeepSeek方的彈球看起來甚至還有光澤,撞碎墻面后的粒子效果幾乎能與Claude-4-sonnet一較高下,控制面板的美觀度也都非常在線。

  值得一提的是,在這次的測試中,兩個大模型使用了同一個Prompt,DeepSeek-R1-0528 生成了728行,而Claude-4-sonnet生成了542行。

  更新后的R1-0528在粒子效果的表現(xiàn)上尤其好。粒子效果通常會涉及復(fù)雜的動態(tài)動畫和物理模擬,像是物體運(yùn)動、碰撞、光影變化等等。這足以說明R1-0528在生成復(fù)雜動態(tài)動畫能力上有了很大的突破。

  X網(wǎng)友MILO,就做了個可交互的粒子動態(tài)動畫平臺,我們也進(jìn)去體驗(yàn)了下。我們注意到除了畫面中央的炫酷粒子爆炸外,右上角的粒子數(shù)計(jì)算也以一種很匹配的方式同步進(jìn)行著。

  在全棧網(wǎng)頁開發(fā)上,「小升級」之后的DeepSeek-R1-0528所表現(xiàn)出來的能力也有了很明顯的提升。

  比如,X上有網(wǎng)友@DomLiu給 DeepSeek-R1-0528 一個全棧網(wǎng)頁開發(fā)Prompt,就能在幾秒鐘內(nèi)從零開始構(gòu)建了一個完整的應(yīng)用程序。

  這段提示詞還非常的簡單:構(gòu)建一個 three.js 應(yīng)用程序,用于加載具有實(shí)時顏色/材質(zhì)/配件控制的 3D 模型。直觀的用戶界面。流暢的相機(jī)視角。

  更為驚艷的是下面這個Case,同樣是這位網(wǎng)友,他幾乎將DeepSeek-R1玩出了花,這也證明小升級后的DeepSeek-R1-0528到底在編程能力上有多強(qiáng)。

  簡單來說,他使用升級后的DeepSeek-R1做了一個3D畫廊,有這些功能:

  程序化幾何生成,動態(tài)場景生成系統(tǒng),多彩動態(tài)光影效果,相機(jī)動畫與過渡,虛擬畫廊導(dǎo)航體驗(yàn)。

  有實(shí)際用過Trae、Cursor、Windsurf等一眾AI coding的朋友肯定都懂一個具有強(qiáng)大自主編程能力的基座大模型到底意味著什么?——編程效率的指數(shù)級提升。

  3D藝術(shù)畫廊非常直觀地顯示了DeepSeek-R1-0528在面對復(fù)雜任務(wù)時的自主編程能力。

  再比如一個3D 太陽系模擬器,在這個產(chǎn)品中,可以點(diǎn)擊任何行星獲取進(jìn)一步的信息。同時畫面中呈現(xiàn)了*真實(shí)感的軌道。它同樣使用 three.js 構(gòu)建,簡潔、快速、交互性強(qiáng)。

  我們也實(shí)際上手測試了下,發(fā)現(xiàn)升級后的DeepSeek-R1-0528在面對非常簡單的提示詞時也能做出很快的反應(yīng),并自主地豐富功能。

  比如,我只給了它一句:

  生成一個蘋果官網(wǎng)風(fēng)格的前端網(wǎng)頁。

  它只經(jīng)過14秒的思考,就輕松理清了蘋果官網(wǎng)風(fēng)格設(shè)計(jì)頁面的設(shè)計(jì)思路:

  · 使用蘋果標(biāo)志性的深空灰/銀色調(diào)

  · 大字體標(biāo)題和簡潔文案

  · 高清產(chǎn)品圖像與漸變背景

  · 懸浮動畫效果

  · 響應(yīng)式布局

  最主要的是,很短時間內(nèi)它就已經(jīng)生成了462行代碼,做出來的效果也與我所設(shè)想的非常相近:

  除了純代碼能力之外,DeepSeek-R1-0528在前端審美上也有了很大的提升。

  比如下面這個原生iOS風(fēng)格界面設(shè)計(jì),采用了抹茶綠色主題,融合現(xiàn)代美學(xué),看起來搭配很流暢。

  除了產(chǎn)品應(yīng)用UI風(fēng)格之外,DeepSeek-R1-0528在HTML網(wǎng)頁的前端網(wǎng)格上也有了很大的提升。

  下面兩組新版本的介紹網(wǎng)頁中,深色是DeepSeek-R1-0528生成,在美觀度上更具科技感和視覺沖擊力,也非常符合AI大模型本來的調(diào)性;白色則是由Claude4生成:

  02

  思維鏈似乎改變了,出現(xiàn)了一些「副作用

  這回DeepSeek-R1-0528的強(qiáng)勢開源,甚至讓各國網(wǎng)友都重溫了下今年年初R1發(fā)布時的情景�,F(xiàn)在的DeepSeek-R1-0528已經(jīng)擁有了Claude系列的強(qiáng)自主編程能力,同時網(wǎng)友們在實(shí)際測試中也注意到它的思維鏈模式似乎發(fā)生了改變。

  很多實(shí)測后的網(wǎng)友都發(fā)現(xiàn)這回的升級版DeepSeek-R1-0528的思考過程實(shí)在是太長了,很容易出現(xiàn)過度思考的現(xiàn)象。

  比如,網(wǎng)友們發(fā)現(xiàn)了一個有趣的測試題:「估算一下π/7」,發(fā)現(xiàn)DeepSeek-R1-0528的思考推理過程有些太漫長了。

  我們也實(shí)際測試了下,面對這樣的一個小問題,DeepSeek-R1-0528的深度思考時間達(dá)到了148秒。并且,其推理過程顯得冗余性很大。

  DeepSeek-R1-0528在面對「估算一下π/7」這個問題時的思維鏈到底有多長,你可以直觀感受下:

  雖然各國網(wǎng)友都直觀感受到了升級后的DeepSeek-R1-0528在推理能力上消耗的時間變得長了,但推理結(jié)果精度的提升也是顯而易見的。經(jīng)過優(yōu)化的DeepSeek-R1-0528在處理復(fù)雜問題時,已經(jīng)展現(xiàn)出了更強(qiáng)的邏輯分析能力和更細(xì)致的推理過程,這使得輸出的答案不僅更加準(zhǔn)確,還在深度和廣度上都有了顯著改進(jìn)。

  比如,X網(wǎng)友@baalatejakataru在實(shí)際編程過程中發(fā)現(xiàn)新的 DeepSeek-R1-0528想得太多,但是出錯時能夠快速地自我糾正,還能夠很好地寫新興系統(tǒng)編程語言——Zig,表現(xiàn)很不錯。

  DeepSeek官方這回同樣延續(xù)了之前發(fā)布即開源的策略,R1-0528已經(jīng)正式開源。除了開源動作之外,更新后的R1仍然采用寬松的MIT許可證,意味著它可用于商業(yè)用途。

  這次DeepSeek-R1-0528的升級,進(jìn)一步印證了當(dāng)下大模型行業(yè)的趨勢:大版本固然令人期待,但持續(xù)穩(wěn)定的小步迭代同樣無法讓人裝作看不見。

  雖然DeepSeek-R2尚未如期而至,也引發(fā)了全網(wǎng)對于這一版本的疑惑。但是通過強(qiáng)化編程能力、優(yōu)化前端審美,DeepSeek團(tuán)隊(duì)持續(xù)的小步快跑,無疑讓業(yè)界重新審視小版本升級的巨大價值。盡管思維鏈的冗長帶來了一些「副作用」,但其帶來的精度提升和自我糾錯能力依然讓人無法忽視這次的版本升級。

  在未來,DeepSeek-R1-0528的這種不改變大架構(gòu),而是通過「小升級、小迭代」就能達(dá)成明顯效果的方式可能將會成為主流,「大版本號盲目崇拜」已經(jīng)被破除。

  下一次「小升級」,或許就是另一場風(fēng)暴的開始。

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報(bào)生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標(biāo)題鏈接已成功復(fù)制

最新新聞

熱門新聞