手机在线观看成人网站,午夜情侣毛片91能视频

DoNews > 專欄 > Manus都點贊的Claude 4，究竟好在哪兒？

Manus都點贊的Claude 4，究竟好在哪兒？

字母榜 2025-05-23 17:01:52

383181

分享到

目睹完今天 Claude 4 的發(fā)布會全程，我只看到了一句話 ——大模型正在范式轉(zhuǎn)變， AI智能體時代真的來了。

AI 編程的唯一真神 Claude 3.7 Sonnet，終于被 Antrhopic 的下一代 AI 大模型——Claude Opus 4 和 Claude Sonnet 4 徹底淘汰掉了。各國網(wǎng)友對此有非常直觀的感受，比如有人在一手實測中瘋狂夸贊 Claude 4：「它一下子就能寫出 8000 行代碼」。

除了 Claude 4 的推出之外，他們還順手給了幾個新智能體時代的功能拓展。

我們先從大模型講起。

Claude 4 瞄準(zhǔn)了 AI 智能體編程

這次，他們推出的 Claude Opus 4 和 Claude Sonnet 4 這兩款模型都是混合模型：及時響應(yīng)與深度思考并重。

可見，混合思考架構(gòu)已然成為未來大模型的趨勢，用戶需要在簡單的需求下獲得更快的回復(fù)，在復(fù)雜要求中獲得更好的生成結(jié)果。兩款模型在性能、功能和應(yīng)用場景上有了顯著提升，價格卻與之前的 Opus 和 Sonnet 模型保持一致，內(nèi)部優(yōu)化做得很好。

先從評分開始看起。Claude 4 模型在用于評估真實軟件工程任務(wù)性能的 SWE-bench Verified 基準(zhǔn)上堪稱「遙遙領(lǐng)先」。值得一提的是，在本次評分對比中，Claude 4 特意被拉來與 OpenAI 前幾天剛剛高調(diào)發(fā)布的「最強 AI 編程智能體 Codex-1」進(jìn)行正面較量。

Claude Opus 4 在編碼、研究、寫作和科學(xué)發(fā)現(xiàn)等人類復(fù)雜性高的任務(wù)方向，拓展了邊界。比如，在編碼領(lǐng)域它被 Cursor 稱為頂尖技術(shù)，顯著提升復(fù)雜代碼庫的理解能力，適合處理復(fù)雜的編程任務(wù)。Cognition則強調(diào)Opus 4已經(jīng)能夠解決其他模型無法應(yīng)對的復(fù)雜任務(wù)。

Claude Sonnet 4 將“天賦”融入日常使用場景，這款均衡型模型在內(nèi)部和外部應(yīng)用中兼顧了性能與效率，雖在多數(shù)領(lǐng)域不及 Opus 4，但提供了能力與實用性的最佳結(jié)合。它非常適合需要自主性的場景。iGent 的報告指出，Sonnet 4 在自主開發(fā)多功能應(yīng)用方面表現(xiàn)驚艷，錯誤率幾從 20% 驟降至幾乎為零。

在下面這張綜合基準(zhǔn)測試評分表中，Claude 4 與其他市場主流大模型在編程、推理、多模態(tài)能力、智能體任務(wù)方面都拉開了一定差距。

有趣的一點是，Anthropic 將最左側(cè)的數(shù)個基準(zhǔn)測試名稱中都加入了「Agentic」。

2025 是 AI 智能體時代這一說法，再次被確認(rèn)。

在 Anthropic 的官方發(fā)布中，有很大的篇幅著重介紹了 Claude 4 系列在「復(fù)雜項目」構(gòu)建中的震撼級能力。其中，官方著重引用了 Github Copilot、iGent，甚至是 Manus 等平臺的反饋。日本一家名叫樂天得企業(yè)，甚至讓Claude Opus 4獨立編程7h，團(tuán)隊自己都有些驚訝。

前段時間剛一問世就被網(wǎng)絡(luò)平臺譽為「上帝之手」的 Manus 則在報告中大贊 Claude Sonnet 4，稱它復(fù)雜指令遵循能力和輸出的美觀度非常高。

可以預(yù)見的是，目前智能體賽道的各個選手將會第一時間集成 Claude 4，因為它相對于之前的 Claude 模型在智能體任務(wù)中有了太多的改進(jìn)。

比如：

1. Opus 4 和 Sonnet 4 不再像 Sonnet 3.7 那樣愛走捷徑和漏洞了，這種不正常的行為發(fā)生率直接降低了 65%。

2. Opus 4 也迅速跟進(jìn)了「記憶增強」，現(xiàn)在它可以更好地執(zhí)行長期任務(wù)了。

3. 使用小型模型壓縮冗長的思考過程，自己去做思考摘要。

Claude 4 其實是 LLM + Agent 的混合體？

除了 Claude 4 發(fā)布之外，整場發(fā)布會的另一個側(cè)重點是：Claude 代碼已經(jīng)發(fā)布。用戶已經(jīng)能夠通過終端、IDE （VS Code 和 JetBrains）及通過 Claude 代碼 SDK 后臺將 Claude 融入開發(fā)流程。用戶可以在終端中直接利用 Claude，瞬間搜索百萬行代碼庫。

在官方介紹中，Claude Code搭載 Claude Opus 4，可以通過智能體搜索全面理解代碼庫，無需手動選擇上下文即可協(xié)調(diào)多個文件更改，無縫融入工作流，直接運行于終端。

只需在 IDE 終端運行 Claude 代碼即可安裝，可擴展的 Claude 代碼 SDK 還能讓用戶輕松「打造自定義智能體和應(yīng)用」。Anthropic 給想要構(gòu)建智能體的用戶們又打上了一劑強心針。

Anthropic 還發(fā)布了幾個面向智能體的新功能：代碼執(zhí)行工具、MCP 連接器、文件 API，以及最多可緩存一小時提示詞的能力，讓 Claude 4 幾乎成為了智能體專精模型。在我看來，這就是 Anthropic 在 AI 下半程「智能體入口爭奪戰(zhàn)」中的大動作。允許模型將推理與外部資源結(jié)合的設(shè)計，使 Claude 4 架構(gòu)更像是一個 LLM+Agent 的混合體。

可以這么說，整場發(fā)布會看下來，Claude 4 幾乎是將自己確立為「AI 智能體時代」最能用也是最好用的大模型。

除了技術(shù)側(cè)內(nèi)容，Anthropic 在安全上的操作一直都非常令人「印象深刻」，封號封的各個社區(qū)怨聲載道。官方這回依舊強調(diào)了這些模型都經(jīng)過了廣泛的測試和評估，比如他們用了ASL-3 安全分類，在這個風(fēng)險標(biāo)準(zhǔn)下：「AI 系統(tǒng)具有顯著增加災(zāi)難性濫用風(fēng)險」。

他們還是沿襲了Anthropic的標(biāo)志性安全策略——“憲法AI”（Constitutional AI）。該方法為模型嵌入了一套“憲法”原則，通過額外的AI模型對用戶的輸入和模型的輸出進(jìn)行再度掃描，檢查是否有「壞」的內(nèi)容，決定是否放行。這回，Anthropic放出來的模型卡PDF中足足有123頁，其中大部分仍然是在專注于AI安全的測試。

比如，Anthropic決定根據(jù) AI 安全級別 3 標(biāo)準(zhǔn)發(fā)布 Claude Opus 4，根據(jù) AI 安全級別 2 標(biāo)準(zhǔn)發(fā)布 Claude Sonnet 4，分級分的非常精準(zhǔn)。

但是，現(xiàn)在的外網(wǎng)針對 Claude 4「過于高」的安全措施的討論，幾乎亂成了一鍋粥。因為有網(wǎng)友似乎基于Claude給出的系統(tǒng)卡文件爆料：Claude 4 會檢測用戶內(nèi)容，并自主「報警」……

雖然暫無法確定這些爆料是否真實，但也確實反映了大家認(rèn)為 Claude 4 的安全措施真的太過于嚴(yán)格了，甚至到了可能影響用戶體驗或功能性的地步。畢竟，國內(nèi)的Claude使用者已經(jīng)流行起了「打一槍，換一個地」的使用策略。

Claude 4 在實測中全面提升

目前各個社區(qū)、各個國家的網(wǎng)友全部在瘋狂測試這款即將取代 Claude 3.7 Sonnet 的大模型。為了支撐智能體中常常需要的長序列復(fù)雜處理任務(wù)，具有美感輸出能力且超強的 AI 編程能力的大模型仍然是極度稀缺的。Claude 4 系列只是看前方無人在，順勢補缺而已。

那么說到底，Claude 4 面對復(fù)雜性任務(wù)，表現(xiàn)到底有多超綱？

下面來看看全網(wǎng)實測案例：

Claude 4 與 Blender MCP 的連接，讓產(chǎn)品 3D 模型設(shè)計幾乎有了質(zhì)的飛躍。像是有網(wǎng)友使用 Claude 4 和 Blender 通過 MCP 聯(lián)動制作了日本清水寺的 3D 模型。這回的 Claude 4 相比于前代 Claude 3.7，編程時間大幅減少，全程無需「人類陪伴」，AI 的幻覺發(fā)生率也下降了很多。

甚至還有網(wǎng)友使用 Claude Opus 4 制作了類似 Bemani 2DX 風(fēng)格的游戲。不僅重現(xiàn)了經(jīng)典的音樂游戲體驗，還融入了許多創(chuàng)新元素，提升了游戲的可玩性和趣味性。

Claude 4 在面對復(fù)雜任務(wù)的處理上十分得心應(yīng)手。比如有網(wǎng)友輸入提示詞：用立體相機拍攝物體，推測 3D 空間坐標(biāo)，并通過交互式可視化展示，并支持拖動。

除了硬核編程能力的提升之外，Claude 4 在設(shè)計感上正如 Manus 所說，有了很大的美學(xué)提升。很多網(wǎng)友曾在各個社區(qū)評論下笑稱：各個智能體什么小游戲都能做，但是沒見過做 PPT 的。

一位外網(wǎng)網(wǎng)友就試著讓 Claude 4 制作說明幻燈片，呈現(xiàn)出來的效果非常具有設(shè)計感，整體要素也更加簡潔。

在美學(xué)的提升方面，這有個更直觀的 Case。一位網(wǎng)友只給了 Claude Opus 4 一小段提示詞：“將書籍《Piranesi》作為 p5js 3d 空間，do it for me”，沒有摻雜任何其他元素。

Claude Opus 4 甚至在初版原型中加入鳥、光照、水面等元素，雖然效果還比較基礎(chǔ)，但仍能反應(yīng)這款旗艦?zāi)Ｐ偷男阅堋?/p>

目前，大量的 AI 編程平臺（像是 Cursor、Trae、WindsurfVapi、Codegen）、智能體產(chǎn)品（像是 Flowith）內(nèi)幾乎都迅速接入了 Claude 4 系列，畢竟它可能是能進(jìn)一步提升智能體表現(xiàn)的重要模型。

Anthropic 由于一直以來專注于安全頂層設(shè)計，而常常被認(rèn)為「他們還沒有找到一個合適的 AI 入口，只能當(dāng)個掃地神僧，甚至沒有辦法參加到最高級別的公開賽場之中」。

當(dāng) Claude 4 系列模型發(fā)布，以及其他像是代碼執(zhí)行器、MCP 連接器、Claude 代碼等等面向智能體產(chǎn)品的功能模塊推出，Anthropic 可以說已經(jīng)拿到了一個非常好的「智能體入口」，正式站到了頂級賽場。

從 Anthropic 去年推出 MCP 協(xié)議以來，再到 Claude 4 的出現(xiàn)，他們已經(jīng)在事實上為 AI 智能體時代按下了「加速鍵」。Anthropic 的 CEO——Dario Amodei 為整個 AI 大模型賽道明確了一個未來的方向：真正優(yōu)秀的 AI 大模型，一定是「大模型」與「智能體」的深度融合 —— 它能編程、能思考，還能自主解決復(fù)雜問題，甚至具備了美學(xué)與設(shè)計感。

AI 的下半場早已經(jīng)開啟，Claude 4 正在引領(lǐng)一場新的「 AI 大模型+智能體」范式轉(zhuǎn)變。

特別聲明：本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載，文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點，不代表DoNews專欄的立場，轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)