
蘋果昨天在 WWDC 2025 上宣布,即將更新其 AI 模型,使其涵蓋整個智能套件。該模型在基準(zhǔn)測試中的表現(xiàn)不及 OpenAI 等競爭對手的舊模型。然而,這家科技巨頭辯稱,On-Device 和 Apple Server 較前代產(chǎn)品已有改進(jìn),能夠理解超過 15 種語言。
根據(jù)人工測試人員的說法,在 iPhone 和其他設(shè)備上本地運(yùn)行的最新設(shè)備模型在文本生成方面的表現(xiàn)與谷歌和阿里巴巴的舊模型相似。人工測試人員將設(shè)計在公司數(shù)據(jù)中心運(yùn)行的 Apple Server 評為落后于 OpenAI 一年前推出的 GPT-4o。在另一項評估中,他們在圖像分析能力方面更傾向于 Meta 的 駱駝 4,而不是 Apple Server。這些評分令蘋果感到意外,因為Llama 4與 Google、Anthropic 和 OpenAI 等人工智能實驗室相比,Scout 的表現(xiàn)不佳。
開發(fā)者對蘋果的創(chuàng)新承諾表示懷疑
開發(fā)人員認(rèn)為消極地人們對近年來 WWDC 的發(fā)布感到興奮,包括蘋果的小型設(shè)備端 AI 模型。人工智能個人理財應(yīng)用 Origi 的首席產(chǎn)品官 Atul Kakkar 透露,作為一名開發(fā)者,他并沒有感受到蒂姆·庫克領(lǐng)導(dǎo)的公司發(fā)布產(chǎn)品所帶來的那種強(qiáng)烈的興奮感。他認(rèn)為,一年一度的 WWDC 大會曾經(jīng)是科技界最熱鬧的盛會,但現(xiàn)在人們對這家 iPhone 制造商能否跟上 AI 巨頭的步伐持懷疑態(tài)度。
蘋果沒有公布其 AI 的基準(zhǔn)測試結(jié)果,而是根據(jù)一份記錄不充分的面對面評估報告進(jìn)行報告
但即使按照他們的標(biāo)準(zhǔn),蘋果最新的設(shè)備型號大多比谷歌的開放式 Gemma 3-4B 或 Qwen 3-4B 更差
他們的服務(wù)器 LLM 與 Llama 4 Scout 類似pic.twitter.com/hwpOG5Lgyp
— Ethan Mollick (@emollick)2025年6月10日
這家科技巨頭面臨著與時俱進(jìn)的壓力,需要不斷更新面向開發(fā)者的AI工具,并在Apple Intelligence套件中打造激動人心的消費(fèi)者體驗。AI育兒建議應(yīng)用Bobo的首席執(zhí)行官兼聯(lián)合創(chuàng)始人格蘭特·麥克唐納(Grant McDonald)表示,蒂姆·庫克的公司正在做一些有趣的事情,但還不足以脫穎而出。
McDonald 認(rèn)為,讓開發(fā)者利用其設(shè)備上的小型 AI 模型構(gòu)建 AI 應(yīng)用,或許正是該公司希望實現(xiàn)的價值。小型 AI 模型基于小型數(shù)據(jù)集進(jìn)行訓(xùn)練,消耗的計算資源更少,這意味著它們可以在 iPhone 上運(yùn)行,而無需在云端的大型服務(wù)器上運(yùn)行。他表示,在設(shè)備上運(yùn)行模型實際上比 GPT 和 Gemini 等基于云端的模型更便宜。
開發(fā)人員懷疑設(shè)備端模型能否比云端模型表現(xiàn)更好。一位開發(fā)人員表示,他們無法基于專有數(shù)據(jù)集對模型進(jìn)行微調(diào)。McDonald 表示,設(shè)備端模型對某些應(yīng)用來說已經(jīng)足夠好,但對 Bobo 來說則不然。這款育兒應(yīng)用利用來自睡眠顧問、哺乳顧問、語言病理學(xué)家和其他育兒專家的專有數(shù)據(jù)定制了其 AI 模型。
蘋果的人工智能研究部門難以追趕競爭對手
這家科技巨頭承諾將升級Siri,使其包含更多個性化內(nèi)容,但此次升級已被推遲。一些客戶起訴該公司營銷尚未交付的產(chǎn)品。研究人員表示,雖然人工智能模型在數(shù)學(xué)和科學(xué)方面表現(xiàn)非常出色,但復(fù)雜的問題只會讓人產(chǎn)生思考的錯覺。
這家科技巨頭推遲了大型語言模型的開發(fā)以及在其設(shè)備中應(yīng)用人工智能,以避免卷入討論。WWDC,該公司發(fā)布了 Apple Intelligence for AI 功能,但社區(qū)認(rèn)為其表現(xiàn)不盡如人意。
研究人員想象我們發(fā)現(xiàn),LRM 在某個點之后開始失效。這表明所有推理模型都表現(xiàn)出類似的模式,即準(zhǔn)確率隨著問題復(fù)雜性的增加而逐漸下降,直至準(zhǔn)確率降至零。研究人員表示,推理模型最初會運(yùn)用更多的思維標(biāo)記,但隨著復(fù)雜性的增加,它們會放棄,而且與直覺相反的是,盡管問題難度不斷增加,但它們的推理努力卻開始減少。
Forrester Research 分析師 Dipanjan Chatterjee 表示,圍繞 Siri 的沉默令人震驚。他透露,無論多少文本修正或可愛的表情符號都無法填補(bǔ)他所期待的 Siri 所具備的交互式人工智能體驗。他認(rèn)為,如果公司不迅速采取行動,Siri 的末日將至。該公司沒有提供 Siri 升級的具體時間表。不過,據(jù)該公司高級軟件主管 Craig Federighi 稱,該公司表示,最早也要到明年才會進(jìn)行升級。
Cryptopolitan 學(xué)院:厭倦了市場波動?了解 DeFi 如何助你建立穩(wěn)定的被動收入。立即注冊






.png)





















