7 月 22 日消息,科技媒體 9to5Mac 昨日(7 月 21 日)發布博文,挖掘蘋果新技術報告論文,探究其 AI 模型的訓練、優化及評估過程,并揭示了諸多幕后技術細節。
這份報告全稱為《Apple Intelligence Foundation Language Models – Tech Report 2025》,詳盡描述了蘋果在多個 AI 方面的處理,涵蓋模型架構、數據來源、預訓練、后訓練、工具開發、優化措施以及性能基準等。
該媒體解讀該技術報告,挖掘了 4 個值得關注的要點:
端側模型雙區塊設計
此前消息顯示,蘋果的 AI 模型將采用端側 + 云端組合方式,端側模型規模大約為 30 億(3B)個參數。
根據最新公布的技術報告,蘋果端側 AI 模型分為 2 個區塊(Blocks),其中第 1 個區塊包含大約 62.5% 的 transformer 層,而第 2 個區塊包含大約 37.5% 的 transformer 層,但移除了鍵(Key)和值(Value)的映射。
蘋果表示這種分割方式,在不影響模型的總體性能和輸出質量的情況下,讓模型在緩存時,減少了約 37.5% 的內存需求,同時輸出第一個 tokens 的時間也縮短了 37.5%。
云端模型采用創新架構
對于服務器端模型,蘋果開發了一種專門為其私有云計算平臺量身定制的架構,名為 Parallel-Track Mixture-of-Experts(PT-MoE)。
簡單來說,混合專家(Mixture of Experts)模式意味著,不是依賴單一的大型 AI 模型,而是將其拆分為多個較小的子網絡(或稱為專家),只有在任務與它們的專長相關時才會激活這些子網絡。
因此,如果輸入提示與烹飪相關,只會激活烹飪領域的專家,而其他專家則保持休眠狀態。這樣,雖然整體模型依然龐大,但其模塊化的設計使得模型能夠更快、更精確地響應。
蘋果構建了一種名為 Parallel Track Transformer 的新型 Transformer,并利用混合專家(MoE)層對其進行擴展。聽起來可能很復雜,但關鍵在于:
傳統的 Transformer 模型會通過一個層的堆棧依次處理 tokens,而蘋果的設計則是將模型分為多個并行的軌道。每個軌道獨立處理 tokens,并在某些點進行同步。
在每個軌道內,蘋果將每個其他常規 Transformer 層替換為 MoE 層,每個標記只激活幾個專家,而其他專家保持空閑。由于每個軌道都有自己的本地專家,模型避免了在整個系統中協調時的處理瓶頸。
再加上一個平衡本地上下文與整體理解(稱為交織全局和本地關注層)的巧妙設計,最終形成了一個模塊化、高效、可擴展的模型,速度更快、更精簡,同時保持了高度的智能。
蘋果大幅提升多語言支持
Apple 智能最初推出時最受詬病的問題之一(現在依然存在),是英語之外的語言支持有限。隨著新模型的發布,蘋果擴展了語言支持范圍,并在報告中詳細介紹了實現這一目標的步驟。