亚洲精品在线观看91,老牛国产精品一区的观看方式,国产精品xxx

7 月 22 日消息，科技媒體 9to5Mac 昨日（7 月 21 日）發布博文，挖掘蘋果新技術報告論文，探究其 AI 模型的訓練、優化及評估過程，并揭示了諸多幕后技術細節。

這份報告全稱為《Apple Intelligence Foundation Language Models – Tech Report 2025》，詳盡描述了蘋果在多個 AI 方面的處理，涵蓋模型架構、數據來源、預訓練、后訓練、工具開發、優化措施以及性能基準等。

該媒體解讀該技術報告，挖掘了 4 個值得關注的要點：

端側模型雙區塊設計

此前消息顯示，蘋果的 AI 模型將采用端側 + 云端組合方式，端側模型規模大約為 30 億（3B）個參數。

根據最新公布的技術報告，蘋果端側 AI 模型分為 2 個區塊（Blocks），其中第 1 個區塊包含大約 62.5% 的 transformer 層，而第 2 個區塊包含大約 37.5% 的 transformer 層，但移除了鍵（Key）和值（Value）的映射。

蘋果表示這種分割方式，在不影響模型的總體性能和輸出質量的情況下，讓模型在緩存時，減少了約 37.5% 的內存需求，同時輸出第一個 tokens 的時間也縮短了 37.5%。

云端模型采用創新架構

對于服務器端模型，蘋果開發了一種專門為其私有云計算平臺量身定制的架構，名為 Parallel-Track Mixture-of-Experts（PT-MoE）。

簡單來說，混合專家（Mixture of Experts）模式意味著，不是依賴單一的大型 AI 模型，而是將其拆分為多個較小的子網絡（或稱為專家），只有在任務與它們的專長相關時才會激活這些子網絡。

因此，如果輸入提示與烹飪相關，只會激活烹飪領域的專家，而其他專家則保持休眠狀態。這樣，雖然整體模型依然龐大，但其模塊化的設計使得模型能夠更快、更精確地響應。

蘋果構建了一種名為 Parallel Track Transformer 的新型 Transformer，并利用混合專家（MoE）層對其進行擴展。聽起來可能很復雜，但關鍵在于：

傳統的 Transformer 模型會通過一個層的堆棧依次處理 tokens，而蘋果的設計則是將模型分為多個并行的軌道。每個軌道獨立處理 tokens，并在某些點進行同步。

在每個軌道內，蘋果將每個其他常規 Transformer 層替換為 MoE 層，每個標記只激活幾個專家，而其他專家保持空閑。由于每個軌道都有自己的本地專家，模型避免了在整個系統中協調時的處理瓶頸。

再加上一個平衡本地上下文與整體理解（稱為交織全局和本地關注層）的巧妙設計，最終形成了一個模塊化、高效、可擴展的模型，速度更快、更精簡，同時保持了高度的智能。

蘋果大幅提升多語言支持

Apple 智能最初推出時最受詬病的問題之一（現在依然存在），是英語之外的語言支持有限。隨著新模型的發布，蘋果擴展了語言支持范圍，并在報告中詳細介紹了實現這一目標的步驟。

久久av综合,激情婷婷欧美,自拍自偷一区二区三区,久久精品免费一区二区三区