7 月 21 日消息,據外媒 Apple Insider 今晚報道,蘋果公司在一篇新的研究論文中再次強調,蘋果智能模型的訓練并未使用任何非法從網絡抓取的數據。
蘋果在新發布的研究論文中表示,如果出版商不同意其數據被抓取用于訓練,蘋果公司將不會抓取這些數據。“我們相信,使用多樣且高質量的數據來訓練我們的模型是必要的。這些數據包括我們從出版商那里獲得授權的數據、公開可用或開源數據集中的數據,以及通過我們的網絡爬蟲 Applebot 抓取的公開信息。”
蘋果公司補充道:“我們不會在訓練基礎模型時使用用戶的私人數據或用戶交互信息。我們還采取措施應用過濾器,去除個人身份信息,排除粗俗和不安全的內容。”
論文的重點在于蘋果如何執行這一抓取過程,特別是 Applebot 系統如何在“網絡雜亂無章的環境”中確保能夠獲取有效信息。然而,蘋果也回應了有關版權的問題,每次都重申蘋果始終尊重版權持有者的權益。
IT之家從論文中獲悉,蘋果公司表示:“我們將繼續遵循最佳的倫理抓取實踐,包括遵守廣泛采用的 robots.txt 協議,允許網頁出版商選擇是否讓他們的內容被用于訓練蘋果的生成式基礎模型。網頁出版商對 Applebot 可以訪問哪些頁面以及如何使用這些頁面擁有細致的控制,同時這些頁面仍然能出現在 Siri 和 Spotlight 的搜索結果中。”
這些“精細控制”顯然是基于長期使用的 robots.txt 系統。其并非標準的隱私保護機制,不過仍被廣泛采用,網頁出版商通常會在網站上放置一個名為 robots.txt 的文本文件。
如果 AI 系統看到該文件,它就應該避免抓取該站點或文件中列出的特定頁面。“遵守 robots.txt 協議很容易,而 OpenAI 也曾表示它會遵守這一協議。”