F5 憑藉基於NVIDIA BlueField-3 DPU 的BIG-IP Next for Kubernetes 強大全新AI 功能,釋放創新潛能

企業領導者知道他們需要把AI 放在第一位,但這說來容易做來難。 AI 可能很複雜、昂貴且有風險,技術和生態系統都在快速發展。

首先,我們顯然不再採取「一刀切」的做法。 預測性AI/ML、生成性AI 以及現在的代理性AI 都在針對特定產業和應用進行調整。 隨著專用AI模式的激增,AI格局變得越來越多樣化。

現在很明顯,AI 應用需要客製化的基礎設施,不僅針對效能、成本和能源效率進行最佳化,而且還能夠跟上AI模型、應用和代理快速發展的需求。 一個完美的例子是模型上下文協議(MCP),這是一項幾個月前還不存在的強大創新。

隨著各組織競相利用生成式AI 和越來越多的AI 代理,一些組織正在建立自己的專用資料中心。 其他人則轉向專門的供應商,部署客製化的雲端規模基礎設施來支援多種大型語言模型(LLM)。這些平台通常被稱為AI 工廠或Neoclouds,在加速運算、網路和儲存方面投入了大量資金,旨在滿足AI 工作負載的強大效能和擴展需求。

建構自主、可擴展的AI 和LLM 推理基礎設施需要應對四個關鍵挑戰:

  1. 延遲和效能——快速、響應迅速的AI 至關重要,尤其是對於互動式用例而言。 沒有人喜歡盯著旋轉器等待AI 思考。
  2. 資料安全與隱私-法學碩士經常處理敏感資料。 確保安全、私密的推理至關重要,而且由於雲端和本地環境之間的安全規則和合規性不同,因此更加複雜。
  3. 法規遵從性-隨著AI 在各行業的擴展,歐盟一般資料保護規範(GDPR) 等法規對資料使用、模型選擇、透明度和公平性增加了嚴格的規定。 導航這些至關重要。
  4. 模型管理和整合-AI 模型需要持續管理,包括版本控制、監控和更新,並且必須順利整合到現有系統中。 它不是即插即用的,但儘管AI模型面臨安全挑戰,MCP 等協議使其變得更容易。

部署最適合任務的晶片

F5 正與NVIDIA 攜手合作,協助確保AI 工廠和雲級AI 基礎設施滿足現代AI 的需求。今天,在NVIDIA GTC Paris 2025上,我們將揭曉部署在NVIDIA BlueField-3 DPU 上的F5 BIG-IP Next for Kubernetes的全新功能,引領創新新紀元。 這是基於我們在2025 年聖荷西GTC 上推出的增強效能、多租戶和安全性。 作為F5應用程式交付和安全平台的一部分,F5 BIG-IP Next for Kubernetes 在NVIDIA BlueField-3上原生運行,這是一款功能強大、可編程的處理器,專為資料移動和處理而設計。

透過卸載網路處理、儲存管理和安全操作(例如加密和流量監控)等任務,DPU 可以釋放寶貴的CPU 週期和GPU 資源,以專注於AI 訓練和推理。 這減少了瓶頸,提高了效能,改善了延遲,幫助AI 工廠更快、更有效率地運行,交付更多的代幣。

DPU 位於網路介面卡上,管理跨伺服器以及外部客戶/用戶/代理與AI 工廠之間的資料流,從而大規模協調網路和安全性。 部署在NVIDIA BlueField-3 DPU 上的F5 BIG-IP Next for Kubernetes 於4 月全面上市。

將AI 提示引導至正確位置,以獲得正確結果

近幾個月來,法學碩士學位課程發展迅速,目前提供各種規模、費用和特定領域的專業知識。 為每個提示選擇正確的模型不僅可以確保更好的回應和法規遵循,還可以優化資源消耗、成本和延遲。

透過如今對NVIDIA NIM 微服務的整合,組織現在可以智慧地將AI 提示請求路由到最合適的LLM 或精確地路由到每個任務的正確模型。 例如,輕量級、節能的模型可以處理簡單的請求,而更複雜或更大、更專業的提示則指向更大或特定領域的模型。

這種方法使AI 工廠能夠更有效地利用計算資源,從而將推理成本降低高達60%。 對於模型提供者和模型使用者來說,獲得更好的回應、更快的速度和更低的成本是雙贏的。

少即是多: 快取消除了冗餘計算並提高了令牌輸出率

除了GPU之外,NVIDIA還在軟體層面不斷創新,以應對AI推理中的關鍵挑戰。  NVIDIA Dynamo  NVIDIA NIM 中包含的KV 快取就是很好的例子。 NVIDIA Dynamo 引入了分解服務進行推理,將不同GPU 叢集中GPU 運算密集的上下文理解(預先填充)與記憶體頻寬密集的回應產生(解碼)分離。 透過高效處理調度、路由和記憶體管理,這提高了GPU 利用率並簡化了跨資料中心的擴展。 KV 快取優化了模型上下文的儲存和存取方式。 透過將常用資料保存在GPU 記憶體中並將其餘資料卸載到CPU 或儲存中,它可以緩解記憶體瓶頸,從而無需額外的硬體即可支援更大的模型或更多用戶。

BIG-IP Next for Kubernetes 的一個強大新功能是支援KV 緩存,這可以加快AI 推理速度,同時減少時間和能源消耗。 結合NVIDIA Dynamo 的智慧路由,基於GPU 記憶體使用情況和其他標準等一些明確的指標,這可以顯著縮短第一個令牌的時間(TTFT)、提高令牌生成率,並最終實現更迅速的吞吐量。 DeepSeek 的容量已提高了10 倍到30 倍。

客戶可以利用F5 可程式性來擴展和調整F5 BIG-IP功能,以極高的效能滿足其精確而獨特的需求。

MCP 的運作與安全保障,以及安全自主的代理AI

對於大多數組織,尤其是大型組織,例如擁有複雜傳統系統的金融服務公司、電信公司和醫療保健公司,代理 AI 具有強大的吸引力。 這些基於LLM 的AI 代理可以瀏覽複雜的資料庫、伺服器、工具和應用程式以檢索精確的信息,從而實現更高的效率和洞察力。

MCP 由Anthropic 於2024 年11 月推出,它正在改變AI 系統與現實世界資料、工具和服務互動的方式。 MCP伺服器作為標準化的連接器,使AI模型能夠即時存取API、資料庫和檔案系統,從而使AI 超越靜態訓練資料的限制,高效地執行任務。 隨著採用率的成長,這些伺服器需要具有負載平衡、強大安全性、身份驗證、資料和工具授權以及無縫Kubernetes 整合的高階反向代理,從而使MCP 成為主權AI 基礎設施和保護及支援代理AI 的關鍵支柱。

部署在NVIDIA BlueField-3 DPU 上的BIG-IP Next for Kubernetes 作為MCP 伺服器前面的反向代理,可以擴展和保護MCP 伺服器,驗證請求、分類資料、檢查其完整性和隱私,從而保護組織和LLM 免受安全威脅和資料外洩。 同時,F5 的可程式性使得確保AI應用符合MCP 和其他協定的要求變得非常簡單。

如果代幣是新的貨幣,那麼讓我們計算它、管理它,並明智地使用它。

在最近的收益公告中,一些主要組織已經開始披露每季產生的代幣數量、其成長以及與之相關的收入。 這反映了我們客戶日益增長的需求:能夠像預算一樣追蹤、管理和控制代幣的使用,以避免公有雲有時發生的意外成本。

這就是為什麼BIG-IP Next for Kubernetes 現在包含用於計量和管理整個組織的令牌消耗的新功能。 當客戶詢問時,我們會認真傾聽並盡力解答。

建構安全、快速、自主且靈活的AI 工廠

隨著各產業發展AI 工廠,各國建立自主AI ,AI 代理正在湧現,基礎設施、生態系統和應用必須靈活且適應性強。 有效部署AI 的組織將行動更快、更好地服務客戶並降低成本。 但要實現這一潛力,AI 必須保持安全性、可擴展性和成本效益,同時不能減緩創新的步伐。

這就是F5 的作用所在,去年三月,我們實現了效能、多租戶和安全性。 現在,借助BIG-IP Next for Kubernetes,我們可以實現以AI 速度發展的創新。

我們的承諾: 每美元、每瓦特可獲得更多代幣。 試試看並親眼見證差異。

文章來源:F5