F5 與 NVIDIA 攜手推出新功能加速 AI 推論 共同提升 AI 工廠的經濟效益

F5攜手NVIDIA推出整合式解決方案,將網路與管理任務卸載至DPU,藉此大幅提升Token吞吐量並優化GPU效率。

全球應用與 API 交付與安全防護領導廠商 F5,宣布擴展與 NVIDIA 的合作,加速並優化 AI 推論的基礎設施。

結合 F5 BIG-IP Next for Kubernetes 與 NVIDIA BlueField-3 DPU 的整合式解決方案,打造具備智慧型、感知遙測的基礎架構層,可提升 token 吞吐量(throughput)、優化 GPU 使用率、降低延遲,並支援更大規模的多租戶 AI 平台部署。

在 AI 系統中,token 是 AI 輸出的可測量單位,也就是在推論過程中所產生與處理的文字、符號或資料片段。 token 的產出量與產出速度,最終決定了使用者體驗、基礎架構效率,以及每個 GPU 所能支援的服務規模與商業效益。

隨著企業與 GPU-as-a-Service 供應商競相將 AI 貨幣化並從 AI 實驗階段邁向可創造營收的服務,基礎架構效率已成為關鍵衡量指標。成功與否的評量標準,已不再單純取決於所部署的 GPU 容量,而是進一步聚焦於 token 經濟學(Token Economics)、持續性 token 吞吐量、首個 token 回應時間(Time to First Token,TTFT)、每 token 成本,以及每個 GPU 加速器所創造的營收。 F5 與 NVIDIA 的聯合解決方案,正是專為直接因應上述各項指標而設計。

透過智慧型 AI 基礎架構優化 token 經濟學

從以應用為中心的推論,轉向以 agent 驅動的 AI 工作流程,需要全新的架構方法來優化 token 吞吐量並降低成本。 BIG-IP Next for Kubernetes 現已整合 NVIDIA NIM 統計數據(NIM statistics)、 Dynamo 執行時期訊號(Dynamo Runtime signals),以及 GPU 遙測數據,在執行前即可做出具備推論感知能力的動態路由決策。透過即時將工作負載導向最適合的 GPU 資源或推論服務節點,該解決方案在提升持續性使用率的同時,也有效降低延遲與重複運算的發生。

 F5 首席產品長(CPO)Kunal Anand 表示:「AI 基礎架構已不再只是關乎 GPU 的存取或擴展部署規模,而是進一步演進為如何最大化每個加速器的經濟產出。我們與 NVIDIA 攜手合作,協助 AI 工廠將 token 產出視為可測量的商業指標。 BIG-IP Next for Kubernetes 提供了所需的智慧能力與治理機制,能夠提升 GPU 產出效益、降低每 token 的成本,並自信地擴展共享 AI 平台。」

經驗證的基礎架構效率:結構性提升

效能數據表現優異。根據 Tolly Group 驗證的測試結果,搭載 NVIDIA BlueField-3 DPU 加速的 BIG-IP Next for Kubernetes,token 吞吐量最高提升達 40% 、首個 token 回應時間(TTFT)加快 61%,整體請求延遲則降低 34% 。

這些並非漸進式的提升。 BIG-IP Next for Kubernetes 將網路、 TLS/加密、 AI 感知負載平衡和流量管理等任務卸載到 NVIDIA BlueField-3 DPU,從而節省了主機 CPU 資源,使 GPU 能夠專注於其真正的核心功能:持續、大規模地進行高吞吐量推理。最終成果提升 GPU 使用率、佇列延遲減少、 token 產出增加,並在固定的基礎架構規模下,實現更低的每 token 成本。至關重要的是,此方案無須對模型進行任何修改,使這些效益能夠立即部署於現有的 AI 工廠基礎架構。對於在 token 經濟學上相互競爭的企業與新世代雲端(NeoCloud)供應商而言,這正是「限制 AI 產出」「加速 AI 產出」的基礎架構之間的關鍵差異。

NVIDIA 網路事業部資深副總裁 Kevin Deierling 表示:「NVIDIA 加速運算基礎架構結合 F5 具備 AI 感知能力的應用交付與安全平台,解鎖了卓越的 AI 工廠 token 經濟效益,在無需更動任何模型的前提下,實現可擴展且具成本效益的推論。 F5 與 NVIDIA 攜手合作,協助企業以高效且經濟的方式擴展 AI 工廠推論能力。」

專為代理驅動 AI 與多租戶 AI 平台而生

現代 AI 工作負載日益朝向代理驅動、持續運行且具備情境感知的方向演進,對傳統負載平衡所無法提供的智慧流量控制有著迫切需求。強化後的 BIG-IP Next for Kubernetes 解決方案現可支援:

  • 針對代理式 AI 工作流程的推論感知路由
  • 與 NVIDIA DOCA 平台框架 (DPF) 整合,簡化 NVIDIA BlueField DPU 的部署和生命週期管理。
  • 支援動態 VRF 的 EVPN-VXLAN,實現安全的網路級多租戶。
  • 在 Kubernetes AI 環境中整合安全性、 token 治理和可觀測性。
  • 這些功能協助企業和 NeoCloud 供應商,能在業務部門或外部客戶之間安全地共享 GPU 基礎設施,同時保持效能隔離和可預測的服務等級。

AI 工廠經濟效益的控制平面

F5 與 NVIDIA 為企業提供經驗證的工具與最佳實務,以優化推論架構。隨著技術的強化,BIG-IP Next for Kubernetes 正逐步定位為 AI 工廠經濟學的策略性控制平台,用於管理代幣消耗、優化流量並最大化基礎設施投資回報率。

企業無需再經由過度配置來彌補效率不足,而是可以從每個已投入生產的 GPU 中挖掘更大的經濟價值。提高每 GPU 的收入、降低營運成本,並建立可擴展的 AI 服務,以支援持續成長。藉由結合 NVIDIA 的基礎架構遙測與 DPU 加速能力,以及 F5 的流量智慧與資安防護能力,兩家公司正協助企業將 AI 工廠轉型為高效、可獲利的平台,迎接代理式時代的全面到來。

新聞來源:網路資訊