來源: 編輯:匿名 發表時間:2024-04-26 00:51:06 熱度:44
Nvidia今天透露,已經收購了Run:ai,一家开發優化顯卡集群性能軟件的初創公司。
此次收購交易的條款並未披露。TechCrunch援引兩位知情人士的話報道稱,此次交易對Run:ai的估值爲7億美金,這幾乎是這家總部位於特拉維夫的初創公司在收購之前籌集的資金金額的6倍。
Run:ai的正式名稱爲Runai Labs Ltd,提供的軟件主要用於加速配備了GPU的服務器集群。據該公司稱,由其技術支持的GPU環境可以運行的AI工作負載比其他方式要多出10倍,而且它是通過修復幾個經常影響GPU驅動的服務器的常見處理效率低下問題來提高AI性能的。
Run:ai解決的第一個問題,源於AI模型通常使用多個顯卡進行訓練。爲了將神經網絡分布在GPU集群上,开發人員會將其分成多個軟件片段,並在不同的芯片上訓練每個片段。這些AI片段必須在訓練過程中定期相互交換數據,這可能會導致性能問題。
如果AI片段必須與當前未運行的神經網絡的不同部分交換數據,則必須暫停處理,直到後一個模塊上线,由此產生的延遲會減慢AI訓練的工作流程。Run:ai可以確保促進數據交換所需的所有AI片段同時在线,從而消除不必要的處理延遲。
Run:ai的軟件還避免了所謂的內存衝突。在這種情況下,兩個AI工作負載會嘗試同時使用GPU內存的同一部分。GPU會自動解決此類錯誤,但故障排除過程需要時間。在AI訓練過程中,修復內存衝突所花費的時間會顯着增加並減慢處理速度。
在同一GPU集群上運行多個AI工作負載還可能導致其他類型的瓶頸。如果其中一個工作負載需要的硬件超出預期,那么它可能會使用分配給其他應用的基礎設施資源並放慢這些應用的速度。Run:ai提供的功能可以確保每個AI模型都獲得足夠的硬件資源,在沒有延遲的情況下完成分配的任務。
Nvidia副總裁、DGX雲部門總經理Alexis Bjorlin在一篇博客文章中詳細介紹了這一點,他說:“該公司在Kubernetes上構建了一個开放平台,這是現代AI和雲基礎設施的編排層,支持所有主流的Kubernetes變體,並與第三方AI工具和框架進行了集成。”
Run:ai主要銷售核心基礎設施優化的平台以及其他兩種軟件工具。首先是Run:ai Scheduler,它提供了一個爲开發團隊和AI項目分配硬件資源的接口,其次是Run:ai Dev,可以幫助工程師更快地設置用於訓練神經網絡的編碼工具。
Nvidia已經在自己的多款產品中附帶了Run:ai的軟件,包括Nvidia Enterprise,是Nvidia爲自己數據中心GPU提供的一套开發工具,以及DGX系列AI優化型設備。Run:ai也可在DGX Cloud上使用,並且通過該產品,企業可以訪問主流公有雲中的Nvidia AI設備。
Bjorlin表示,“在可預見的未來”,Nvidia將繼續在當前定價模式下提供Run:ai的工具,與此同時,Nvidia將發布該軟件的增強功能,重點關注有助於優化DGX雲環境的功能。
Bjorlin詳細介紹道:“客戶可以期望他們將受益於更好的GPU利用率、改進的GPU基礎設施管理以及开放架構帶來的更高靈活性。”
標題:Nvidia斥資7億美金收購GPU集群優化初創公司Run:ai
地址:https://www.vogueseek.com/post/63023.html
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。