來源: 編輯:匿名 發表時間:2023-06-28 00:50:23 熱度:46
智東西
作者 | 李水青
編輯 | 心緣
生成式AI領域的最大並購案已經誕生!
智東西6月27日報道,據華爾街日報今日消息,大數據超級獨角獸Databricks近日已同意以13億美元(約合94億元人民幣),收購生成式AI初創公司MosaicML,引起了國內外資本和智能圈的高度關注。
MosaicML是一家2021年創立於美國舊金山的AI軟件公司,截至目前公司總人數62人,此前僅獲得了6400萬美元融資。這樣一家小AI公司爲何能賣出百億元人民幣身價?從消息面上看,MosaicML的創業團隊由英特爾負責AI的前高管掌舵,剛剛在今年6月开源了一個300億參數規模的大語言模型MPT-30B,這些動向都爲其成爲“OpenAI挑战者”埋下伏筆。
同樣位於舊金山的Databricks是一家知名數據存儲和管理公司,本次收購MosaicML,按照其說法,是要助企業客戶利用專有數據,以更低成本構建語言模型,趕超GPT等大模型。
當下正值AI掀起新浪潮,微軟、OpenAI、谷歌等科技大廠的聲勢浩大,國內的“百模大战”也進入深水區。當下,一些國內投資者對AI大模型創業的前景產生了懷疑,比如知名投資人、金沙江創投董事總經理朱嘯虎就直言,ChatGPT對創業公司很不友好,未來兩三年內請大家放棄。MosaicML收購案或許能爲當下的產業圈提供新的參考。
在OpenAI及科技大廠當道的大模型時代,AI創企的發展空間在哪裏?MosaicML這樣創立僅兩年的公司爲何能賣出高價?這對國內市場有什么參考意義?本文對此進行了深入探討。
一、MosaicML是誰?僅15名研究員,英特爾AI大佬創業,已开源大模型
首先來看看MosaicML公司是什么來路。
從規模上看,MosaicML並不大。根據外媒援引官方披露消息,MosaicML目前擁有62名員工,其中研究人員僅爲15名,在舊金山、紐約、帕洛阿爾托和聖迭戈設有辦事處,迄今爲止主要是從Lux Capital和DCVC等投資者那裏籌集了6400萬美元。
但MosaicML的創業團隊不簡單。MosaicML聯合創始人兼首席執行官Naveen Rao曾任英特爾副總裁兼AI產品事業部總經理。Rao之前創辦了AI芯片公司Nervana,於2016年以4.08億美元被英特爾收購。MosaicML的CTO Hanling Tang是前英特爾AI實驗室高級總監,可以說MosaicML是妥妥的大佬創業。
▲MosaicML聯合創始人兼首席執行官Naveen Rao(左)和CTO Hanling Tang(右)
MosaicML已經开源了大語言模型,接受市場檢閱。今年5月,其开源了70億參數規模的大語言模型MPT-7B,緊接着在6月开源了第二個开源大型語言模型MPT-30B。該公司稱,盡管其參數量僅爲300億,是GPT-3的1750億參數的1/6,但在推理任務表現超過GPT-3,且能更容易在本地硬件上運行,部署推理成本更低。
Rao承認,GPT-4在大多數方面的功能都更爲優越,不過,MosaicML的模型提供了更長的上下文長度,這允許獨特的用例,例如讓其生成著名小說《了不起的蓋茨比》的尾聲,且成本更低。
按照MosaicML的說法,300億的參數規模是其精心選擇的結果,可以更好地針對GPU進行優化:
其能夠輕松部署在單個GPU上,在16位精度對應一塊80GB內存的A100 GPU,也可以在8位精度對應一塊40GB的A100GPU。據稱該模型在衆多任務中實際效果優於更費算力的LLaMA、Falcon。Rao在採訪中提到,MosaicML使用了一種名爲“FlashAttention”的技術,使用戶能更快地進行推理和訓練。
同時,MPT-30B接受了比其他模型更長的序列的訓練,最多達8000個標記;但包括GPT-3、LLaMA和 Falcon每個模型僅爲2000個標記。簡單說,這意味着用戶可以輸入更長的提示,可能更適合數據密集型企業應用程序。
醫療保健和銀行等行業可以受益於MosaicML解釋和匯總大量數據的能力。例如,在醫學領域,該模型可以解釋實驗室結果,並通過分析各種輸入來深入了解患者的病史。开源模型更有利於保障醫療數據安全,通過API將其發送給OpenAI則威脅數據安全。
Rao說,其可以助一個模型的構建成本從數千萬美元降至數十萬美元。
不過,很難完全獨立驗證MosaicML的說法,因爲Rao談到的三個开源大語言模型項目(MosaicML、LLaMA和Falcon)尚未使用斯坦福大學的HELM措施等權威方式進行測試。
但可以肯定的是,MosaicML在這幫英特爾系AI大牛的帶領下,正通過對准GPT模型的局限之處,試圖越過OpenAI實現彎道超車。
二、超級獨角獸出手,加碼开源大模型,與OpenAI掰腕子
不僅MosaicML是开源大語言模型的代表,其收購方Databricks也是开源模型的重要倡導者。
Databricks創立於2013年,是一家由美國伯克利大學AMP實驗室著名的Spark大數據處理系統多位創始人聯合創立的Spark商業化公司。相比於微軟、谷歌等大廠,Databricks實際上也只能算一家創企。但其在2021年8月完成了一輪16億美元融資,當年已成爲估值達380億美元的超級獨角獸,趕超了OpenAI當下的估值。
營收方面,根據Databricks公布數據,其在2022年年收入超過10億美元,這都爲公司收購MosaicML提供了經濟基礎。
在AI方面,Databricks主張开源模型可以與OpenAI等公司提供的模型相媲美。
今年4月,Databricks公布了其更新之後的开源Dolly大語言模型,它能夠響應客戶查詢,根據Databricks智能湖倉內的數據給出答案。隨着ChatGPT卷起新浪潮,Databricks也憑借其湖倉一體平台允許數據團隊存儲和保護數據,支持機器學習工具的开發;Databricks同時也提供TensorFlow等流行AI框架集成,降低企業構建和部署AI模型的門檻。
並不是每個人、每個應用程序都需要GPT-4。Databricks的首席執行官Ali Ghodsi說,現成的模型接受過互聯網數據的訓練,雖然已經可用,但它們充滿了可能扭曲結果的無關信息,外部供應商構建的模型中的數據隱私安全問題也值得警惕。
Databricks的一大核心技術被稱爲Lakehouse(湖倉一體),可以爲AI應用管理數據,並將數據、分析和AI編程工具統一在一個系統中。MosaicML並入Databricks後將成爲旗下的一項獨立服務,助企業利用專有數據構建低成本語言模型。比如,Replit這樣提供編程工具的公司已在使用Databricks作爲數據管道,進而將信息傳輸到MosaicML來訓練代碼生成模型,進而服務其客戶。
可以看到,數據智能獨角獸Databricks正試圖通過並入AI大模型能力,挑战微軟、OpenAI、谷歌等大公司的市場統治力,爲產業提供了新的參考。
不過,也有人將MosaicML收購案看作借大模型熱度炒作,因爲Databricks主營Lakehouse,主要是用Spark來處理大規模集群數據,因此其整合大語言的價值並不明確。尚不清楚Databricks通過何等方式支付收購項目。
因此,這一並購案能否真正證明MosaicML的商業價值,仍需要等待時間的驗證。
三、AI大模型創業的機遇點:垂直行業、數據安全、更低成本
當下正值國內“百模大战”進入深水區,MosaicML並購案或許對國內產業也能帶來一些新參考。
且不論Databrick豪擲千金的真實意圖,這一案例體現了國外市場對AI大模型創業的積極態度。本次被收購的MosaicML公司創立僅兩年,公司僅62人,但收購價格達到了近100億元人民幣的高價,給國內AI大模型創業增添了一定信心。
近日,國內投資圈出現了對生成式AI及大模型投資的懷疑。美團聯合創始人王慧文因病離職引起人們對AI創業難度的擔憂,昨日獵豹移動CEO傅盛與金沙江創投董事總經理朱嘯虎在朋友圈就ChatGPT的爭論也引起關注。
朱哮虎認爲ChatGPT對創業公司很不友好,未來兩三年內請大家放棄,傅盛吐槽說“硅谷一半的創業企業都圍繞ChatGPT开始了,我們的投資人還能這么無知者無畏。”朱嘯虎在評論區說傅盛是擡槓。
市場分析公司PitchBook Data數據顯示,全球生成式AI市場的支出到今年底預計將達到426億美元,到2026年將達到981億美元。報告稱,生成式AI初創公司的風險投資從2022年全年的48億美元增至2023年前5個月的127億美元。
值得一提的是,垂直行業大模型市場正成爲重要的機會點,密集數據成爲AI大模型創業成功的關鍵要素。
生物制藥服務公司Syneos Health的首席信息兼數字官Larry Pickett在近期談道,目前根據專業健康數據訓練模型的成本,大約爲100萬至200萬美元。通過使用較小的开源預訓練模型,而不是在OpenAI擁有的整個數據集之上構建,花費會大大減少。企業技術領導者面臨着爲AI模型准備數據的壓力,數據和數據智能平台成爲痛點也成爲創業者的機會點。
可以看到,垂直行業、數據安全、更低成本,這些要素或許都是AI創企避开巨獸腳印,謀求商業化成功的重要機會點。
結語:生成式AI創業“吸金”,創企要避开巨獸的腳印
13億美元的大額生成式AI並購案爲AI創業帶來了新參考。盡管MosaicML公司的創立時間、規模、人才實力看起來都十分有限,且其大模型效果仍未趕超GPT-4,MosaicML仍被收購方Databricks給予了較高認可,從而階段性地驗證了其價值。
實際上,也有人認爲Databricks整合大語言模型的價值不夠明確,可能是借大模型熱度炒作,這一案例參考性還需要時間驗證。不過無論如何,MosaicML案例也確實點明了垂直行業、數據安全、更低成本這些AI創業的關鍵要素,值得產業參考。
標題:94億!生成式AI領域最大並購案誕生!
地址:https://www.vogueseek.com/post/5935.html
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
上一篇 : 光伏上市潮隱現老將身影!父子齊上陣,有人3年營收從9萬幹到175億
下一篇 : 巴菲特再次減持比亞迪,市場已經开始習慣