在“大數據”概念誕生十多年後,數據仍然是大型企業和初創企業中最重要、增長最迅猛的創新驅動因素之一。從提供作為商業運作基礎的脈搏檢查,到通過機器學習實現日常任務的智能自動化,數據已經成為各種規模組織決策的中樞神經系統。此外,數據的使用已經遠遠超出了數據科學家、數據分析師和數據工程師的範疇—每個人都是數據生產者和消費者。
這種對數據更加關注的結果是:數據管理業務已經成為基礎設施增長最快的領域之一,據估計價值超過700億美元,佔2021年所有企業基礎設施支出的五分之一以上。這個市場形成的原因在於,它結合了軟件工程、分析和人工智能領域,同時順應了雲計算的潮流勢頭。 (有關這一巨大趨勢背後的架構演變和驅動力的更多信息,可以參閱《現代數據基礎設施的新興架構》。)
過去幾年,數據行業的發展也催生了一些令人興奮和有影響力的企業軟件公司。最近,Snowflake和Confluent等公共巨頭已經改變了數千家企業的運營方式和數百萬種產品的生產方式。然而,大多數人都不太熟悉那些有影響力的公司,也就是下一代定義類別的公司。
2021年,數據公司獲得了數百億美元的風險投資,打破了歷史記錄,2022年的風險投資也已經很強勁。我們編制了Data50的首批數據。這些是令人興奮的數據類別中的領頭羊公司。總體而言,這50家公司的價值超過1000億美元,並且籌集了大約145億美元的總資本,其中20家到2021年已達到獨角獸地位。
Data50公司涵蓋類型有7個子類別:
AI/ML(人工智能/機器學習)、BI & Notebooks(商業智能和筆記本)、Customer Data Analytics(客戶數據分析)、Data Governance & Security(數據治理與安全)、Data Observability(數據可觀察性)、ELT & Orchestration(ELT 與編排)、Query and Processing(查詢與處理)。
1、查詢和處理技術是訪問、聚合和計算數據的核心引擎。它涉及兩大類:批處理(如Databricks和Starburst)和實時處理(如ClickHouse和Imply)。在過去的幾年裡,由於對實時應用程序的需求不斷增加,後者得到了越來越多的關注。
2、AI/ML(人工智能和機器學習)包括應用算法建模和機器學習處理大規模數據的軟件。從上榜公司的數量來看,這一領域正在成熟和繁榮。一些參與者專注於一個特定類型的數據(例如自然語言的Rasa和Hugging Face),而另一些則專注於不同的領域,例如AI的產品化(例如Scale、Tecton和Weights and Biases)或充當用於運行AI工作負載(例如Anyscale)的“計算層”。
3、ELT和編排支持數據的移動。它是保證數據準確、準時到達目的地的傳輸層。此類別是從傳統的ETL供應商演化而來的。另一方面,新類別的玩家大多是雲原生的(例如Fivetran和dbt),對開發人員友好(例如Astronomer和Prefect),並且可以處理不同數據環境之間更複雜的依賴關係。
4、隨著數據堆棧變得越來越複雜並且涉及更多利益相關者,數據治理和安全性正成為關鍵問題。需要治理工具—尤其是在高度規範的行業—來確保數據的安全並在整個數據生命週期中保持一致性(例如OneTrust和Collibra)。這一類別相對較新,通常服務於受監管的大型企業公司。
5、傳統上,客戶數據分析由營銷團隊負責。然而,由於其重要性日益增加,數據團隊現在更多地參與將客戶數據與中央數據平台集成。此類別側重於捕獲客戶數據(例如Rudderstack和ActionIQ)或操作該數據以服務於一線業務用例(例如Census和Hightouch)。
6、BI & notebooks覆蓋了數據的消費層。儘管它是一個成熟的類別,但Preset或Metabase等新參與者正在採取開源優先的方法,並吸引技術數據工程師以及商業智能團隊。數據需求的快速變化性質也對迭代和交互式筆記本(例如Hex)和自動洞察生成(例如Sisu)產生了更多需求。
數據可觀察性從軟件工程堆棧的最佳實踐中汲取靈感。隨著數據堆棧越來越依賴於上下游工具,並且數據的準確性具有更廣泛的影響,可觀察性成為提供跨數據流監控和診斷能力的最新類別。
儘管市場採用的主要推動力是數據量和使用量的增加,但每個類別的潛在驅動力是不同的。例如,查詢和處理領域的進步主要是由計算和存儲的分離、遷移到雲以及更廉價的計算能力驅動的。與此同時,在數據治理和數據可觀察性中採用操作性工具在很大程度上是由不斷增長的操作性用例和數據工作流的複雜性驅動的。
以下為Data50公司名單(名稱、類型、地點、估值範圍及網站情況):
從細分角度(融資分佈、數量分佈、地點分佈)看Data50:
查詢和處理公司籌集了最大的資本份額
查詢和處理類別只佔Data50中公司的五分之一,但投資在這一類別的資金數額(幾乎佔所有資金的50%)是驚人的。儘管這一數據受到了Databricks最近16億美元融資的影響,但如果沒有它,這一類別仍將佔所有融資的37%,是下一個類別的兩倍多。
從公司數量來看,分佈更為均衡。就公司數量而言,AI/ML 是最大的類別,主要是因為該領域仍在不斷發展,需要一套新的獨立工具來訓練、測量和生產模型。 (有關該領域如何發展的更多信息,請閱讀現代數據基礎設施的新興架構。)
Data50集中在舊金山灣區
在這50家公司中,47家(94%)位於美國,3家是跨國公司。其中33家公司位於舊金山灣區,9家位於華盛頓特區、費城、紐約和波士頓的I-95走廊沿線。其中兩家位於西雅圖,一家位於辛辛那提,還有一家位於亞特蘭大。
這種分佈受到大規模數據生態系統歷史位置的嚴重影響(例如,Oracle和Teradata都在灣區成立)。然而,我們看到越來越多的數據公司(如Firebolt和Matillion)出現在全球各地,因為數據工程人才和對數據工具的需求幾乎遍及每個大陸。
AI/ML 類別推動了2019 年新數據公司的激增
大多數Data50 公司成立於2014 年之後,在AI/ML 工具爆炸式增長的推動下,在2019 年左右達到頂峰。事實上,2019 年之後成立了更多的數據公司,但是因為我們關注的是已經達到一定規模的公司,所以大多數新公司還沒有出現在這個名單上。
每個類別的投資都在增長
從每個類別的投資來看,最顯著的趨勢是AI/ML 公司比以往任何時候都獲得了更多的投資者興趣,主要集中在早期階段。 ELT 和編排也是如此——主要由來自Fivetran 和dbt 的巨輪驅動。查詢和處理公司繼續吸引大筆資金,儘管這些公司往往處於後期階段。
本文作者為Jennifer Li、Sarah Wang、Jamie Sullivan。 Jennifer Li是a16z 的合夥人,她專注於企業公司。 Sarah Wang是a16z 的普通合夥人,專注於成長階段的投資。 Jamie Sullivan是a16z Growth 投資團隊的合夥人,專注於消費者、企業和金融科技領域的後期公司。
在本文結尾,作者指出,我們堅信,未來10年將是數據的十年,包括基礎設施、應用程序以及介於兩者之間的一切。因此,我們將繼續看到創紀錄的增長、資金和市值,我們將在此列表中每年對其進行跟踪。