允中 發自 凹非寺
量子位 | 公眾號 QbitAI
一個在GitHub上標星超2萬的數據庫,究竟是什麼來頭?
原來,這正是最近大火的向量數據庫之一、首個在這一賽道開源產品Milvus。
自大模型爆火以來,它的關注度也一路飆升,官方顯示,目前Milvus已經擁有超過1000+企業用戶。
而就是這麼一個GitHub上最流行的向量數據庫,背後公司Zilliz已經完成了1.13億美元融資。
Zilliz專註於研發面向AI應用的向量數據庫系統,旗下有Milvus、Zilliz Cloud等產品,目的是為開發者提供易用性強、性價比高的向量數據庫服務。
這兩天,Zilliz Cloud發佈2.0重磅更新,更是帶起一波業界對向量數據庫的討論熱潮。
大模型技術進展日新月異,向量數據庫在風口浪尖上也起起伏伏,不少人說它是給AI提供長期記憶的必備基建,也有人認為提高大模型上下文長度才是未來方向。
這不,還有谷歌工程師專門為此擺攤舌戰群儒。
眾說紛紜之下,情況究竟如何?不如來聽聽向量數據庫一線從業者怎麼說。
我們聯系到了Zilliz創始人兼CEO星爵,希望和他聊一聊向量數據庫對於這一輪AI浪潮的意義,以及它背後變革的方式。
星爵認為,大模型的出現給AI帶來了新的計算范式CVP Stack,向量數據庫是不可或缺的關鍵:
其中,『C』代表大模型《ChatGPT》負責向量計算;『V』代表向量數據庫《vector database》,負責向量存儲;『P』代表Prompt工程,負責向量交互。
不僅如此,他還系統解答了在大模型發展過程中,向量數據庫具體起到的作用,以及作為向量數據庫頭部公司的Zilliz,又要如何應對這一輪AI變革浪潮。
在不更改原意的基礎上,量子位對與星爵的交流內容進行了整理,希望能為大家帶來一些思考與啟發。
大模型的數據基礎設施
提問:最近向量數據庫很火,能不能先簡單科普一下?
星爵:向量數據庫是一種為了高效存儲和索引AI模型產生的向量嵌入《embedding》數據而專門設計的數據庫。
在傳統的關系型數據庫中,數據通常以表格的形式存儲,而在向量數據庫中,數據以向量的形式存儲。
向量《embedding》是一組數值,可以表示一個點在多維空間中的位置。
向量數據庫非常擅長處理大量的高維embedding數據,這種數據在機器學習和深度學習應用中很常見。
提問:在最近半年裡,向量數據庫被廣泛應用於大模型領域。
向量數據庫在大模型領域具體有哪些應用?
星爵:諸如GPT、Bard、Claude和LLaMA這樣的大模型可以產生海量向量嵌入數據來表達復雜的語義關系,但模型本身的存儲空間有限,無法持久保存這些數據。
向量數據庫就像一塊外置的記憶塊,可以長期存儲這些數據,供模型隨時調用。
向量數據庫在LLM領域的應用主要可以分為以下幾類:
1、管理私有數據和知識庫
開發者可以方便高效地將自己的領域數據集或者私有數據集轉換成向量格式,讓大模型直接操作,而無需將這些數據暴露給模型訓練方,有效保護了數據隱私和產權。
2、為大模型提供實時數據更新。
通過向量數據庫可以為大模型提供實時的數據更新,解決大模型『胡言亂語』的問題,而無需頻繁重訓模型。
這比直接fine-tune模型的成本低很多。
3、實現大模型的個性化和增強。
開發者可以在向量數據庫中添加上下文和自己的數據來擴展大模型的感知能力,實現個性化應用。
4、提供智能體的記憶。
智能體是大模型的一個新興應用場景,用於構建具有獨立智能的虛擬人物、虛擬代理甚至人形機器人。
向量數據庫不僅可以幫助智能體記憶其感知的歷史數據和上下文,幫其做出智能決策,還能使其根據長期記憶來實現自我演進。
5、保存大模型的處理結果。
向量數據庫可以持久保存大模型處理過的數據,進行離線分析和挖掘。
而不像大模型那樣,用過即棄。
比如說,開源項目GPTCache可以將大模型的查詢結果緩存至向量數據庫,避免重復計算,提高查詢效率,這有點像CDN和Redis對網站數據的作用。
6、構建更復雜的AI系統。
在很多場景下,我們需要將多個大模型和向量數據庫串聯,實現更強大的功能。
其中,多個大模型甚至是多模態模型共同負責處理語義,向量數據庫負責數據流轉。
對於大模型應用開發者來說,向量數據庫是一個非常重要的基礎設施,可以在最大限度發揮大模型威力的同時保護數據隱私,實現更豐富的功能。
LLM和向量數據庫共同推動AIGC的發展,二者缺一不可。
全面擁抱大模型
提問:我們了解到,Zilliz Cloud在兩周前於矽谷發佈了全面的產品更新和升級。
這次產品升級背後的動機是什麼?
星爵:我們的出發點是all-in大模型應用開發。
在過去的幾年裡,我們的開源產品Milvus和商業產品Zilliz Cloud被廣泛應用於計算機視覺、NLP、推薦系統、搜索引擎、自動駕駛和生物制藥等領域。
在過去的半年裡,向量數據庫經歷了它的iPhone時刻,數百萬LLM應用開發者湧入,LLM應用開發成為了向量數據庫的殺手級應用場景。
眾多的LLM應用開發者給我們帶來了大量新興的需求,我們決定擁抱這些變化,為LLM應用開發提供更全面、更便利的支撐。
提問:能不能具體介紹下Zilliz Cloud做了哪些更新和升級?
星爵:首先,引入了對RESTful API的全面支持。
我們看到新進的LLM開發者大多具有豐厚的Web應用和移動應用開發背景,他們熟悉基於RESTful API將多個服務的能力串起來打造強大的應用。
有了RESTful API,開發者可以便捷地將「LLM+向量數據庫+提示詞」三者連接起來,打造LLM應用程序。
我們將這種新開發范式稱為CVP Stack,能極大提高開發效率。
舉個例子說,明道雲的一位工程師使用RESTful API一天就完成了Zilliz Cloud和對方平臺的整合。
其次,提供了動態schema。
此前向量數據庫采用靜態schema的方式,需要開發者在建表時根據業務定義數據的schema,這對於大型企業的成熟業務而言是一種常見的處理方式。
然而,當下AIGC應用多處於早期快速迭代階段,面向業務效果,需要頻繁調整向量數據庫內的字段,對於這類需求,反復重建schema結構以及頻繁的數據重導入會嚴重影響產品的迭代速度。
為此我們引入了動態schema,支持用戶根據開發需要動態靈活地進行數據處理。
再者,新增了JSON數據類型的支持。
JSON是目前最流行且最靈活的數據表示方式之一,被廣泛地應用於應用程序開發中。
我們將MongoDB的基礎能力搬進了向量數據庫,用戶在Zilliz Cloud上可以將JSON與embedding這兩種超強能力相結合,實現基於JSON與embedding向量的混合數據表示和處理。
另外,我們還引入了Partition Key,支持基於Partition Key的高效數據過濾;增加了組織和角色的概念,支持基於Role-Based Access Control《RBAC》的多粒度訪問控制;增加了全面的LLM生態支持,深度整合了OpenAI、Claude、Cohere、LLaMA、Bard、Dolly、LangChain、LlamaIndex和Semantic Kernel等熱門項目。
提問:我們看到Zilliz Cloud之前隻提供專有集群一種產品,此次新增了Serverless和雲上私有部署兩種產品。
這背後的原因是什麼?
星爵:Zilliz Cloud面向不同階段的用戶提供多種用戶計劃。
基於Serverless的入門計劃
為每位用戶提供一個免費的Serverless實例,開箱即用,可支持百萬條數據規模的向量檢索,適合個人開發者和小型開發團隊使用。
專有集群產品
面向大型開發團隊和企業,專註高性能、高可用、高可擴展性、智能運維和優化、數據安全以及敏捷技術支持等企業級特性,並提供性能型、容量型、經濟型三類實例類型,滿足企業不同維度的業務需求。
自托管計劃
允許用戶在其虛擬私有雲《VPC》上部署我們的向量數據庫服務,提供完全控制,它是註重隱私、數據安全和合規的大型企業的理想選擇。
通過提供不同形態的產品,我們希望滿足LLM開發者在不同發展階段的需要,讓每一個開發者、每一個開發團隊、每一個企業都能方便地使用向量數據庫服務,加速實現AI數據基礎軟件的普及化。
向量數據庫市場的競爭和趨勢
提問:今年以來,多家向量數據庫初創公司獲得了大額融資,一些大廠也紛紛把向量數據庫的研發列入日程。
你怎麼看待日益升溫的競爭?
星爵:競爭意味著市場確認和機會。
競爭的加劇說明向量數據庫的價值得到了市場的廣泛認可,其市場機會和潛力得以證實。
與此同時,激烈的競爭也在一定程度上推動了技術的進步,這對消費者和整個行業而言都大有裨益,是一件實打實的好事。
當然,這種競爭環境迫使公司更加關注客戶的需求。
這意味著我們必須密切關注市場趨勢,並適應這些變化,以提供客戶真正需要的解決方案。
我們必須不斷創新和優化我們的產品和服務。
這對LLM開發者和整個行業來說都是有益的。
我相信在一個健康的生態系統中,有多個玩家是至關重要的。
這為開發者和客戶提供了選擇,也為行業設置了標準。
在Zilliz,我們作為向量數據庫行業的先行者和開拓者,尤其歡迎這種競爭。
我們將繼續致力於推動向量數據庫技術的發展,並與其他參與者一起,為用戶提供最先進的工具和服務。
提問:剛才你提到了行業標準,在關系型數據庫領域有TPC-C和TPC-H這樣的benchmark,向量數據庫領域有類似的benchmark麼?
星爵:目前還沒有標準的benchmark,這給開發者和企業在向量數據庫產品對比和選擇時造成了很多的疑惑和困難。
為此,我們近期開放了一套開源的向量數據庫評測工具Vector DB Bench《https://github.com/zilliztech/VectorDBBench》。
該工具包含一套標準化數據集,結合多個典型場景,覆蓋數據插入與索引構建、向量查詢、混合查詢、數據容量等多個能力維度,同時支持用戶自定義的數據集與測試場景。
我們歡迎開發者們參與到這個開源benchmark的開發和迭代中來,希望Vector DB Bench能發展成為像ClickBench這樣的行業標準。
提問:你認為向量數據庫賽道未來競爭的核心是什麼?
星爵:向量數據庫作為一款數據庫產品,『更大更快更便宜』是未來發展的核心趨勢。
更大是指能處理更大的數據量,這意味著支持百億條數據甚至更高的可擴展性;更快是指更高的性能,包括毫秒級的響應時間和高達數萬的QPS;更便宜是指更少的資源消耗更高的性價比,在相同資源消耗的情況下提供更強大的性能。
我們的Zilliz Cloud基於Milvus開源項目,這是全球現在唯一一款真正分佈式的向量數據庫系統,能提供數百億條向量數據的毫秒級查詢。
得益於Milvus的雲原生架構,Zilliz Cloud高效地實現了多租戶能力,在相同的實例配置下,性能遠超其他競品。
舉個例子說,在基於VectorDBBench的評測中,Zilliz Cloud性能是Pinecone的兩倍以上,綜合性價比超過Pinecone三倍以上。
國內雲產品即將推出
提問:Zilliz Cloud現在已經支持了AWS和GCP,有沒有計劃支持國內雲平臺?
星爵:我們計劃在今年7月上旬推出國內的雲服務產品,首期預計會支持阿裡雲、百度雲、騰訊雲和金山雲,並將逐步覆蓋國內更多的雲廠商。
Zilliz Cloud國內雲產品定價相比海外產品將會有較大幅度的下調,致力於為國內用戶提供最高性價比的全托管向量數據庫服務。
Zilliz Cloud:
https://zilliz.com/cloud
Milvus:
https://milvus.io
https://github.com/milvus-io/milvus
VectorDBBench:
https://github.com/zilliztech/VectorDBBench
GPTcache:
https://github.com/zilliztech/GPTCache