AI大模型的崛起是否意味着向量数据库终于获得了重要地位？| 全球行业概览

大模型的热度不仅让生成式AI创业公司成为全球焦点，也催生了一个曾经沉寂行业的崛起。

截至6月，2023年全生成式 AI 模型初创公司的平均估值已经接近1亿美元，是2022年的两倍以上；仅在中国，截至6月，参数规模在10亿以上的大模型总数量就已经达到79个。随着众多从业者纷纷投身这个改变时代的机遇，底层基础设施也提出了更高的要求。

因此，作为大模型和AIGC创业公司的基础设施——向量数据库——经历了前几年的“门庭冷落”，如今面对来自资本和客户的关注，似乎终于迎来了“崭露头角”的时刻。

通过在Google Trends上搜索"Vector Database"（向量数据库），可以观察到自2023年3月以来，全球对该领域的关注度呈现出直线增长的趋势。

今年4月，全球范围内有五家知名向量数据库公司相继获得了融资，这进一步证实了向量数据库在生成式AI时代的重要性和价值。那么，什么是向量数据库？为什么它会随着大型模型的快速发展而迅速崛起？在全球范围内，有哪些知名的向量数据库可以为大型模型创业公司提供更好的支持？

本文旨在对国内外优秀、知名的向量数据库公司进行梳理，希望能够为人工智能从业者和创业者提供帮助。

向量数据库在大模型中的应用：行业大模型的必经之路

首先，我们需要了解向量数据库在大模型中的作用。虽然大型模型能够回答通用问题，但在特定领域中，由于训练数据有限，专业性仍有提升空间。通过将向量数据库与大型模型和自有知识资产相结合，可以构建垂直领域的AI能力。向量数据库存储和处理向量数据，提供高效的相似度搜索和检索功能。

越来越多的大型模型从业者认为，所有行业都值得被AI重新做一遍，因此，建立在不同行业的垂直大型模型成为切入点。而向量数据库是行业大型模型具备“行业知识”能力的必经之路。

背后的原因是，大型模型的产生需要经历大量反复的训练和调试，但其中进行训练的数据并非“搬运”即可。会出现两种情况：一是图片、视频、自然语言等多模态的非结构化数据查找需求增加，非结构化数据的数据量级远大于结构化数据；二是大型模型支持的token数有限，配合RLHF拥有了“短暂记忆”，也时常会出现“一本正经的胡说八道”的情况。如果大型模型可以具有“长期记忆”，应用范围会很快从通用走向垂直领域。

然而，在现实世界中，非结构化数据反而是“主流”。根据Gartner的数据，非结构化数据占企业生成的新数据比例高达90％，并且增长速度比结构化数据快三倍。

向量数据库与传统数据库的不同之处在于，传统数据库只能处理计算机容易理解和处理的数据、字符串等结构化数据，通过点查和范围查进行精确匹配，输出只有符合查询条件和不符合条件的答案。而向量数据库处理的是各种AI应用产生的非结构化数据，通过近似查进行模糊匹配，输出的是概率上提供相对最符合条件的答案，而非精确的标准答案。

举例来说，传统数据库做图片检索可能是通过关键词去搜索，向量数据库是通过语义搜索图片中相同或相近的向量并呈现结果。理论上，向量之间的距离越接近，说明语意越接近，效果也有最相似。

另一个不同之处在于，与传统数据库直接处理数据不同，向量数据库在使用过程中需要将输入实时转化为向量后才能进行查找。具体来说，人们先通过向量搜索引擎将非结构化数据转化为特征向量，通过向量将结构化数据变得统一化。之后，再在向量数据库中进行存储、计算和建立索引。

总结而言，大规模生成式 AI 模型的崛起进一步推动了对向量数据库的需求，因为向量数据库具备容纳海量数据、实现准确的相似性搜索和匹配、支持多模态数据处理的特点。

向量数据库mapping

Pinecone：https://www.pinecone.io
成立于2019年，最近一轮融资为2023.4 B轮 1亿美元。
Pinecone是一家位于美国的向量数据库初创公司，产品名为Pinecone Alternate，目前非常受欢迎的AutoGPT就集成了它的产品。Pinecone也是OpenAI的合作方，用户可以通过OpenAI的Embedding API生成语言嵌入，然后在Pinecone中为这些嵌入建立索引，以实现快速且可扩展的向量搜索。公司有1500个客户，2022年ARR达数百万美元，计划在今年年底前将团队扩大至150人以上。

Weaviate MongoDB：https://weaviate.io
成立于2019年，最近一轮融资为2023.4 B轮 5000万美元。
Weaviate总部位于荷兰阿姆斯特丹，产品是一款名为Weaviate MongoDB的托管/自托管向量数据库，可存储多达数十亿个向量；在今年早些时候，Weaviate推出了ChatGPT的Plug in插件；此外，公司业务还包括Weaviate云服务——为开发人员提供Weaviate数据库的全部功能，而无需任何操作开销。目前Weaviate的开源下载量达到200万次。

OpenAI官方曾推荐过Weaviate，官方信息解释了Weaviate和Pinecone的差异：Pinecone包括数据存储和资源管理在内的服务交由他们和 AWS/GCP 托管；Weaviate则是交给用户自己进行运营和服务。对于重视数据自主权的用户来说，显然Weaviate 更加灵活，但同样的时间成本也更高。

Chroma：https://www.trychroma.com/
最近一轮融资为2023.4获得1800万美元种子轮融资，除了机构投资者外，Chroma还获得了MongoDB、Scale、Hugging Face、Jasper等公司创始人或高管的投资，受到了整个生成式AI生态的欢迎。
Chroma是一个基于向量检索库实现的轻量级向量数据库，内置了入门所需的一切，并提供了简单的API。它目前只支持CPU计算，但可以利用乘积量化的方法，将一个向量的维度切成多段，每段分别进行k-means，从而减少存储空间和提高检索效率。它还可以与LangChain集成，实现基于语言模型的应用。Chroma的优点是易用、轻量、智能，缺点是功能相对简单、不支持GPU加速。后续 Chroma 还会推出托管产品（Serverless 类产品），该产品将提供无服务器存储和检索功能，支持向上和向下扩展，让开发者开箱即用不需要自己搭建基础设施。

Zilliz：https://milvus.io/
最近一轮融资为2022.8 B+轮 6000万美元。
Zilliz专注于研发面向AI应用的向量数据库系统，旗下有开源产品Milvus、商业产品Zilliz Cloud等，被广泛应用于计算机视觉、NLP、推荐系统、搜索引擎、自动驾驶和生物制药等领域。Milvus是一款分布式向量云原生数据库，能提供数百亿条向量数据的毫秒级查询。得益于Milvus的云原生架构，Zilliz Cloud实现了多租户能力。官方显示，目前Milvus已经拥有超过1000+企业用户，在GitHub上获得了超过2万颗Star。

Qdrant：https://qdrant.tech/
最近一轮融资为2023.4天使轮 750万美元。成立于2021年。
Qdrant提供用于非结构化数据的开源托班/自托管向量搜索引擎和数据库。Qdrant的向量数据库通过实时和真实世界的数据来扩展ChatGPT等基于大语言模型的应用程序的“知识库”，从而构建更先进的应用程序。
此前，Qdrant的两位联合创始人Andre Zayarni（CEO）和Andrey Vasnetsov（CTO）都曾就职于智能招聘公司moberries；Andre Zayarni担任CTO职位，Andrey Vasnetsov则是担任Lead Data Scientist。