大模型落地需要“记忆力”,这家公司想为向量数据库正名 | 把脉大模型
现实生活中若两人进行对话,大致需要三步流程:一方首先抛出话题作引子;另一方会先调动记忆判断自己是否了解这个话题,然后再分析给出应该做出何种回答。如此循环往复直到互动结束,而此次对话又会作为一种新的“记忆”被双方吸收。
为让计算机完成这样的互动过程,并持续在一对一或一对多的情况下变成日常,AI科学家提出了CVP结构,即“ChatGPT(以ChatGPT为代表的大模型)+Vector Database(向量数据库)+Prompt(提示词)”,分别承担计算机分析、记忆、引子的功能。
(资料图片)
向量数据库作为计算机记忆体一般的存在,正吸引着大批投资人和创业者的关注。向量数据库创业公司Zilliz的创始人兼CEO谢超告诉界面新闻,大模型落地,从数据的角度要面对的重要现实就是计算同存储的分离,即大模型属于厂商,而数据属于用户。“国内几乎所有主流的大模型厂商上半年上门找我们聊合作,都迫切想知道一件事——大模型如何跟向量数据库配套使用,或者说计算和存储如何结合并实现低成本的重复使用。”
向量数据库是一种专门处理(主要包括存储和检索)非结构化数据的新型数据库。传统的数据库主要处理由行、列二维表格方式存储的结构化数据,这类数据具有标准化的格式,较为容易做量化分析。而非结构化数据是指那些高维度、难以量化的抽象数据,通常需要特定的数据结构来组织,且不易分析。现实生活中,非结构化数据以各种形式出现,包括文本、图像、音视频以及未来多模态呈现更为复杂多元的表情、体态等数据。
结构化数据,一本书的信息按照ISBN码、年份、署名、作者就可转化为二维表格
非结构化数据,一个完整句子需要结合上下文语境,按语义分割将每个单词转化为三维乃至更高维的向量矩阵
以OpenAI背后的GPT模型预训练所用的数据为例,GPT-3.5的“知识库”共包含3000亿单词的数据,汇聚了来自开源语料库、维基百科、各类图书与新闻报道、Reddit与Twitter平台文章等大量互联网文本数据。GPT-4在此基础上体量更大,且为了支持多模态专门收集各类图像、视频素材,这其中非结构化数据应占有极大比重。同时,随着大模型朝着多模态趋势的迭代,非结构数据的数量势必将呈指数级增长。
根据IDC、Gartner等市场调研机构的估算,真实世界中绝大多数数据(约80%)都为非结构化数据,只有少量(约20%)为结构化数据。然而正如冰山效应所喻示的“巨大的冰山往往是八分之一浮在水面上,八分之七沉没在水面之下”,非结构化数据结构复杂且难处理,反而导致有效利用率远低于结构化数据。因此,打造面向非结构化数据的向量数据库也变成了一场从0到1的拓荒。
Zilliz成立于2017年,总部位于硅谷,是最早一批探索向量数据库的先行者。以大模型诞生为分水岭,公司的成长历程可分为“前大模型时期”和“后大模型时期”。
在前大模型时期,向量数据库的技术理念并未有统一的定义,市场上也未有同类产品模式可作参照。Zilliz起步只能在无人区中开拓新赛道,客户、投资、应用场景都是未知数。“我们做向量数据库的前几年几乎没有任何收入,全靠融资生存,但那时候说服投资人是一件很困难的事情。招聘工程师、找客户、拉投资,不确定性几乎来自方方面面,这也成为Zilliz的常态。”
2019年,Zilliz开源了全球首个向量数据库产品Milvus,目前在GitHub上获得了超过2.1万颗Star,是开源圈内的明星项目,也给公司带来了第一批用户。同时,团队发表的向量数据库相关的两篇论文,也在2021和2022连续两年入选了数据库领域国际顶级会议SIGMOD和VLDB。在创始人眼中,Zilliz前几年所做的工作都在一步步将向量数据库推向主流视野的关注范围内。
后大模型时期,ChatGPT的爆发则彻底改变了向量数据库的发展速度。2023年3月,在英伟达全球开发者大会上,黄仁勋力挺向量数据库对构建专有大型语言模型的重要价值,同时点名Milvus。紧接着,Milvus和Zilliz Cloud又成为了OpenAI官方首批plugin合作的向量数据库。
资本和竞争对手随即迅速涌入这一赛道。其实,早在2022年8月,Zilliz就完成了累计超过 1.03亿美元的B轮融资,由沙特阿美Aramco Ventures旗下基金领投,现有股东淡马锡、高瓴创投、五源资本和云启资本跟投,估值达6亿美元。另外一家OpenAI官方合作的向量数据库公司Pinecone最新宣布获得a16z领投的1亿美元,估值达7.5亿美元。今年4月,有4家向量数据库创业公司宣布当月获得融资。大模型厂商也纷纷开始着手布局自家的向量数据库,腾讯、京东均有对外公开的向量数据库产品。
参考美国2022年上市的数据库公司Snowflake以及还未上市的独角兽公司Databricks,融资规模都已达到数十亿美元。向量数据库如今已经走完了为赛道“正名”的第一步,目前处在产业化的开端。而数据库行业先天具有高资本投入、高技术门槛的特点,一款数据库通常需要经过成百上千的工程师研发迭代,技术产品的工程积累预计将成为该赛道竞争的决定性条件。
前大模型时期通过搞科研、发论文、做开源为向量数据库正名后,处于后大模型时期的Zilliz将2023年视为“商业化元年”。
在开源产品Milvus之外,公司将云服务产品Zilliz Cloud作为商业化的关键。Zilliz Cloud可以帮助企业用户构建十亿级向量数据库,部署和扩展向量搜索服务,收费模式分为存储收费(按数据规模与存储时间)与计算收费(按机器数与运行的小时数)。这也是该公司进一步稳固市场的核心所在。
(文章来源:界面新闻)
关键词:
- 广州科技活动周进入预热 明日正式启动300多场主题活动接踵而来
- 深化重点领域信用建设 广州正式出台新型监管机制实施方案
- 女童不慎掉入20米深井 18岁小姨三次下井成功营救
- 西安3个区域12月28日起每日开展全员核酸 官方提倡民众居家健身
- 浙江乐清一核酸检测结果异常人员 复采复检为阴性
- 浙江本轮疫情报告确诊病例490例 提倡“双节”非必要不出省
- 西安警方通报6起涉疫违法案件
- 西安新一轮核酸筛查日检测能力达160万管
- 西安市累计报告本土确诊病例811例
- 重庆曝光4起违反中央八项规定精神典型问题 警示党员干部清新过节
-
猛士音响,家庭影院,殿堂级的享受!
很多人对猛士音响,家庭影院,殿堂级的享受!不是很了解那具体是什么情
-
北京老师爬山神秘失踪:留诡异纸条、手机信号两度出现,至今成谜
北京老师爬山神秘失踪:留诡异纸条、手机信号两度出现,至今成谜,失踪
-
粮食股票龙头一览表:关注三只热门标的
粮食是人类的基本生存需求之一,随着全球人口的不断增加,粮食产业也得
-
基层 | 社区爱心暑托班来了检察官!
来源|奉贤检察日前,奉贤区曙光社区“曙心成长社”爱心暑托班里,“未
-
10家保险机构进驻房山,一天理赔450辆车
各保险机构紧急施援、通力合作,积极参与查勘救援和保险理赔工作,最大
-
rui韩国女团 ioi韩女团
0471房产来为大家解答以上的问题。rui韩国女团,ioi韩女团这个很多人还
-
北京发布地质灾害气象风险橙色预警
市防汛办提示您,市规划自然资源委联合市气象局发布地质灾害气象风险橙
-
缴费基数4000是什么水平?社保缴费基数及比例如何计算?
缴费基数4000的标准:指在社会保险或者公积金缴费时,个人或单位按照法
-
大数据绘出救援“加速度”:24小时,1.7万人来到涿州
02:38大数据绘出救援“加速度”:24小时,1 7万人来到涿州央视网消息:
-
保险粉商品报价动态(2023-08-06)
交易商品牌 产地交货地最新报价保险粉 优等品东营金博维石油化工有限
X 关闭
大模型落地需要“记忆力”,这家公司想为向量数据库正名 | 把脉大模型
港股异动 | 海底捞(06862)再涨超5% 瑞银称小型餐厅业态有望渗透到低线城市
波帅:凯恩转会取决于拜仁,我们的最后期限就是转会窗截止日
国能神华招标网_神华招标
河北涿州城区供水逐步恢复 生活物资稳定供应
X 关闭
焦点讯息:水发燃气董秘回复:根据《上海证券交易所股票上市规则》的规定
西安警方完成研考安保工作 共出动警力逾1.3万人次
得知西安疫情防控“升级” 男子夜骑共享单车回咸阳淳化
中国医生将任SIU主席背后:从追随者同行者到引领者
海南省通报政法队伍教育整顿成果