OpenAI 收购数据库公司 Rockset 近日,OpenAI 正式宣布收购 Rockset——这是一款以数据索引及查询功能而闻名的实时分析数据库。 Rockset 团队的成员将加入 OpenAI,而 Rockset 的现有客户也将“逐步”离开 Rockset 平台。 我们将整合 Rockset 技术以支持 OpenAI 的跨产品检索基础设施,收购完成后 Rockset 旗下卓越的团队成员也将加入 OpenAI。 OpenAI 为何会收购 Rockset 技术?收购完成后,OpenAI 会用 Rockset 的技术构建什么? OpenAI 在文章中表示收购 Rockset 是为其自家跨产品检索基础设施提供支持。 收购大局已定, Rockset 用户需要做何准备? 对于当前使用 Rockset 产品的用户来说,时间已经相当紧迫。
6 月 21 日,OpenAI 官方宣布完成对实时分析数据库 Rockset 的收购,表示将整合 Rockset 产品至 OpenAI 所有产品线。 作为一款国外早期的实时数据仓库厂商,Rockset 的特点是能够提供实时数据索引和查询的能力,FaceBook 的母公司 Meta 也是其重要客户。 我们来看看 Rockset 有什么样的特点。 ● 实时数据分析:Rockset 允许用户对大量新传入的数据持续运行 SQL 查询,实现实时数据的即时分析。 ● 支持多种数据源:Rockset 支持从多种数据源导入数据,包括结构化、半结构化、地理和时间序列数据。 作为一款实时分析的数仓产品,Rockset 刚好有效解决了目前大模型在企业客户中落地的几个痛点。
Rockset是一个建立在RocksDB键值存储之上的实时分析平台。像其他NoSQL数据库一样,Rockset具有高度的可扩展性、灵活性和快速写入数据的能力。 但与SQL关系型数据库一样,Rockset也有严格的模式优势。 Rockset自动生成Schema通过检查数据的字段和数据类型,因为它是存储的。而且Rockset可以处理扔给它的任何类型的数据,包括。 Rockset还有其他优化功能,以减少存储成本和加速查询。对于每条记录的每一个字段,Rockset都会存储数据类型。这最大限度地提高了查询性能和减少了错误。 这个实现--连同我们的 Converged Index™--使Rockset查询能够像具有刚性模式的数据库一样快速运行,而不会产生额外的计算。
28GreatDB创意信息分布式29StellarDB星环科技30Marqo纯矢量数据库Marqo是31LanceDB纯矢量数据库LanceDB是32ClickHouse支持矢量的SQL数据库ClickHouse33Rockset 支持矢量的NoSQL数据库Rockset云原生34ArcNeuralFabarta35Solr全文检索数据库Solr36Cassandra支持矢量的NoSQL数据库Cassandra37Cosmos DB
云数据和数据市场 紧随其后的是 Rockset,这是一个基于开源 RocksDB 项目的实时分析数据库。 Rockset 可以摄取关系数据和流数据,将其保存在专有存储中,然后使用积极的索引策略来承担数据仓库和数据虚拟化工作负载的组合。 Rockset 将自己描述为云原生,将自己添加到供应商名单中,这些供应商越来越多地将云和分析视为永久混合。 当然,出于数据丰富的目的,云中的分析可以从基于云的外部数据馈送中受益匪浅。 这就是当今分析领域正在发生的事情,来自 Alation、Databricks、Dremio、Informatica、Rockset、SAP、Talend 和 TigerGraph 的所有新闻都证实了这一点
Marqo 纯矢量数据库 Marqo 是 31 LanceDB 纯矢量数据库 LanceDB 是 32 ClickHouse 支持矢量的SQL数据库 ClickHouse 33 Rockset 支持矢量的NoSQL数据库 Rockset 云原生 34 ArcNeural Fabarta 35 Solr 全文检索数据库 Solr 36 Cassandra 支持矢量的NoSQL
去年,它以价值九位数的股票交易收购了数据库分析公司 Rockset,旨在为 OpenAI 的企业产品提供更好的基础设施。
最近,全球AI行业关注焦点OpenAI又“闷声”做了一件大事——收购搜索和数据分析初创公司Rockset。 在这起金额数亿美元的收购背后,不少分析师认为,作为初创公司的Rockset将助力OpenAI在金融科技、数字营销等领域实现更进一步的AI技术变革,换言之,全球巨头OpenAI在大众熟知的toC领域之外,
Rockset vs Apache Druid vs ClickHouse ClickHouse 针锋相对地说,与 Druid 和 Rockset 相比,它的成本效益还是不错的。 Rockset 也参与了这场竞争,称其在实时分析上表现优于另外两家公司的产品。 ClickHouse vs. TimescaleDB 闻到了水里的血腥气,虎式 Timescale 也加入了战斗。
OpenAI 高价收购 Rockset 背后,正是为了提升向量数据实时检索与外部知识接入能力,解决大模型数据更新慢、训练成本高的问题。
RockSet 第三个系统是 RockSet,大家知道 RocksDB 是一个比较有名的单机 KV 数据库,其存储引擎的数据结构叫 LSM-Tree,LSM-Tree 的核心思想进行分层设计,更冷的数据会在越下层 RockSet 把后面的层放在了 S3 的存储上面,上面的层其实是用 local disk 或者本地的内存来做引擎,天然是一个分层的结构,你的应用感知不到下面是一个云盘还是本地磁盘,通过很好的本地缓存让你感知不到下面云存储的存在 如果要解决 S3 的 Latency 问题,这里提供一些思路,比如像 RockSet 那样用 SSD 或者本地磁盘来做 cache,或者通过 kinesis 写入日志,来降低整个写入的延迟。
前不久,OpenAI 宣布收购了一家以数据索引及查询功能而闻名的实时分析数据库 Rockset。消息一出,数据库领域和 AI 圈一片哗然。 据悉,Rockset 成立于 2016 年,创始团队成员大多来自 Facebook,还有几位成员来自谷歌、雅虎、甲骨文和 VMware 等公司,尤其是 Rockset 的联合创始人 & CTO Dhruba TiDB 在向量检索引擎上的探索 事实上,在 OpenAI 出手 Rockset 收购之前,解决大模型数据的访问和存储问题时,业内普遍的解决方案是给大模型外挂一个知识库,也就是过去一年火出圈儿的向量数据库
RockSet 第三个系统是 RockSet,大家知道 RocksDB 是一个比较有名的单机 KV 数据库,其存储引擎的数据结构叫 LSM-Tree,LSM-Tree 的核心思想进行分层设计,更冷的数据会在越下层 RockSet 把后面的层放在了 S3 的存储上面,上面的层其实是用 local disk 或者本地的内存来做引擎,天然是一个分层的结构,你的应用感知不到下面是一个云盘还是本地磁盘,通过很好的本地缓存让你感知不到下面云存储的存在 如果要解决 S3 的 Latency 问题,这里提供一些思路,比如像 RockSet 那样用 SSD 或者本地磁盘来做 cache,或者通过 kinesis 写入日志,来降低整个写入的延迟。
不可否认,基于 raft 和 paxos 的算法依然会被很多 OLTP 数据库所采用,不过我们应该可以从 PacificA 协议、Socrates、Aurora、Rockset 中看出一些新的趋势。 最后一个例子,有一个有意思的产品叫 Rockset,这是一家由 Facebook RocksDB 原团队设计的分析型产品。 RocksDB Cloud架构 之后有机会可以单独聊聊 rockset 这款产品,在我看来它是 Snowflake 之外 OLAP 产品中云原生做的最好的。
4、支持矢量的NoSQL数据库 这些数据库包括:NoSQL数据库,如MongoDB, Cassandra/ DataStax Astra, CosmosDB和Rockset。 4月,Rockset宣布支持基本矢量搜索, 5月Azure Cosmos DB宣布支持MongoDB vCore的矢量搜索。
为什么OpenAI要收购Rockset?近期,OpenAI花了5亿美元(约36亿人民币)收购了企业搜索和分析初创公司Rockset。
针对这些短板,OpenAI 也提出了一些解决方案,比如最近收购了一家名叫 Rockset 的搜索分析初创公司。 通过整合 Rockset 的实时搜索和分析技术,OpenAI 想为企业客户提供更强大的数据处理和分析能力,进一步提升其 AI 模型的应用价值。
第三个巨头的选择,OpenAI 收购数据实时分析产品 Rockset 让业界意外也不意外的是,OpenAI 正式宣布收购 Rockset——这是一款以数据索引及查询功能而闻名的实时分析数据库。 OpenAI 在其官方博客上发表的一篇文章中表示,它将整合 Rockset 的技术来“为其所有产品的基础设施提供支持”。
原生向量数据库(Chroma、LanceDB、Mivus等)、支持向量的全文检索数据库(Elastic、Lucene、OpenSearch和Solr)、支持向量的NoSQL数据库(Cassandra、Rockset
下面这篇文章加了我自己的一些理解和实践经验,原文请参考:https://www.rockset.com/blog/operational-analytics-what-every-software-engineer-should-know