Timescale 通过 pgai 向量化工具来增强 PostgreSQL 的 AI 能力

图片

作者 | Mohit Palriwal
译者 | 刘雅梦
策划 | 丁晓昀

Timescale 最近通过 pgai 向量化工具(pgai Vectorizer)扩展了其 PostgreSQL AI 产品。该更新使开发人员能够创建、存储和管理向量嵌入以及关系数据,而无需外部工具或额外的基础设施。

TimescaleDB 是针对时间序列数据量身定制的 PostgreSQL 开源扩展,它首先通过实时分析功能增强了 PostgreSQL。现在,Timescale 正在增强与 pgai 套件的 AI 集成,并引入了 pgai 向量化工具(pgai Vectorizer),使开发人员能够在 PostgreSQL 中无缝地进行 AI 开发。

贡献者指出了开发过程中的一些挑战。一位贡献者 Tostino强调了 OpenAI API 的合规性问题,并指出当前的实现缺乏在开源推理服务器上使用代理解决方案或自定义采样器所需的几个参数。此外,Tostino 建议,在返回 JSON 而不是严格数据类型的原始函数之上构建提供“简单”包装器的函数,以增强灵活性。

构建搜索引擎和 AI 代理等人工智能系统通常需要复杂的工作流程。pgai 向量化工具(pgai Vectorizer)通过将整个 AI 工作流程集成到 PostgreSQL 中来简化这一过程,使开发人员能够使用熟悉的 SQL 命令快速有效地创建高级 AI 应用程序。

图片

来源

Timescale 认为,将向量嵌入视为独立数据的标准方法会导致同步问题和数据过时。伦理人工智能与机器学习研究所评论道:

TimescaleDB 建议将嵌入视为类似于数据库索引的派生数据来处理,这很有趣,考虑到最近来自像 planetscale 这样的数据库扩展,将嵌入原生集成到索引中,同样是通过“原生向量化工具”抽象。然而,在这种情况下,他们仍然利用 OSS pgai Vectorizer for PostgreSQL,这有助于自动化嵌入与数据库中源数据的同步,

pgvector 和 pgvectorscale 扩展允许我们在数据库中存储向量嵌入,并执行快速高效的向量搜索。pgai 向量化工具(pgai Vectorizer)构建在这些扩展之上,可以自动创建和同步数据库中任何文本数据的嵌入。

只需一行代码,我们就可以定义一个向量化工具,为表中的数据创建嵌入。机器学习顾问 Suvarna Kadam评论道:

pgai 向量化工具(pgai Vectorizer)允许使用一个 SQL 命令来管理我们的向量嵌入,“而无需”通常的工程挑战来保持它与源数据的同步!


SELECT ai.create_vectorizer(     <table_name>::regclass,    destination => <embedding_table_name>,    embedding => ai.embedding_openai(<model_name>, <dimensions>),    chunking => ai.chunking_recursive_character_text_splitter(<column_name>));

在同一周,Neon 数据库实验室(Neon Database Labs)还推出了 Pgrag,这是一个实验性的 PostgreSQL 扩展,旨在支持端到端的检索增强生成(RAG)管道,进一步扩展了他们自己的 AI 能力。

除了最近推出的 pgai 向量化工具(pgai Vectorizer)外,社区还对将支持的嵌入模型范围扩展到 OpenAI 之外感兴趣。贡献者 claudeomusic 询问了使嵌入模型选择可配置的可能性,强调了灵活性对用户的重要性。作为回应,Timescale 的 alejandrodnm 证实,虽然目前的 Vectorizer 功能仅支持 OpenAI 模型,但计划在未来纳入其他提供商。该团队对社区的贡献持开放态度,以帮助实现这一目标。另一位撰稿人 wang 分享了他关于如何使用 Openrouter 的解决方案。

要使用预构建的 Docker 开发环境快速尝试嵌入,请参阅 Vectorizer 快速入门。有关更详细的技术规范,请参阅 Vectorizer API 参考资料。

作者介绍

Mohit Palriwal 是 Netflix 的高级软件工程师,也是 Netflix 可观测性团队的重要成员。他是 Netflix Atlas 项目团队的一员,该项目是一个开源的多维时间序列数据库,旨在处理大规模需求。在加入 Netflix 之前,Mohit 是 Salesforce 的首席软件工程师,在那里他与人合作构建了 AWS 上的可观测性云。Mohit 的经验还延伸到了亚马逊网络服务(AWS),在那里他花了四年多的时间开发和推出了基于无服务器架构的 AWS Pinpoint。

https://www.infoq.com/news/2024/11/timescale-pgai-vectorizer/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐
 会议推荐

就在 12 月 13 日 -14 日,AICon 将汇聚 70+ 位 AI 及技术领域的专家,深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外,还有丰富的圆桌论坛、以及展区活动,满足你对大模型实践的好奇与想象。现在正值 9 折倒计时,名额有限,快扫码咨询了解详情,别错过这次绝佳的学习与交流机会!