对新想法持开放态度
开源软件工具因其具有的多项优势而持续受到欢迎,包括更低的前期软件和硬件成本、更低的总拥有成本、无厂商锁定、更简单的许可管理和来自活跃社区的支持。
下面我们将介绍今年引起我们关注的一些最受欢迎的开源软件产品,其中一些已经存在了一段时间,并且已经被广泛使用,而另一些则相对较新——一些在去年左右才首次亮相——但已经显示出早期的发展势头。
毫不奇怪,AI和生成式AI应用开发的浪潮是推动开源软件采用的主要驱动力,这个榜单中的部分产品属于软件开发领域,或有助于满足管理AI系统所需大量数据的需求。
这些产品可在MIT许可、Apache 2.0许可、GNU GPL等开源许可下使用,有些产品是由获得创业加速器和风险投资公司Y Combinator资助的初创公司开发的产品。
Airbyte
Airbyte是一个快速增长的数据集成和数据移动平台,用于ETL/ELT数据管道,可以把应用、API、数据库和文件连接到数据仓库、数据湖和其他目的地。Airbyte还可以用于把非结构化数据和半结构化数据移动到AI应用的矢量数据库和大型语言模型框架中。
Airbyte核心的Airbyte Open Source已经被40000多家公司使用,这款软件可以在多个开源许可下使用,包括MIT许可和Elastic许可2.0。
总部位于美国旧金山的Airbyte还围绕这个平台提供了许多商业产品和服务。今年5月Airbyte启动了一项合作伙伴计划,其中包括了认证课程,用于帮助技术服务提供商和经销商使用Airbyte软件。
Apache DataFusion
Apache软件基金会把DataFusion描述为“一种快速的、可扩展的查询引擎,用于构建高质量、以数据为中心的系统”,例如数据库、数据框库、机器学习和流媒体应用。
DataFusion可以用作嵌入式SQL引擎,也可以定制并用作构建新系统的基础,重点关注高吞吐量、低延迟的分析、流式传输和事务工作负载。
DataFusion采用了Apache Arrow(一种用于构建处理列式数据的数据分析应用的、语言无关的框架)和Rust编程语言的技术功能。
Apache软件基金会自2019年以来一直在开发DataFusion,今年6月Apache软件基金会表示,作为Apache Arrow项目的一部分,DataFusion现在已经被指定为顶级项目,“以提供更有针对性的治理能力,实现持续增长”。
用户可以从Apache软件基金会网站、GitHub和其他网站下载DataFusion,该软件遵循Apache 2.0许可,最新源代码版本为41.0.0。
Danswer
据Danswer公司网站介绍,Danswer提供了一个开源AI助手和企业搜索应用,可以连接企业所有的工具、应用和文档,使整个组织中的信息查找变得更加容易。
Danswer表示,可以把这款软件看做是ChatGPT,但可以访问组织自己的信息、数据和文档,而不会产生幻觉。Danswer的软件已经提供了40多个交钥匙集成,例如与Slack和Google Docs的集成,“而且每天都在构建更多的集成”。
Danswer软件可在企业数据中心或云平台上自行托管。
Danswer公司成立于2023年,获得Y Combinator的支持。该软件采用MIT许可,可从该公司和GitHub获得。
DuckDB
DuckDB是一种高性能进程内数据库,旨在支持在线分析处理(OLAP)查询工作负载。
根据Database of Databases网站显示,这款关系型(面向表的)数据库支持SQL并使用列向量化查询执行引擎,这个引擎可以在一次操作中将大量值作为向量处理,而且数据库设计为嵌入在主机进程中运行,无需安装服务器数据库。
DuckDB最初是2018年在荷兰国家数学和计算机科学研究所Centrum Wiskunde & Informatica开发的。
DuckDB及其核心扩展在MIT许可下开源,整个源代码可以在GitHub上免费获取。DuckDB 1.0.0版本是今年6月刚刚发布的,可以通过DuckDB.org网站和GitHub获取。
DuckDB备受关注的一个原因是初创公司MotherDuck开发了运行在DuckDB上的云分析软件。
Grafana可观察性工具
Grafana是一个开源可观察性和数据可视化平台,用于收集和可视化来自许多数据源的指标、跟踪和日志数据,常用作IT/OT监控系统的组件。
Grafana是由Grafana Labs开发的,在AGPL-3.0开源许可下可用。今年4月,该公司推出了Grafana 11.0,其中包含新的Explore Metrics根本原因分析功能、改进的可视化、更简单的警报和对其他数据源的支持。
除了旗舰软件外,Grafana Labs还开发了其他开源软件,包括多租户日志聚合系统Grafana Loki、用于大规模分布式跟踪的后端软件Grafana Tempo、以及可扩展后端指标存储和分析工具Grafana Mimir,此外Grafana Labs还销售软件的商用企业版。
LangChain
根据Python.Langchain.com网站和IBM网站介绍,LangChain是一个开源编排框架,用于开发连接了外部数据源的大型语言模型所驱动的生成式AI应用。
如果企业和组织有办法将自己的专有数据加载到大型语言模型中,他们就可以从生成式AI中获得更多价值,由于数据准备和大型语言模型调整的复杂性以及数据安全问题,这可能是一项艰巨的任务。
LangChain简化了大型语言模型应用生命周期的每个阶段,包括开发和将应用部署到生产中,具体工具包括用于构建有状态代理的LangGraph、用于检查和监控链的LangSmith,以及开源构建块、组件和第三方集成。
GitHub上提供了具体的LangChain工具,包括MIT许可下的框架本身。
MindsDB
MindsDB是一个开源虚拟数据库和开发平台,可以自动执行把实时数据连接到AI系统的工作流程。该软件让使用SQL查询构建、训练和部署机器学习模型变得更加容易。
该软件的开发商MindsDB成立于2017年,总部位于美国旧金山。据该公司网站显示,其开源软件的使命是使机器学习民主化。为了实现这一目标,MindsDB公司在2023年9月推出了MindsDB AI Collective,一个由AI初创公司和开发者组成的网络,他们正在推进开源机器学习和AI项目,连接投资方、技术援助和人才资源。
MindsDB公司是Y Combinator资助的众多开源技术初创公司之一。
MindsDB软件在开源MIT许可下可用,软件的核心组件MindsDB Core则专门采用了Elastic v2许可。
OpenFoundry
OpenFoundry平台为开源AI项目提供了开发者基础设施。据称,该技术可以帮助工程师以10倍的速度构建、部署和扩展他们的开源AI“堆栈”,更快地发布开源、AI驱动的产品。
OpenFoundry公司是由其首席执行官Tyler Lehman(曾任Meta的产品经理)和首席技术官Arthur Chi(Slack的软件工程师)在今年创立的,也是由Y Combinator资助的开源技术初创公司。
Y Combinator网站上的OpenFoundry页面将该初创公司宣传为Hugging Face机器学习和数据科学平台的开源替代品。OpenFoundry在GitHub上以MIT许可的形式提供。
OpenZiti
根据www.openziti.io网站显示,OpenZiti是一个免费的开源项目,专注于将零信任网络原则直接引入任何应用。该平台提供了实现零信任覆盖网络所需的所有组件,为开发人员提供了把零信任集成到应用中所需的所有工具。
根据该网站的说法,OpenZiti项目“认为零信任原则不应该止步于您的网络,这些想法应该融入您的应用中”。
OpenZiti在Apache 2.0许可下提供,可通过OpenZiti.io网站和GitHub下载。
OpenZiti的组件包括The Fabric,一个具有内置智能路由的可扩展覆盖网络网格;The Edge,为覆盖网络提供安全入口点的组件;SDK,让开发人员把零信任原则嵌入应用中;Tunneling技术,为无法内置零信任的应用搭建桥梁。
Twenty
初创公司Twenty正在执行一项大胆的任务,即开发一款基于SaaS的开源CRM应用,以提供一个对应用巨头Salesforce的现代化替代方案。
Twenty在其网站上表示,该软件提供了一个用于管理客户数据的操作系统,提供了领先的CRM系统所具备的所有功能,包括任务和“看板视图”工作流可视化。
该应用仍处于早期的“alpha”开发阶段,但可以从该公司网站和GitHub获取(在GNU Affero General Public License许可下),供想要查看的人使用。
最新版本0.32.0是在11月3日发布的,其中包含了很多新增功能和增强功能,包括更强大的搜索、webhook过滤器和webhook多对象过滤、高级设置和新设置布局、软删除功能、以及用于存储非预定义值的新数组字段类型。
Twenty公司成立于2023年,总部位于美国旧金山,获得了Y Combinator的资助。