哈佛华人创办的 AI 搜索引擎，提出了 AI 搜索赛道的 Scaling Law

夕小瑶科技说

2024-12-22 16:58发布于北京科技领域创作者

“当人类使用 AI 作为入口，搜索引擎的消费者将只剩下 AI”

不像西部世界的 AI 那么智能，现在的 AI 经常没办法满足我的小众需求。

我开始以为是模型能力的问题，但是试用了各家的 AI 发现它们都因为使用的搜索引擎 API 无法搜出相关内容而无法解答。

想不到制约大模型发展的是居然是现有的搜索引擎！

现在的搜索引擎面向的主要人群都是人，那么有没有一个面向 AI 的搜索引擎？

于是上 X 一搜，还真的发现了一家叫 Exa 的公司做了类似的事情！居然还获得了 Nvidia 和 YC 投资！！

比较有意思的是，这个搜索引擎的 CEO 还自称 Exa 是史上最慢的搜索引擎。

经过一轮官网挖掘，我发现这玩意很有潜质，而且不单能作为搜索 API 给 AI 用，也很适合普通人。

HR 的全网捞人神器

以前给公司招聘的时候，经常找不到合适的人选：每天限制打招呼的个数，发短信还要开会员按条收费！

我试了下用 Exa 搜索人，以下是我给出的文字要求：

Exa 在一杯 ☕️ 的时间里找到了上面的结果。

而且，竟然直接用表格的方式给我呈现了出来——

你还可以点击具体的 URL 找到对应的人的领英档案，感觉满意的时候还可以下载整个数据集。

作为对比，以下是 Google 和 OpenAI 在面对同样请求时的结果：

好用了不只一点，默默为逝去的那些数据整理的夜晚表示不值 😭

于是我开始好奇到底咋做到的呢？

将整个互联网内容向量化

我搜了下 Exa 的技术博客，发现它用到了现在很流行的语义搜索，也就是 RAG（Retrieval-Augmented Generation）。

但是区别在于，别人用语义搜索搜索的是自己公司或者垂直领域的数据，但是 Exa 更进一步：

Exa 试图抓取整个互联网的内容并将其编码为 AI 友好的形式。

为什么要这样做？答案是：巧妇难为无米之炊。

通过研究，Exa最近还提出了 AI 搜索界的 Scaling Law——

下面的图表展示了在搜索过程中，随着计算量的增加，匹配结果数量的变化情况。

从图中的数据点可以看出，随着搜索时计算量的增加，匹配结果的数量也在增加。

结果的增加可以让 Exa 更好地找到用户真正关心的长尾信息！

例如，当用户搜索“制作大模型芯片的初创公司”时，Exa 的搜索引擎会预测接下来可能出现的链接，而不是简单地匹配关键词，从而提供更符合用户需求的结果。
再比如，一位专注于科技领域的用户在搜索“最新的智能手机技术创新”时，Exa 会优先展示与该用户兴趣高度相关的专业评测、技术分析和行业动态等内容；
对于一位普通消费者，搜索同样的关键词时，Exa 可能会更侧重于展示通俗易懂的产品介绍、用户体验分享和购买指南等信息。

下面是一个通用的搜索流程：

选中你想要的数据类型：公司、人、文章，或者自定义你想要的类型
输入搜索的文字要求
喝一杯咖啡 ☕️（CEO：能不能给我一首歌的时间？）
等待搜索引擎匹配相关 Embedding 并返回结构化的数据表

可以看到在这个例子里，Exa 找到了 1057 个结果，并且返回了 108 个和搜索要求相关的结果，你甚至不需要写哪怕一行 Python 代码。

烧钱造护城河

有人肯定会有疑问，既然语义搜索那么好，为什么 Google 不直接将其全量应用到自身产品上？

答案是因为语义搜索贵，而且搜索起来慢

首先，编码页面而非索引关键词的过程缓慢且昂贵。虽然 Exa 已经编码了数十亿个网页，但与谷歌索引的约一万亿个网页相比，这只是一小部分。

此外，Websets 的搜索速度较慢，有时需要几分钟才能返回结果。

然而，Exa 的联合创始人兼首席执行官威尔·布里克（Will Bryk）却认为这是值得的，让我们来看看他是怎么说的:

我相信随着技术的不断发展和完善，语义搜索将对未来的信息检索领域产生深远影响。

连 Nvidia 和 YC 都看中了这个领域的潜力，这才有了标题说到的投资史上最慢搜索产品的故事。

当然我更担心的问题是，单个搜索这么耗费算力，这个引擎免费开放看来是遥遥无期 😭

那么重点来了？那搜索的时候到底应该怎么选搜索引擎？

灵活选用搜索引擎

即使 Exa 带来了全新的搜索体验，但它也并不是一个银弹（万能膏药）。

基于 Embedding 的搜索（如 Exa）在具体匹配时候会稍逊一筹，我的理解是 Embedding 是表示现实世界中的人、地点和事物等实体的好方法，但如果试图用 Embedding 表示整个句子或页面文本，会丢失很多信息。

例如，将《战争与和平》表示为单个 Embedding，会失去故事中发生的几乎所有具体事件，只留下其体裁和时期的大致感觉。

关于选用合适的搜索引擎类型，我自己的体验是：

当你不确定你在找什么的时候：可以用 Exa，例如对于查询“一篇关于金融领域大语言模型的有趣博客文章”，Exa 的表现优于其他搜索引擎。

2. 当你很确定具体的搜索关键字：使用传统的搜索引擎，可以快速匹配。如果你想要带总结的答案，可以使用以下的搜索：

最后

虽然 Exa Websets 正式版本还没有上线，但我已经抢先加入了试用队列。

期待用 Exa 找出房子大，消费低，旅游方便，适合地理套利，网好，最重要是适合中国胃的 N 个旅居城市！

感兴趣的小伙伴也可以在这里加入试用队列：

https://exa.ai/websets

懒得加入的也可以留言自己想搜索的东西，等我拿到资格后给大家出一期 👀