哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law

“当人类使用 AI 作为入口,搜索引擎的消费者将只剩下 AI”

图片

不像西部世界的 AI 那么智能,现在的 AI 经常没办法满足我的小众需求。

我开始以为是模型能力的问题,但是试用了各家的 AI 发现它们都因为使用的搜索引擎 API 无法搜出相关内容而无法解答。

想不到制约大模型发展的是居然是现有的搜索引擎!

现在的搜索引擎面向的主要人群都是人,那么有没有一个面向 AI 的搜索引擎?

图片

于是上 X 一搜,还真的发现了一家叫 Exa 的公司做了类似的事情!居然还获得了 Nvidia 和 YC 投资!!

比较有意思的是,这个搜索引擎的 CEO 还自称 Exa 是史上最慢的搜索引擎。

经过一轮官网挖掘,我发现这玩意很有潜质,而且不单能作为搜索 API 给 AI 用,也很适合普通人。

HR 的全网捞人神器

以前给公司招聘的时候,经常找不到合适的人选:每天限制打招呼的个数,发短信还要开会员按条收费!

我试了下用 Exa 搜索人,以下是我给出的文字要求:

Exa 在一杯 ☕️ 的时间里找到了上面的结果。

而且,竟然直接用表格的方式给我呈现了出来——

图片

你还可以点击具体的 URL 找到对应的人的领英档案,感觉满意的时候还可以下载整个数据集。

作为对比,以下是 Google 和 OpenAI 在面对同样请求时的结果:

图片

好用了不只一点,默默为逝去的那些数据整理的夜晚表示不值 😭

于是我开始好奇到底咋做到的呢?

将整个互联网内容向量化

图片

我搜了下 Exa 的技术博客,发现它用到了现在很流行的语义搜索,也就是 RAG(Retrieval-Augmented Generation)。

图片

但是区别在于,别人用语义搜索搜索的是自己公司或者垂直领域的数据,但是 Exa 更进一步:

Exa 试图抓取整个互联网的内容并将其编码为 AI 友好的形式。

为什么要这样做?答案是:巧妇难为无米之炊。

图片

通过研究Exa最近还提出了 AI 搜索界的 Scaling Law——

图片

下面的图表展示了在搜索过程中,随着计算量的增加,匹配结果数量的变化情况。

图片

从图中的数据点可以看出,随着搜索时计算量的增加,匹配结果的数量也在增加。

结果的增加可以让 Exa 更好地找到用户真正关心的长尾信息!

  • 例如,当用户搜索“制作大模型芯片的初创公司”时,Exa 的搜索引擎会预测接下来可能出现的链接,而不是简单地匹配关键词,从而提供更符合用户需求的结果。
  • 再比如,一位专注于科技领域的用户在搜索“最新的智能手机技术创新”时,Exa 会优先展示与该用户兴趣高度相关的专业评测、技术分析和行业动态等内容;
  • 对于一位普通消费者,搜索同样的关键词时,Exa 可能会更侧重于展示通俗易懂的产品介绍、用户体验分享和购买指南等信息。
图片

下面是一个通用的搜索流程:

  1. 选中你想要的数据类型:公司、人、文章,或者自定义你想要的类型
  2. 输入搜索的文字要求
  3. 喝一杯咖啡 ☕️(CEO:能不能给我一首歌的时间?)
  4. 等待搜索引擎匹配相关 Embedding 并返回结构化的数据表
图片

可以看到在这个例子里,Exa 找到了 1057 个结果,并且返回了 108 个和搜索要求相关的结果,你甚至不需要写哪怕一行 Python 代码。

烧钱造护城河

有人肯定会有疑问,既然语义搜索那么好,为什么 Google 不直接将其全量应用到自身产品上?

答案是因为语义搜索贵,而且搜索起来慢

首先,编码页面而非索引关键词的过程缓慢且昂贵。虽然 Exa 已经编码了数十亿个网页,但与谷歌索引的约一万亿个网页相比,这只是一小部分。

此外,Websets 的搜索速度较慢,有时需要几分钟才能返回结果。

然而,Exa 的联合创始人兼首席执行官威尔·布里克(Will Bryk)却认为这是值得的,让我们来看看他是怎么说的:

我相信随着技术的不断发展和完善,语义搜索将对未来的信息检索领域产生深远影响。

连 Nvidia 和 YC 都看中了这个领域的潜力,这才有了标题说到的投资史上最慢搜索产品的故事。

当然我更担心的问题是,单个搜索这么耗费算力,这个引擎免费开放看来是遥遥无期 😭

那么重点来了?那搜索的时候到底应该怎么选搜索引擎?

灵活选用搜索引擎

即使 Exa 带来了全新的搜索体验,但它也并不是一个银弹(万能膏药)。

基于 Embedding 的搜索(如 Exa)在具体匹配时候会稍逊一筹,我的理解是 Embedding 是表示现实世界中的人、地点和事物等实体的好方法,但如果试图用 Embedding 表示整个句子或页面文本,会丢失很多信息。

例如,将《战争与和平》表示为单个 Embedding,会失去故事中发生的几乎所有具体事件,只留下其体裁和时期的大致感觉。

关于选用合适的搜索引擎类型,我自己的体验是:

  1. 当你不确定你在找什么的时候:可以用 Exa,例如对于查询“一篇关于金融领域大语言模型的有趣博客文章”,Exa 的表现优于其他搜索引擎。
图片
    2. 当你很确定具体的搜索关键字:使用传统的搜索引擎,可以快速匹配。如果你想要带总结的答案,可以使用以下的搜索:
图片

最后

虽然 Exa Websets 正式版本还没有上线,但我已经抢先加入了试用队列。

期待用 Exa 找出房子大,消费低,旅游方便,适合地理套利,网好,最重要是适合中国胃的 N 个旅居城市!

感兴趣的小伙伴也可以在这里加入试用队列:

https://exa.ai/websets

懒得加入的也可以留言自己想搜索的东西,等我拿到资格后给大家出一期 👀