“当人类使用 AI 作为入口,搜索引擎的消费者将只剩下 AI”
不像西部世界的 AI 那么智能,现在的 AI 经常没办法满足我的小众需求。
我开始以为是模型能力的问题,但是试用了各家的 AI 发现它们都因为使用的搜索引擎 API 无法搜出相关内容而无法解答。
想不到制约大模型发展的是居然是现有的搜索引擎!
现在的搜索引擎面向的主要人群都是人,那么有没有一个面向 AI 的搜索引擎?
于是上 X 一搜,还真的发现了一家叫 Exa 的公司做了类似的事情!居然还获得了 Nvidia 和 YC 投资!!
比较有意思的是,这个搜索引擎的 CEO 还自称 Exa 是史上最慢的搜索引擎。
经过一轮官网挖掘,我发现这玩意很有潜质,而且不单能作为搜索 API 给 AI 用,也很适合普通人。
HR 的全网捞人神器
以前给公司招聘的时候,经常找不到合适的人选:每天限制打招呼的个数,发短信还要开会员按条收费!
我试了下用 Exa 搜索人,以下是我给出的文字要求:
Exa 在一杯 ☕️ 的时间里找到了上面的结果。
而且,竟然直接用表格的方式给我呈现了出来——
你还可以点击具体的 URL 找到对应的人的领英档案,感觉满意的时候还可以下载整个数据集。
作为对比,以下是 Google 和 OpenAI 在面对同样请求时的结果:
好用了不只一点,默默为逝去的那些数据整理的夜晚表示不值 😭
于是我开始好奇到底咋做到的呢?
将整个互联网内容向量化
我搜了下 Exa 的技术博客,发现它用到了现在很流行的语义搜索,也就是 RAG(Retrieval-Augmented Generation)。
但是区别在于,别人用语义搜索搜索的是自己公司或者垂直领域的数据,但是 Exa 更进一步:
Exa 试图抓取整个互联网的内容并将其编码为 AI 友好的形式。
为什么要这样做?答案是:巧妇难为无米之炊。
通过研究,Exa最近还提出了 AI 搜索界的 Scaling Law——
下面的图表展示了在搜索过程中,随着计算量的增加,匹配结果数量的变化情况。
从图中的数据点可以看出,随着搜索时计算量的增加,匹配结果的数量也在增加。
结果的增加可以让 Exa 更好地找到用户真正关心的长尾信息!
例如,当用户搜索“制作大模型芯片的初创公司”时,Exa 的搜索引擎会预测接下来可能出现的链接,而不是简单地匹配关键词,从而提供更符合用户需求的结果。 再比如,一位专注于科技领域的用户在搜索“最新的智能手机技术创新”时,Exa 会优先展示与该用户兴趣高度相关的专业评测、技术分析和行业动态等内容; 对于一位普通消费者,搜索同样的关键词时,Exa 可能会更侧重于展示通俗易懂的产品介绍、用户体验分享和购买指南等信息。
下面是一个通用的搜索流程:
选中你想要的数据类型:公司、人、文章,或者自定义你想要的类型 输入搜索的文字要求 喝一杯咖啡 ☕️(CEO:能不能给我一首歌的时间?) 等待搜索引擎匹配相关 Embedding 并返回结构化的数据表
可以看到在这个例子里,Exa 找到了 1057 个结果,并且返回了 108 个和搜索要求相关的结果,你甚至不需要写哪怕一行 Python 代码。
烧钱造护城河
有人肯定会有疑问,既然语义搜索那么好,为什么 Google 不直接将其全量应用到自身产品上?
答案是因为语义搜索贵,而且搜索起来慢
首先,编码页面而非索引关键词的过程缓慢且昂贵。虽然 Exa 已经编码了数十亿个网页,但与谷歌索引的约一万亿个网页相比,这只是一小部分。
此外,Websets 的搜索速度较慢,有时需要几分钟才能返回结果。
然而,Exa 的联合创始人兼首席执行官威尔·布里克(Will Bryk)却认为这是值得的,让我们来看看他是怎么说的:
我相信随着技术的不断发展和完善,语义搜索将对未来的信息检索领域产生深远影响。
连 Nvidia 和 YC 都看中了这个领域的潜力,这才有了标题说到的投资史上最慢搜索产品的故事。
当然我更担心的问题是,单个搜索这么耗费算力,这个引擎免费开放看来是遥遥无期 😭
那么重点来了?那搜索的时候到底应该怎么选搜索引擎?
灵活选用搜索引擎
即使 Exa 带来了全新的搜索体验,但它也并不是一个银弹(万能膏药)。
基于 Embedding 的搜索(如 Exa)在具体匹配时候会稍逊一筹,我的理解是 Embedding 是表示现实世界中的人、地点和事物等实体的好方法,但如果试图用 Embedding 表示整个句子或页面文本,会丢失很多信息。
例如,将《战争与和平》表示为单个 Embedding,会失去故事中发生的几乎所有具体事件,只留下其体裁和时期的大致感觉。
关于选用合适的搜索引擎类型,我自己的体验是:
当你不确定你在找什么的时候:可以用 Exa,例如对于查询“一篇关于金融领域大语言模型的有趣博客文章”,Exa 的表现优于其他搜索引擎。
最后
虽然 Exa Websets 正式版本还没有上线,但我已经抢先加入了试用队列。
期待用 Exa 找出房子大,消费低,旅游方便,适合地理套利,网好,最重要是适合中国胃的 N 个旅居城市!
感兴趣的小伙伴也可以在这里加入试用队列:
https://exa.ai/websets
懒得加入的也可以留言自己想搜索的东西,等我拿到资格后给大家出一期 👀