AI创投周报| ChatGPT正式成为AI搜索引擎,对话式AI Agent平台Sierra AI融资1.75亿美元

图片


AI创投周报是阿尔法公社关于全球人工智能投资的资讯周报,适合创业者和投资人参考。


阿尔法公社聚焦科技天使投资,近期集中投资了十余家AI初创企业,我们瞄准高段位创业者,投资了加拿大工程院外籍院士、美国工程院院士担任CEO的数个项目,以及国家重大专项首席专家、中国CIO标杆人物、大厂高端人才等创始人项目,包括HiDream智象未来、八方地动、创享数智等。


图片


本周,我们观察到AI领域的新动向和新趋势:


1. ChatGPT正式成为AI搜索引擎,补齐即时信息短板。2024年11月1日,OpenAI宣布重大更新,将ChatGPT转变为一款AI搜索引擎,ChatGPT在即时信息获取短板被补齐。ChatGPT search的推出,意味着用户可以与全球最先进的AI大模型进行对话,同时通过网络资源链接快速、及时地获取答案。这一新功能将覆盖ChatGPT的网页版、手机和桌面应用,用户可以根据具体需求决定何时利用网络中的搜索结果,也可以主动触发网络搜索。


2. 苹果更新,用户可以体验首批Apple Intelligence功能。苹果公司近日宣布,随着iOS 18.1、iPadOS 18.1和macOS Sequoia 15.1的更新,用户可以体验首批Apple Intelligence功能,标志着苹果AI正式登陆iPhone、iPad和Mac。这些更新为用户带来了全系统范围的写作工具、更智能的Siri以及照片中的智能功能。苹果CEO库克称Apple Intelligence为“全世界最好的AI一体机”,它能够理解、生成文字和图像,并实现跨应用协同,同时简化日常任务。


3. 对话式AI Agent平台Sierra AI融资1.75亿美元,估值达45亿美元。由前Salesforce联合首席执行官Bret Taylor联合创立的Sierra在1月份的估值为10亿美元,此轮估值高达45亿美元,由Greenoaks Capital领投。Sierra专注于构建对话式AI Agent平台,旨在帮助企业高效处理客服业务,减少重复性事务的人力投入,同时保证服务质量。


图片

人工智能产品和技术的新突破


1. ChatGPT正式成为AI搜索引擎,补齐即时信息短板


2024年11月1日,OpenAI宣布重大更新,将ChatGPT转变为一款AI搜索引擎,ChatGPT在即时信息获取短板被补齐。ChatGPT search的推出,意味着用户可以与全球最先进的AI大模型进行对话,同时通过网络资源链接快速、及时地获取答案。这一新功能将覆盖ChatGPT的网页版、手机和桌面应用,用户可以根据具体需求决定何时利用网络中的搜索结果,也可以主动触发网络搜索。


OpenAI已经与多家新闻和数据提供商达成合作,为天气、股票、体育运动、新闻和地图等不同类别使用新的视觉设计。Vox Media总裁Pam Wasserstein表示,ChatGPT搜索有望更好地突显和归因来自可靠新闻来源的信息,使用户受益,同时扩大优质新闻发行商的影响力。


与传统搜索引擎如Google相比,ChatGPT search的优势在于其能够过滤网络中的无用信息,提供更高质量的内容,而Google往往呈现广泛的结果,可能包括不太相关的链接。OpenAI表示,ChatGPT搜索是基于GPT-4o的微调版本,使用新颖的合成数据生成技术进行后训练,包括从o1-preview中提取输出。这种技术的应用,使得ChatGPT搜索能够提供用户正在寻找的信息,同时保持信息的准确性和时效性。其次,ChatGPT Search提供对话式界面,允许用户用自然语言提问并获得连贯的回答,而Google采用的是传统的基于关键词的搜索方式。另外,ChatGPT Search承诺提供无广告的用户体验,与Google的广告驱动模式形成对比。


虽然AI搜索独角兽Perplexity AI也利用网络搜索提供答案,但ChatGPT Search将这一能力直接集成到聊天界面中,允许更互动和上下文意识的体验。它可以由用户手动触发,也可以根据查询的相关性自动激活,增强了可用性,而Perplexity的方式相对静态。用户反馈表明,ChatGPT Search反应迅速,并强调引用,提供详细的来源信息,增强了可靠性。

图片

来源:https://openai.com/index/introducing-chatgpt-search/

2. 苹果AI一体机亮相,M4 Mac系列开启智能新纪元

苹果公司近日宣布,随着iOS 18.1、iPadOS 18.1和macOS Sequoia 15.1的更新,用户可以体验首批Apple Intelligence功能,标志着苹果AI正式登陆iPhone、iPad和Mac。这些更新为用户带来了全系统范围的写作工具、更智能的Siri以及照片中的智能功能。苹果CEO库克称Apple Intelligence为“全世界最好的AI一体机”,它能够理解、生成文字和图像,并实现跨应用协同,同时简化日常任务。


新款iMac搭载了M4芯片,性能大幅提升,标配16GB统一内存,可选配至32GB。M4芯片的十核CPU和GPU在日常工作效率和复杂工作流中分别提升了1.7倍和2.1倍的速度。M4的神经网络引擎比M1快3倍以上,极大加快了任务完成速度。新款iMac的设计包括24英寸4.5K Retina屏幕和全新的纳米纹理玻璃面板,减少反光炫光,同时配备12MP Center Stage摄像头,支持桌面视角功能。


苹果AI的集成优化了强大的生成式模型,提供个性化的macOS系统体验。对于高算力任务,用户还可以访问苹果的云端模型。苹果的隐私保护算法确保了数据安全,专家提供的“第二重保障”进一步增强了隐私保护。


苹果AI的写作工具可以跨App使用,提供重写、校对和总结功能。Siri的升级使其更加灵活自然,能够深度融入系统体验。照片应用中的新功能允许用户用自然语言搜索照片和视频,甚至一键消除照片中的路人。苹果AI还帮助用户高效管理任务,保持专注。


预计12月,Mac将推出更多新功能,包括Image Playground和Genmoji等。Siri也将变得更加强大,能够回答与用户个人相关的问题。苹果AI未来将解锁Mac系列全新的可能,并计划明年在国内上线。


图片
来源:https://www.apple.com/hk/en/apple-intelligence/

3. Meta推出开源PDF转播客工具NotebookLlama,对标谷歌NotebookLM


Meta最近发布了NotebookLlama,一个开源工具,它能够将PDF文件转换成播客内容,对标谷歌的NotebookLM。NotebookLlama的核心流程包括四个主要步骤:预处理PDF、撰写播客稿、增加戏剧冲突以及语音合成。预处理使用Llama-3.2-1B-Instruct模型,专注于清理PDF文件中的字符和编码错误,而不改变原始内容。撰写播客稿则依赖于Llama-3.1-70B-Instruct模型,将文本转化为播客稿,其中70B模型因其更具创意而受到推荐。Llama-3.1-8B-Instruct模型负责增加戏剧冲突,使播客稿更加引人入胜,并以对话元组的形式返回结果,便于后续的TTS处理。最后,通过parler-tts/parler-tts-mini-v1和bark/suno模型将文字转换为声音。


为了运行NotebookLlama,用户需要一个GPU服务器或API提供商,特别是70B模型需要大约140GB的显存。用户在使用前需要通过huggingface-cli登录,并启动jupyter notebook server以下载LLaMa模型。项目提供了详细的指南和建议,鼓励用户尝试不同的模型和prompt,以找到最佳效果。


NotebookLlama的未来展望包括提升TTS模型的自然度、探索使用两个agent辩论的方式来撰写播客大纲、尝试使用405B模型撰写稿件、优化prompt以及支持更多输入格式,如网站、音频文件和油管链接等。此外,项目还提供了丰富的学习资源链接,帮助用户深入了解和使用NotebookLlama。

图片

4. GitHub Copilot拥抱多模型时代,OpenAI不再是唯一选择


GitHub Copilot宣布引入多模型选择,不再仅依赖于OpenAI的模型,AI代码生成的下一阶段将由多模型功能和选择共同定义。新整合的模型包括Anthropic的Claude 3.5 Sonnet、谷歌的Gemini 1.5 Pro以及OpenAI的o1-preview和o1-mini。这些新模型将首先在Copilot Chat中推出,并逐步扩展到其他功能。同时,GitHub推出了AI原生工具GitHub Spark,允许开发者完全用自然语言构建应用程序。


Claude 3.5 Sonnet在软件开发全过程中表现卓越,擅长处理复杂和多步骤的编码任务。Gemini 1.5 Pro以其200万token上下文窗口和多模态支持而著称,能同时处理代码、图片、音频、视频和文本。OpenAI的最新模型o1-preview和o1-mini则以其强大的推理能力被纳入。GitHub Spark的推出,使得用户可以从一个初始提示开始,实时预览正在构建的应用程序,轻松查看每个请求的选项,并自动保存每个迭代的版本。


GitHub Copilot的多模型支持和新工具的推出,可能会影响到其他编程助手如Cursor的商业模式。GitHub CEO Thomas Dohmke强调,AI代码生成的早期阶段已经结束,第二阶段正式开启,AI编码走向AI原生、AI智能体、多模型可选的阶段。GitHub希望用AI赋能10亿开发者,成为世界最大的开发者社区。

图片

来源:https://github.com/features/copilot


5. 谷歌Project Jarvis即将亮相,AI自主操控电脑时代开启

       

谷歌正在开发“Project Jarvis”的新项目,旨在通过AI自主操控Chrome浏览器完成网页任务,预计年底亮相。Jarvis项目将由Gemini 2.0驱动,能够通过截屏、解析屏幕内容后自动点击按钮或输入文本,帮助用户完成日常网页任务,如收集研究信息、购物或预定航班等。这一项目展示了AI在人机交互领域的全新范式,预示着AI操控电脑的未来。


同时,微软的OmniParser项目也在探索AI智能体操控屏幕的未来。OmniParser是一个屏幕解析工具,可以将截图转化为结构化数据,帮助AI精准理解用户意图。这些进展显示了科技巨头们在“Computer use”领域的竞争和创新,AI自主操控电脑已成为微软、苹果等公司的下一个发力战场。


谷歌的Jarvis项目和微软的OmniParser都强调了AI在理解和预测用户界面操作方面的能力。这些项目通过解析屏幕截图,识别可交互图标和理解屏幕元素的语义,显著提高了AI在预测用户界面行动的能力。

图片

来源:https://www.theinformation.com/articles/google-preps-ai-that-takes-over-computers


6. 马斯克旗下xAI发布Grok新功能,图像识别与公式转换能力惊艳


xAI公司发布的Grok大模型在最新更新后获得了图像识别能力,能够将手写公式转换成LaTeX格式,甚至能理解梗图。这一进步极大地推动了科学文献的数字化和标准化工作,为科研工作者带来了技术飞跃。Grok的能力不仅局限于公式OCR,还能从时尚、风格、表情等多个角度描述图片内容。例如,它能识别出手表品牌,或对动漫风格人物的装扮进行详细描述。


Grok的这一新功能在社交媒体上引起了广泛关注,帖子浏览量突破百万。用户测试表明,Grok在识别18世纪文件和解释笑话方面表现出色。尽管Grok在理解梗图方面时好时坏,对中文字符的识别能力也有待提高,但其在输出LaTeX表达式和解释图片主体及场景方面表现出色。


与ChatGPT相比,Grok在识图方面虽不算新颖,但马斯克表示,Grok在短时间内完成了其他AI模型几年的工作,暗示其发展潜力。在实际测试中,Grok和ChatGPT对同一图片的解释有所不同,显示出各自的优势和局限性。Grok的图像理解能力虽然在某些方面不如ChatGPT,但在LaTeX表达式的输出方面表现出色。


图片

来源:https://x.ai/


7. 开放源代码促进会(OSI)发布“开源AI定义”1.0正式版


2024年10月29日,开放源代码促进会(OSI)发布了“开源AI定义”的1.0正式版,旨在为人工智能领域中的“开源”术语提供官方定义,以澄清其在快速发展的科技领域中的模糊用法。这一定义要求真正的开源AI系统必须提供可访问的用于训练AI的数据详细信息、完整的构建和运行代码、以及训练中的设置和权重。这一新标准直接影响到了Meta推动的Llama大模型,尽管Llama被广泛宣传为最大的开源AI模型,但其商业用途受限且不提供训练数据访问,不符合OSI的无限制使用、修改和共享自由标准。


Meta发言人Faith Eischen表示,尽管Meta在很多事情上同意OSI的观点,但不同意这一定义,并认为不应该设置单一的开源AI定义。Meta将继续与OSI和其他行业组织合作,推动AI朝着可访问和免费的方向发展。OSI的开源定义包括十余个关键条款,如自由再分发、源代码可获得、允许修改和衍生作品等,已被开发人员广泛接受。随着人工智能的发展,科技巨头们面临着是否接受这些既定原则的选择。


OSI的新定义强调,开源AI系统需要满足无限制使用、研究、修改和共享的自由,这些自由既适用于整个系统,也适用于系统的离散元素。对于机器学习系统,必须包含数据信息、代码和参数等所有元素。OSI执行董事Stefano Maffulli表示,该公司花了两年时间咨询全球专家,完善了这一定义。随着时间的推移,法规对于AI开放的定义也将变得更加清晰。


图片

来源:https://opensource.org/ai/open-source-ai-definition


图片
人工智能初创公司的新融资


1. 对话式AI Agent平台Sierra AI融资1.75亿美元,估值达45亿美元


官方网站:https://sierra.ai/


由前Salesforce联合首席执行官Bret Taylor联合创立的人工智能初创公司Sierra在最新一轮融资中估值增长至45亿美元。这家总部位于旧金山的公司在1月份的估值为10亿美元,此轮融资中成功筹集了1.75亿美元,由Greenoaks Capital领投。


Sierra AI,由OpenAI董事会主席参与创立的公司,该公司专注于构建对话式AI Agent平台,旨在帮助企业高效处理客服业务,减少重复性事务的人力投入,同时保证服务质量。Sierra AI的平台支持多模态交互,能够在网页、手机APP等多个平台上实现文本与语音的交互功能,并且能够准确识别产品特定代号等信息。


Sierra AI的AgentOS平台具有单开发多部署的优势,允许企业一次开发,就能将服务部署到多个推广渠道。此外,Sierra AI的系统能够处理多项任务,迅速理清业务逻辑关系,提高多任务处理效率。企业需要对品牌和产品信息进行系统整理,并向Sierra提供这些信息,以确保其能为客户提供精确服务。Sierra AI在智能协作中也展现出精确分类的效果,帮助企业实现呼叫转接的高精准度,节省时间和人力成本。企业必须制定清晰的Sierra呼叫分类标准,以提高转接效率。同时,Sierra AI系统能够适配多渠道,改善服务感受,企业需要深入了解各渠道用户的习惯,并据此对系统进行适配。

2. Waymo完成56亿美元C轮融资,加速自动驾驶出租车业务扩展


官方网站:https://waymo.com/intl/zh-cn/


Waymo,Alphabet旗下的自动驾驶技术公司,宣布完成了历史上最大规模的一轮融资,总额高达56亿美元。此轮融资的投资方包括Alphabet、Andreessen Horowitz、Fidelity等多家知名机构,这不仅是Waymo成立以来金额最高的一轮融资,也是全球自动驾驶行业中的顶级融资之一。


此轮融资后,Waymo计划将资金主要用于扩大自动驾驶出租车业务,并向新城市布局,目标是将自动驾驶出租车服务扩展至更广泛的市场。Waymo One已在旧金山、洛杉矶、菲尼克斯等城市运营,并计划进驻奥斯汀和亚特兰大。数据显示,Waymo每周的付费行程已超过10万次,同比增长了10倍。


Waymo还推出了第六代Waymo Driver系统,这一新系统在原有基础上进行了多项优化,旨在通过更强的硬件和软件算法支持更复杂的驾驶场景。此外,Waymo与Uber的合作也是其业务扩展的重要一环,双方将共同拓展奥斯汀和亚特兰大的自动驾驶出租车市场。预计2025年,Waymo将通过Uber平台在上述城市中提供无人驾驶出租车服务。


3. GMICloud完成8200万美元A轮融资,加速全球AI算力市场布局


AI云计算服务商GMI Cloud宣布完成了8200万美元的A轮融资。此轮融资由Headline Asia领投,同时获得Banpu和纬创资通的战略投资。资金将用于科罗拉多州数据中心的建设,以强化GMI Cloud在全球AI算力服务方面的布局。


在全球科技巨头的推动下,AI创新与研究在各行业蓬勃发展,预计到2030年全球AI市场规模将达1.8万亿美元。GMI Cloud以NVIDIA加速计算平台为核心,构建全方位的AI基础设施,为企业提供高度灵活且完备的机器学习解决方案。GMI Cloud提供的一站式云解决方案,使企业能够获得无缝的扩展性、优化的计算性能,并保障数据安全。


GMI Cloud创始人兼CEO Alex Yeh表示,这笔资金将帮助GMI Cloud提升平台的性能、安全性和可用性,让企业能够更有信心、更高效地部署各类复杂的AI基础设施。GMI Cloud帮助企业客户大幅缩短了GPU资源的交付时间,并在全球布局策略下,有效提升服务能力,帮助企业客户更快速地响应全球对GPU算力日益增长的需求。


4. 诺奖得主联创公司Archon Biosciences完成2000万美元种子轮融资,开发AbC药物


Archon Biosciences,一家专注于计算设计抗体笼(Antibody Cages/AbCs)的生物技术公司,宣布完成2000万美元的种子轮融资并走出隐身模式。此轮融资由Madrona Ventures领投,DUMAC、Sahsen Ventures、WRF Capital、Pack Ventures、Alexandria Venture Investments和Cornucopian Capital跟投。诺奖得主,华盛顿大学的David Baker博士是该公司的联合创始人之一。这笔资金预计将推动公司首个管线在未来18个月内进入临床阶段。


AbCs是一种全新的生物药物,由抗体与AI生成的蛋白质结构结合而成,能够精确控制其在体内的分布,并以高特异性和效力与细胞靶点结合。Archon Biosciences的技术旨在解锁现有药物形式无法触及的治疗靶点,为患者创造更好的治疗选择。


公司联合创始人兼首席执行官James Lazarovits博士表示,Archon的平台利用了人工智能驱动的计算蛋白质设计进步,这些进步在2024年诺贝尔化学奖中得到认可。Archon的技术结合了现成的抗体和计算设计的结合蛋白,这些结合蛋白自组装成极其精确和几何形状明确的纳米结构。这种设计使得AbCs在体内的行为和与靶点的相互作用与传统生物制剂不同,提供了对靶点参与和生物分布等功能特性的更大控制。

5. ReadAI完成5000万美元B轮融资,加速AI摘要技术在企业中的应用


初创公司ReadAI宣布完成了5000万美元的B轮融资,由SmashCapital领投,投资方包括Goodwater Capital、Madrona和Smash Capital等。距离其A轮融资仅六个月,显示出市场需求和增长潜力。


ReadAI的核心产品是一款AI机器人,专注于从会议中自动转录记录并提取精华,帮助用户高效整理信息。该AI机器人通过深度学习和自然语言处理技术,能够识别和理解多种语言中的语音,实时生成高质量的文本摘要。企业用户可以将这一工具集成到日常使用的应用程序中,如Slack、电子邮件、Hubspot和Jira等,从而无缝提升工作效率。


ReadAI的用户增长显著,自今年以来,企业和个人用户的账户数量已超过100,000个,活跃用户和每月经常性收入均实现了翻番。这一数据展示了用户对ReadAI产品的认可,也反映出市场对AI应用的迫切需求。ReadAI通过深度集成多个工作流程,提供了比市场中其他AI转录工具如Shortwave和Superhuman等更为全面的解决方案。例如,ReadAI的智能算法不仅能处理会议记录,还能在冗长的电子邮件中突出重要信息,使得邮件草稿的生成更加高效。

6. 数据安全独角兽Concentric AI完成4500万美元B轮融资,加速AI驱动数据编目工具开发


Concentric,一家专注于数据安全的公司,宣布完成了4500万美元的B轮融资。此轮融资由Top Tier Capital Partners和HarbourVest Partners领投,全球CISO投资联盟CyberFuture等现有投资者也参与其中,使得Concentric AI的累计融资总额达到6700万美元。公司计划将这笔资金用于扩展其AI驱动的数据编目工具,以更好地保护关键信息资产,包括知识产权、财务数据和客户数据等。


Concentric AI的产品通过深度学习技术扫描信息资产,识别和标记潜在风险数据,帮助企业预防数据泄露事件。这轮融资将有助于Concentric进一步开发其AI驱动的数据编目工具,提升数据安全防护能力,满足企业对数据管理和保护的迫切需求。

7. Nooks AI完成B轮4300万融资,推动电话营销服务智能化变革


Nooks AI是一家成立于2020年的专注于AI应用层的公司,专注于利用人工智能技术优化电话营销服务。其主要产品为电话营销自动化工具,旨在帮助销售代表提高工作效率,减少机械性工作,如自动跳过无人接听的电话、提供呼叫记录和无效化处理功能等。Nooks AI的产品还具备呼叫转录和评分功能,并能与多家CRM平台和销售参与平台集成。


Nooks创始人表示,当前市场上充斥着大量AI自动营销工具,但过度自动化反而降低了销售效果。Nooks选择将AI定位为助手而非替代者,让销售人员专注于建立客户关系、制定策略等更具价值的工作。


近日,Nooks AI完成了B轮4300万美元融资,投资方包括KPCB、Lachy Groom和Tola Capital。此次融资将用于进一步研发和推广其产品,以满足不断增长的市场需求。


本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。


关于阿尔法公社