Arc 浏览器团队 The Browser Company 预告了他们即将推出的 AI 浏览器 Dia,计划在 2025 年初发布。这款浏览器将集成人工智能工具,旨在通过建立在网络浏览器之上的全新环境来增强用户体验。团队的首席执行官乔什·米勒(Josh Miller)展示了 Dia 的一些早期原型功能,包括一个在插入光标处工作的工具,能够帮助用户写作和从互联网获取信息;一个允许用户在地址栏中输入命令以执行各种操作的功能;以及一个代替用户执行操作的功能,如自动将电子邮件中的项目添加到亚马逊购物车中。Dia 的目标是提供无缝的 AI 体验,同时为公司创造潜在的收入来源。Dia 浏览器的创新展示了人工智能是如何被集成到日常网络活动中的,尽管这些功能的实用性和独特性还有待用户实际使用后反馈。
据「智能涌现」报道,商汤科技董事长兼 CEO 徐立在内部信中宣布,公司已完成战略重组,未来将聚焦于核心业务 AI 云和通用视觉模型,并将智能汽车「绝影」、家庭机器人「元萝卜」、智慧医疗和智慧零售等业务拆分为独立公司,各设独立 CEO。这次调整旨在通过聚焦核心业务加速实现盈利和稳定现金流,同时让生态企业在各自细分场景独立运营并共享商汤科技的基础设施和基础模型建设成果,形成有效协同。商汤科技将建立「1+X」架构,其中「1」代表集团核心业务,打造行业领先的 AI 云,实现大装置、基础模型和 AI 应用的无缝集成;「X」则代表拆分的生态企业矩阵,以把握各自领域的市场机遇。这一重组标志着商汤科技在公司战略和组织层面集中资源,备战「AI 2.0」时代,以适应生成式大模型的商业化应用需求。
在与「Founder Park」的访谈中,刘少楠在分享了他对产品开发、AI 技术应用、商业模式和创业心态的深刻见解。他强调了 flomo 作为备忘录工具的定位,即服务于普通人,提供比普通备忘录稍好一些的功能,并且不追求短期的热点,而是注重长期为用户提供价值。刘少楠认为产品经理应该忘记过去的成功,适应 AI 时代的变化,理解用户需求、场景和商业价值。在 AI 技术的应用上,他表现出对 AI 的恐慌,但同时不急于行动,而是通过不断讨论和思辨来消除不确定性。他指出,AI 应该是一个提效工具,而不是偷懒工具,应该促进用户的思考,而不是减少思考。在商业模式上,他坚持不卖广告、不卖永久会员、不融资的原则,追求的是产品的长期存在而非短期的爆发。此外,他还提到了退出策略的重要性,认为退出是一种理性选择,是决策的一部分。整体而言,刘少楠的观点体现了一种实事求是、接地气的创业精神,强调了对用户需求的深刻理解和对技术边界的清晰认识。
李飞飞空间智能首个产品亮相
李飞飞领导的 World Labs 推出了其首个空间智能产品,标志着生成式 AI 技术的重大突破,其进入了 3D 化、完全沉浸式的新时代。该产品能够通过单张图片或一句话生成一个可交互、可编辑的 3D 视频游戏场景,不仅包括原始输入的图片,所有内容都是通过 AI 生成。这一技术的核心优势在于提供持久的现实感、实时控制和真实的物理规则,使得生成的 3D 世界稳定、一致且遵循现实世界的物理法则。World Labs 的技术还允许用户在浏览器中实时操控相机,模拟景深和滑动变焦等摄影效果,为电影、游戏、模拟器和其他物理世界数字表现的制作方式带来变革。此外,该技术还能将世界名画还原成可探索的 3D 世界,并与其他 AI 工具如文本到图像模型无缝结合,为创作者提供了全新的体验和创作可能性。
腾讯混元文生视频功能上线
腾讯混元大模型的最新功能「文生视频」已经上线,这一 130 亿参数的视频生成大模型能够实现通过简单的句子描述生成视频内容,支持中英文双语输入、多种视频尺寸和清晰度选择。该模型以其超写实的高质量视频生成能力,能够处理冲浪、跳舞等大动作场景,同时保持画面自然合理不易变形。它还能在保持主角不变的情况下自动切换镜头。此外,腾讯混元视频生成大模型采用 DiT 架构,并在架构设计上进行多处升级,包括适配新一代文本编码器以提升语义遵循、统一的全注意力机制以及先进的图像视频混合 VAE 技术,使得视频细节表现得到了明显提升。目前,该模型已在 Hugging Face 平台及 Github 上开源,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件,这也标志着当前最大的视频开源模型的发布。
豆包上线图片理解功能
字节跳动旗下的豆包应用最近上线了一项新功能——图片理解,这一功能允许用户通过 APP 或 PC 端上传图片后,系统自动识别并理解图片内容。与传统的 OCR 技术仅识别文字不同,豆包的图片理解功能能够识别并解析图片中的各类信息,例如回答关于景点位置或动漫人物名称的问题。此外,豆包的图片理解功能不仅限于简单的信息提取,它还能理解并解释图片中的幽默元素,如四格漫画中的笑话含义。