追问weekly | 过去一周，AI领域有哪些新突破? Vol.37

追问nextquestion

2024-11-11 18:49发布于上海

全文7797字，阅读约需23分钟，帮我划重点

划重点

01过去一周，AI领域取得了多项新突破，包括伊利诺伊州通过《人工智能视频访谈法案》，成为继纽约州之后全美第二个立法规范AI面试的州。

02科技巨头微软和A16Z呼吁放松AI监管，以推动AI行业发展。

03硅谷巨头在核电梦碎中遭遇荒诞较量，如亚马逊、Meta和微软等计划利用核电为其数据中心提供能源。

04然而，AI在国家安全领域的应用引发技术伦理讨论，如Llama模型在国安战场上的突围。

05此外，参数高效微调技术如RoCoFT和大模型微调框架如Bee Agent Framework等，助力AI领域发展。

以上内容由腾讯混元大模型生成，仅供参考

█ 政策法规与新闻

伊利诺伊州AI立法：全美第二个AI权利法案诞生

科技巨头联手游说：微软与A16Z 呼吁放松AI 监管

硅谷巨头的核电梦碎：蜜蜂、监管与数据中心的荒诞较量

扎克伯格的军事棋局：Llama 模型如何在国安战场上突围？

█ 大模型与基础建设

参数高效微调：大模型的精细调教与未来展望

打破传统认知架构的桎梏：函数-表示模型的计算革命

RoCoFT：微调“行列式”革命，参数少了，效果却更牛了！

IBM推出Bee Agent Framework：助力大规模智能工作流

LLM-Agent-UMF：多核智能体统一建模框架的探索与展望

█ 技术与研发

机器直觉：AI 如何从数据中“感知”世界

C2A 框架如何平衡效率与个性化，推动AI模型训练革命

大脑皮层的无限存储：神经网络的记忆奥秘与未来展望

MoICL：智能选择示例，优化上下文学习的未来

AI 与人类目光的对决：谁更懂视频记忆？

隐式神经表示：从低频到高频，数据表示的未来之路

非高斯噪声的“进化密码”：从数据中解码复杂随机动力系统

逻辑与深度学习的完美结合：让神经网络懂得“常识”

Transformer 如何在上下文学习中实现符号操控

音乐生成的“混合魔法”：符号与波形的完美交响

符号级语言模型如何"读懂"数据列的秘密

解密语言模型中的“记忆”与“遗忘”：虚假知识的学习与清除

神经网络与符号AI结合：本体论加持下的智能预测与可解释性

█ 应用与实践

世界首款耳戴式AI/ML平台问世

AI剧透终结者！亚马逊Prime Video推出"无雷区"观剧神器

AI 动画革命：Wonder Dynamics 让你秒变皮克斯

AI数据过载症：企业如何从小处着手应对挑战

跨编码器加持的可控个性化搜索：让用户掌控搜索结果的新纪元

AI 视频生成进入3D 时代，摄像机控制更上一层楼

CoffeeSpace：创业者的“心动”时刻，找到理想的联合创始人

微型神经网络：AI 计算成本的终极削减器？

Magnetic-One：AI代理协作系统如何改变任务处理方式？

Meta AI 推出开源笔记助手，挑战谷歌NotebookLM

█ 交叉与创新

记忆的“偏见”：从贝叶斯模型看我们如何扭曲记忆

OpenAI科学家Noam Brown：20秒思考胜过10万倍数据

揭开记忆的奥秘：从熵异构联想记忆到人工智能的未来

从无到有：大语言模型群体中个体性的自发涌现与社会互动

*如需定位对应内容，请使用微信的检索功能

（点击右上方三点，找到查找页面内容按钮）

政策法规与新闻

伊利诺伊州AI立法：全美第二个AI权利法案诞生

伊利诺伊州正式通过了《人工智能视频访谈法案》（AIVIA），成为继纽约州之后全美第二个立法规范AI面试的州。该法案的出台旨在保护求职者隐私，防止AI技术滥用，并为AI时代的就业市场树立新的规范。根据AIVIA，雇主在面试过程中使用AI工具时，必须提前通知求职者，并且求职者有权了解AI工具的评估结果，以及这些结果如何影响面试决策。此外，未经求职者同意，雇主不得分享或出售面试视频，且禁止使用可能产生歧视性影响的AI工具。

AI面试工具的支持者认为，它们能够提高招聘效率，减少人为偏见，并为求职者提供更客观的评估。然而，批评者担心算法偏见可能加剧歧视、隐私泄露的风险以及缺乏透明度和问责制的问题。

AIVIA的通过标志着AI招聘监管的一个新篇章，预计未来将有更多州跟进，出台类似法案。这将促使企业在选择和使用AI工具时更加谨慎，加强对算法的审查和测试，并提高招聘流程的透明度。同时，AI技术供应商也将面临更高的合规要求和道德标准。

相关阅读：

https://www.jdsupra.com/legalnews/illinois-becomes-second-state-to-pass-8711467/

科技巨头联手游说：微软与A16Z 呼吁放松AI 监管

在人工智能发展的关键节点，科技巨头微软和知名风投机构Andreessen Horowitz (A16Z) 罕见地联手，呼吁政府减少对AI行业的监管干预。这一联合声明由微软CEO Satya Nadella、总裁Brad Smith以及A16Z创始合伙人Marc Andreessen和Ben Horowitz共同发布，提出了若干核心观点，主要围绕版权与数据使用和监管框架展开。

首先，在版权与数据使用方面，声明主张AI系统应像人类一样拥有学习数据的“权利”，不应因版权法的限制阻碍数据的使用，知识和未受保护的事实应保持自由访问。这一立场表明他们认为AI应当享有更广泛的数据学习权限，以促进技术进步。

在监管框架方面，声明呼吁采取“基于市场的方法”，主张监管应在收益明显大于成本的前提下实施，聚焦于防范技术滥用的风险，并采用基于科学与标准的方式来规范AI的发展。这份声明实际上是针对加州SB 1047法案的回应。尽管A16Z认为该法案对初创企业带来“倒退性税收”，但该法案实际上为小型企业提供了保护条款，显示出监管议题的复杂性。

相关阅读：

https://techcrunch.com/2024/11/01/microsoft-and-a16z-set-aside-differences-join-hands-in-plea-against-ai-regulation/

硅谷巨头的核电梦碎：蜜蜂、监管与数据中心的荒诞较量

在AI驱动的科技浪潮中，亚马逊、Meta和微软等硅谷巨头计划利用核电为其数据中心提供能源，以满足AI和云计算对算力的庞大需求。然而，他们的核电计划却在监管与环境因素面前屡遭挫折，甚至出现了令人啼笑皆非的荒诞细节。

科技巨头的核电计划意图明确：借助核电来满足不断增长的数据中心电力需求。然而，亚马逊的扩张计划被美国联邦能源监管委员会（FERC）以2:1投票否决；Meta的核电站项目则因稀有蜜蜂栖息地的出现而受阻；与此同时，微软仍在推进三里岛核反应堆的重启计划。Meta的创始人马克·扎克伯格在内部会议中更透露，一个罕见蜜蜂物种的栖息地竟成了阻碍其核电站项目的原因，令这一高科技计划意外地加入了环保斗争的戏剧性元素。

在科技巨头的计划中，数据中心的能耗快速增长已成为关键战略议题，传统电网正面临前所未有的压力。FERC目前已开始审核至少8个大型数据中心的电力申请，硅谷巨头的能源之战才刚刚拉开帷幕。

相关阅读：

https://techcrunch.com/2024/11/04/regulators-deliver-successive-blows-to-amazon-and-metas-nuclear-power-ambitions/

扎克伯格的军事棋局：Llama 模型如何在国安战场上突围？

Meta 近日宣布将其 Llama 模型向美国国防系统开放，此举被视为硅谷在“AI 国家安全”战场上的又一次战略部署。Meta 的意图十分明显，不仅回应了“开放 AI 可能威胁国家安全”的质疑，还通过与 13 家顶级国防科技公司的合作，向美国国防体系注入了新的 AI 动力。

在这场合作中，Meta 联手了一批业界巨头，包括 Accenture、AWS、Anduril、Palantir、Lockheed Martin、Microsoft 和 Oracle 等。其中，Oracle 将负责飞机维护文档的智能处理，Scale AI 将为国家安全任务定制模型，而 Lockheed Martin 则致力于为国防客户生成计算机代码。这一系列合作无疑展现了 Meta 及其合作伙伴在 AI 技术应用上的实力。

值得关注的是，Llama 2 的开源性也带来了地缘政治上的博弈。中国研究人员已使用该模型开发军事聊天机器人，用于情报收集和决策支持。这使得 AI 技术的应用在国家安全领域的竞争更加激烈。

此外，AI 的军事化应用引发了技术伦理的讨论。在这片灰色地带，谁能率先建立可控、可信的 AI 技术生态，谁就可能主导未来的国家安全叙事。然而，谷歌、微软等公司的员工曾多次抗议军事合同，这场科技与伦理的较量仍在继续。

相关阅读：

https://techcrunch.com/2024/11/04/meta-says-its-making-its-llama-models-available-for-us-national-security-applications/

大模型与基础建设

参数高效微调：大模型的精细调教与未来展望

随着大规模预训练模型（Large Pre-trained Models, LLMs）在自然语言处理等领域的快速发展，其巨大的参数规模带来了高昂的计算和存储成本。如何在有限硬件资源下有效微调这些大模型，成为了当前的技术挑战之一。为此，参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）逐渐成为解决这一问题的关键方法。

PEFT 是一种迁移学习技术，通过只调整部分参数而非整个模型，显著减少了计算资源需求，且在特定任务上表现优异。PEFT 的核心算法包括 LoRA（低秩适应）、Adapter Tuning（适配层调整）、Prefix-Tuning（前缀调整）等。其中，LoRA 通过低秩分解减少更新参数数量，Prompt-Tuning 则通过优化提示词实现模型输出优化，而无需改变模型本身。这些算法根据任务需求提供了灵活且高效的微调方案。

PEFT 的应用场景十分广泛，不仅在 NLP 任务中如文本生成和情感分析上表现出色，还在图像分类、目标检测等视觉任务和多模态任务中发挥了作用。通过引入多模态编码器，PEFT 实现了文本、图像、视频等数据的跨模态信息融合与生成。

尽管 PEFT 技术已取得重要进展，但仍面临过拟合、效率优化和平衡学习策略等挑战。为提升模型对指令的执行能力，PEFT 还与指令微调相结合，将任务统一转化为指令格式，增强了模型的跨任务泛化能力。此外，通过强化学习从人类反馈（RLHF），模型可以根据用户偏好进一步优化输出，提升了回答的准确性和安全性。

相关阅读：

https://arxiv.org/abs/2410.19878

打破传统认知架构的桎梏：函数-表示模型的计算革命

在人工智能领域，传统的认知架构一直面临程序与记忆分离的问题，即“程序”和“记忆”分别存储与处理，导致知识检索效率低下。这种分离架构需依赖复杂的启发式算法来应对动态环境，增加了系统设计难度。最近，一项研究提出了全新的函数-表示模型（Function-Representation Model），通过将“表示”与“函数”合二为一，打破了认知架构的传统桎梏。该模型将每个表示既视作存储知识的单位，又作为执行计算的函数，实现了知识检索与计算的一体化，大幅提升了系统的灵活性。

在该模型中，每个函数-表示可以视为一个参数化函数，通过连接各个单元实现更复杂的行为。这种“表示即函数”的理念不仅降低了知识检索的复杂度，还在系统中引入了涌现行为的可能。例如，在图像识别任务中，通过多个函数-表示单元的连接，可以实现模式识别等高级功能。相比于传统的认知架构，如SOAR 和ACT-R，该模型摆脱了符号处理的局限，能够在更复杂、多变的环境中提供灵活的响应。

函数-表示模型在学习机制上依赖于自组织，而非依赖全局控制算法。研究还提供了一系列数学证明，以香农信息论定义知识，表明非线性系统能通过多个函数-表示的连接产生涌现行为，而线性系统则无法实现更高层次的智能表现。这一模型为未来认知架构的发展提供了理论基础，未来有望在更加复杂的环境中实现智能涌现，推动机器认知的进一步革新。

相关阅读：

https://ui.adsabs.harvard.edu/abs/2024arXiv241007928I/abstract

RoCoFT：大模型微调的“行列式”革命，参数少了，效果却更牛了！

在大模型的微调中，传统的全参数微调方式往往既耗费计算资源，又容易导致过拟合和遗忘问题。为解决这一难题，本文介绍了RoCoFT（Row-Column Fine-Tuning），一种更高效的微调方法。RoCoFT通过仅更新Transformer权重矩阵中的少量行或列，实现了与现有参数高效微调（PEFT）方法相媲美甚至更优的效果，同时大幅减少了计算和存储开销。

RoCoFT的核心思想在于，针对模型关键权重矩阵（如自注意力机制中的查询、键、值矩阵和前馈层的投影矩阵），仅更新少数行或列，从而避免了对整个矩阵的大规模调整。与流行的LoRA不同，RoCoFT无需进行低秩分解，也无需引入额外参数，而是直接在原始权重矩阵上进行调整。研究表明，这种简单的行列更新在预训练阶段积累的知识基础上，通过小幅调整即可适应新的任务需求。

实验结果表明，RoCoFT在多种NLP任务上展现出卓越的性能。在GLUE基准测试中，RoCoFT的表现超越了许多其他PEFT方法；在问答任务SQuAD和文本摘要任务XSum上，也取得了高得分。此外，在常识推理和数学推理任务中，如Social IQa和OpenBookQA，RoCoFT展示出较高的准确率，尤其在大型语言模型Bloom 7B和LLaMA2-7B上表现不俗。

相关阅读：

https://arxiv.org/abs/2410.10075

IBM推出Bee Agent Framework：开源AI框架，助力大规模智能工作流

IBM近期推出了Bee Agent Framework，一款专为大规模智能工作流设计的开源AI框架，旨在为开发者提供强大、灵活的工具，简化智能代理（Agentic）工作流的构建和部署。这一框架不仅有助于加速AI应用开发，还为企业和研究机构提供了更高效的解决方案。

Bee Agent Framework采用模块化设计，允许开发者根据需求选择不同模块来灵活构建智能代理。例如，在数据分析中，可以集成自然语言处理、数据清洗及自动报告生成模块，轻松实现端到端的自动化工作流。此外，该框架与TensorFlow、PyTorch和Hugging Face等主流AI工具和平台无缝集成，便于将现有模型和算法引入Bee Agent Framework进行大规模部署。

框架的任务调度功能也相当出色。内置的智能调度器可以根据任务优先级、资源可用性等因素，动态分配计算资源并优化执行顺序，确保系统在高负载下高效运行。这一调度功能对于需要处理大量并发任务的行业尤为适用，例如金融行业中的风险评估模型部署。

Bee Agent Framework还具备良好的可扩展性，支持从小型项目到涉及数百节点的大型应用场景，并兼容高性能计算（HPC）环境，充分利用GPU和TPU加速模型训练和推理。该框架特别适合处理海量数据或复杂计算任务的领域，如医疗健康、自动驾驶及能源管理等。

作为开源项目，Bee Agent Framework鼓励社区贡献，全球开发者可以访问其代码库并根据需求修改和扩展。此外，IBM提供了详细的文档和示例代码，支持开发者快速上手并推动该框架的持续改进。

相关阅读：

https://github.com/i-am-bee/bee-agent-framework

LLM-Agent-UMF：多核智能体统一建模框架的探索与展望

当前智能体架构面临着软件模块化不足和术语不统一的问题，导致开发难度大且维护性差。为了解决这一问题，研究者提出了基于LLM（大语言模型）的智能体统一建模框架（LLM-Agent-UMF），旨在通过标准化的架构为智能体的开发提供一个清晰的基础。

LLM-Agent-UMF框架的核心是一个“核心智能体”，负责协调模块之间的交互和信息流动。该智能体与环境和LLM协作，将高级目标分解为具体行动。其内部结构包括规划模块、记忆模块、档案模块、行动模块和安全模块，各模块协同工作，确保智能体能够按照规划高效执行任务，同时保证系统的安全性。

在框架中，核心智能体分为“主动核心代理”和“被动核心代理”。主动核心代理拥有更高的自主权，可以自主决策和发起行动，而被动核心代理则等待指令执行任务。两者的协同工作模式能够支持不同任务的并行执行，增强系统的灵活性和容错性。研究中还探讨了多主动/被动核心代理的架构组合，如单一主动、多被动的配置，或多个主动代理协作，以适应不同复杂度的任务需求。

相关阅读：

https://arxiv.org/abs/2409.11393

技术与研发

机器直觉：AI 如何从数据中“感知”世界

人工智能（AI）的发展已从传统的规则和统计推断走向复杂抽象模式识别，这种新能力被称为“机器直觉”。机器直觉并非基于情感或经验，而是在数据层次的非线性处理和模式重组中自然涌现。这一突破挑战了传统智能定义，使AI成为更强大的协作伙伴，广泛应用于创造性和分析性领域。本文探讨了机器直觉的核心特征和构建模块。

机器直觉的涌现特征包括非线性模式识别、动态重组和跨领域联想记忆。非线性模式识别使AI能够理解情感、上下文等深层信息，如GPT-3在自然语言处理中的表现。动态重组则让AI自适应调整策略，以AlphaGo为例，它能在棋局中灵活调整决策。跨领域联想记忆使AI在不同数据类型中产生新见解，展示出接近人类直觉的跨领域推理能力。

支撑机器直觉的关键模块有：元模式感知，允许AI识别高阶数据模式；直觉式问题解决启发式，帮助AI在信息不全时做出合理猜测；涌现的创意风格与签名，使AI表现出独特的美学风格。现实应用中，DALL-E通过视觉一致性与上下文理解展示出生成创造性图像的能力，而GPT-3则在保持上下文连贯性方面展现出语言“直觉”。

未来，具有自适应问题解决和跨领域联想记忆的AI系统将在创意、医疗、法律等行业崭露头角。同时，人机协作将更加自然，AI不再只是工具，而是具有洞察力的合作伙伴。然而，随着机器直觉的发展，用户需谨慎理解AI的涌现行为，避免过度依赖和误解其能力，确保其发展符合社会整体利益。

相关阅读：

https://www.researchgate.net/profile/Douglas-Youvan/publication/385470157_Toward_Machine-Like-Intuition_Emergent_Patterns_and_Non-Human_Insight_in_Artificial_Intelligence

联邦学习新突破：C2A 框架如何平衡效率与个性化，推动AI模型训练革命

近年来，大规模预训练语言模型（PLMs）的发展为自然语言处理（NLP）带来了巨大进步，但其高昂的资源需求使得在联邦学习（Federated Learning, FL）场景中的应用受到限制。联邦学习通过在客户端和服务器间传递模型权重来协同训练全局模型，从而避免数据共享带来的隐私风险，但这也带来了较高的计算和通信成本。为此，研究团队提出了一种创新的框架——客户端定制适配（Client-Customized Adaptation, C2A），以平衡效率与个性化需求，从而应对联邦学习中的数据异质性挑战。

在传统联邦学习中，客户端的数据分布差异会导致“客户端漂移”问题，即每个客户端的模型逐渐偏离全局最优解。为解决该问题，研究团队引入C2A框架，通过超网络为每个客户端生成专属的适配器模块，以提升模型在非独立同分布（Non-IID）数据环境下的稳健性。C2A通过降维和升维函数的适配器架构减少参数需求，同时通过标签嵌入和上下文嵌入表征每个客户端的数据特征，实现更精确的适配。

C2A在实验中表现出显著优势，尤其在标签分布异质性和语言异质性的场景中表现优异。例如，在20Newsgroup和XGLUE-NC数据集上，C2A分别在异质性较高情况下取得了显著的准确率提升，并大幅降低了通信成本。消融实验进一步表明，C2A中的上下文嵌入和因子化处理对捕捉数据特征和优化内存开销至关重要。C2A的推出不仅提高了联邦学习的效率，更展示了在资源受限环境下推动个性化和稳健性兼备的AI模型训练的潜力。

相关阅读：

https://arxiv.org/abs/2411.00311

大脑皮层的无限存储：神经网络的记忆奥秘与未来展望

大脑的存储能力究竟有多大？为什么有些记忆可以持续一生？本文深入探讨了大脑皮层的存储原理，揭示了其庞大存储容量的科学基础。神经科学研究发现，记忆的物理载体是称为记忆痕迹（Engram）的神经元集群，这些细胞在形成记忆时连接成一种类似图论中的“连通子图”结构。这种连通子图不仅可以解释记忆的编码、巩固和提取过程，还能支持情境依赖性记忆等心理学现象，暗示大脑中的不同信息可通过此网络连接共同编码。

为了理解皮层神经元之间的连接特性，研究人员建立了一个基于生物学现实的概率模型，描述了神经元之间的连接概率。该模型表明，短程连接更常见，长程连接较少。这种图论模型的应用，确保了在大脑网络中不同神经元形成稳定的连通子图，从而为记忆的形成提供了数学保障。

研究还发现，有向图的循环结构可以确保所有相关节点关联，以保证记忆唤醒的稳定性。即便在不同个体中，神经网络的物理结构有所差异，大脑仍能通过相似的连通路径存储记忆，这说明大脑的存储结构具有强大的通用性和适应性。以540个节点的网络为例，研究估算其中20%的节点组合可能生成约1.576×10851.576 \times 10^{85}1.576×1085个不同子图，大脑理论上可以存储大量信息。

查看原图 484K