美国国家安全与新兴技术中心|大语言模型的中国评论,寻找通向通用人工智能之路

关注我们




摘要:


大语言模型(LLM)因其在自然语言查询中生成类似人类的回答能力而引起全球关注,这一突破曾被认为是“意识”的证明,并能执行其他节省时间的任务。事实上,许多人认为LLM是通向通用人工智能(GAI)的途径——这是一种假设的状态,计算机在大多数或所有任务中都能达到(甚至超越)人类技能。


通过LLM实现人工智能目标的吸引力,吸引了数十亿美元的投资,尤其是美国和欧洲的大型私人企业在这一目标上引领了方向。然而,LLM也存在已知的缺点,如成本高、能耗大、输出不可靠或出现“幻觉”、推理能力不足等。尽管如此,这些公司在LLM上的投资可能会导致他们在通向GAI的进展上未能达到预期,而在GAI的其他途径上,西方AI开发者可能缺乏快速转向的能力。


与此相对,中国采取了由国家主导的多元化AI发展计划。与美国一样,中国也投资于LLM,但同时也在寻求通向GAI的其他路径,其中一些路径更明确地受到大脑启发。本文依据中国顶级科学家的公开声明、相关研究及中国政府发布的公告,展示了中国多元化的AI发展战略。


2025年2月,美国国家安全与新兴技术中心(Center for Security and Emerging Technology)撰写报告《Chinese Critiques of Large Language Models ,Finding the Path to General Artificial Intelligence》,探讨中国对大型语言模型(LLMs)作为通用人工智能(GAI)路径的批评。(内容翻译略有删减)


图片


引言:生成式AI与通用AI

实现通用人工智能(GAI)——定义为能够复制或超越大多数人类认知技能,涵盖图像/视频理解、持续学习、规划、推理、技能转移和创造力等广泛任务——是中美两国激烈研究努力的关键战略目标。国际科学界就哪条路径能最快通向GAI以及哪些路径可能是误入歧途存在激烈辩论。在美国,LLM主导了讨论,但关于它们是否能够实现GAI的问题仍然悬而未决。因为选择错误的路径可能使美国在战略上处于不利位置,这就更加突显了审视其他国家可能正在追求的替代路径的重要性。

在美国,许多专家认为,GAI的转折点将出现在新版本LLM的推出上,如OpenAI的o1、谷歌的Gemini、Anthropic的Claude和Meta的Llama等。另一些人则指出,LLM的“幻觉”问题仍然存在,认为无论如何增加计算力、反馈或多模态数据源,都无法使LLM达到GAI。还有一些AI科学家认为LLM在GAI平台中有其作用,但并不是唯一的、甚至是主要的组成部分。

思考如何实现GAI是至关重要的,因为它涉及到开发者追求AI的传统目标——人类智能级别的选择。通向GAI的道路——或者说某条路径——是继续开发LLM,或许通过增加额外模块?还是说LLM是一个死胡同,必须采取其他根本不同的途径,基于更接近模拟人类认知和大脑功能的方式?

鉴于LLM的成功,投资的规模,来自权威AI科学家的支持,工作实例所带来的乐观情绪,以及在公司投入巨大承诺的情况下,重新设想新的方法的难度,我们容易忽视依赖单一研究范式所带来的“单一文化”的风险。如果LLM能够提供的结果存在局限性,而缺乏足够多元化的研究投资组合,西方公司和政府在追求能够克服LLM问题的其他GAI解决方案时,将面临严峻挑战。

多元化的研究投资组合正是中国推进“通用人工智能”(GAI)国家目标的方式。本文将展示,除了中国在ChatGPT类LLM的开发上的已知巨大努力之外,中国还通过科学家的贡献,投入了大量资源,致力于寻求通向GAI的替代路径,这些路径并不单纯依赖“海量数据,小任务”的方法,正是这些路径获得了广泛关注。

因此,本文将探讨以下两个问题:
1.中国科学家对LLM作为通向通用AI路径的评论是什么?
2.中国如何应对LLM的缺陷?

本报告分为五个部分:
第一部分列出了国际AI科学家对LLM的评论,并对其支持GAI的能力提出质疑。
第二部分提供了中国科学家对LLM的评论意见。
第三部分引用了研究支持中国关于LLM作为通向GAI路径不可行的公开声明。
第四部分评估了这些声明的可信度,作为第五部分建议的基础,讨论为何中国的替代项目必须得到重视。

大语言模型及其批评者

“大语言模型”这一术语包含了两个事实:它们通常是大型网络,包含数十亿到数万亿个参数,且它们是通过自然语言进行训练的,通常使用来自互联网和其他来源的文本数据。LLM和神经网络(NN)在类型上与“传统人工智能”(GOFAI)有所不同,后者依赖基于规则的编码。此外,今天的大型模型在不同程度上能够处理多模态的输入和输出,包括图像、视频和音频等。


LLM首次亮相是在2017年,当时谷歌的工程师提出了一种名为“Transformer”的神经网络架构,它优化了通过学习“Pay Attention”文本序列中“Token”(单词或词的部分)之间的共现关系来寻找模式。与人类知识不同,LLM中捕获的知识并非通过与自然环境的互动获得,而是依赖于从训练语料库中推导出的Token之间位置关系的统计概率。通过在训练过程中大量接触语料库,LLM可以识别出规律,并在训练完成后生成对人类提示的响应。因此,OpenAI的产品名称为“GPT”(Generative pretrained transformer)。

LLM能够“融合”不同的信息源(这一点充分发挥了神经网络在模式匹配和揭示复杂空间中的相似性方面的传统优势),使其在文本摘要、翻译、代码编写和定理证明等多个领域得到了应用。

然而,是否仅仅通过找到和利用这些规律就能实现GAI的问题,仍然存在激烈的争论。最初关于LLM“意识”的热情报告,逐渐被显示出LLM在理解语言和进行类人推理方面存在严重缺陷的报告所取代。

LLM的一些持续缺陷,如基础数学问题,似乎可以通过插件进行修正。也就是说,外部程序可以专门处理LLM的弱项。事实上,这种方法——建立一个由不同认知领域的专门系统组成的网络——更像是大脑的工作方式,因为大脑有专门的模块,如情景记忆、数学、推理等,而不是像LLM那样依赖单一的过程。

一些科学家希望,通过单纯增加复杂度,就能克服LLM的缺陷。例如,Geoffrey Hinton认为,通过扩大模型的规模,LLM能够解决一些问题。在他看来,LLM通过预测下一个符号“进行推理”,而预测正是大脑学习的一种合理理论。事实上,从GPT-2到GPT-4,模型的复杂度增加确实导致了它在一些基准任务上的表现有所提升,例如在“心智理论”方面(推理关于心智状态的能力),在GPT-3.5中发现了一些缺陷。

然而,一些缺陷即使增加模型复杂度也难以解决。特别是“幻觉”问题,即LLM给出不正确的回答(这是神经网络的固有问题,神经网络是通过插值进行工作的,且不像大脑那样将事实存储与插值区分开来),以及推理错误,尽管模型复杂度增加,仍然难以克服。最近的研究表明,随着模型复杂度的增加,错误/幻觉回答的可能性也随之增加。

此外,试图通过增加模型复杂度来引发“涌现”行为的策略也受到了质疑,研究表明,以前观察到的“大模型的涌现行为”是度量指标的伪影,而不是模型性能的定性变化。因此,LLM中的“涌现”现象在最近的文献中逐渐减少,尽管模型的复杂度有所增加。

事实上,有人担心LLM在标准化测试中的高表现可能更多地归因于神经网络在模式匹配方面的优势,而不是发现了新的策略。

还有一些对LLM的批评集中在基本的认知和哲学问题上,例如能否进行概括、形成深度抽象、创造、自我导向、建模时间和空间、展现常识、反思其输出、处理模糊表达、根据新信息进行去学习、评估正反论据(做决策)以及理解细微差别。

虽然这些缺陷在西方的研究文献中有所讨论,且LLM在添加知识时面临的挑战(例如无法轻松在上下文窗口之外增加知识,或者模型训练的高计算和能耗需求)也是广泛讨论的话题,但当前大部分商业AI企业(例如OpenAI、Anthropic)仍在继续沿着这一方向推进。问题不仅仅在于“我们正在投资一个可能不会实现的理想未来”,而且正如Google AI研究员François Chollet所言,“LLM吸走了整个房间的空气。现在所有人都在做LLM”。

中国对LLM作为通向通用AI路径的看法(或非路径)

对中国顶级AI研究机构的科学家们的公开声明进行回顾,显示出他们对LLM是否能单独通向GAI的能力存在高度怀疑。这些批评与国际专家的看法相似,因为两者面临相同的问题,而且中国的AI专家与全球同行有着密切的互动。

以下是几位中国科学家对LLM作为通向通用AI路径的看法。

唐杰(TANG Jie)是清华大学计算机科学教授,也是智谱公司(Zhipu)的创始人,是北京人工智能研究院(BAAI)的领导人物,并且设计了几款本土化的LLM。尽管唐杰在统计模型方面取得了成功,但他认为实现人类级AI需要这些模型“具象化于世界之中”。虽然他相信“规模法则”仍然有很长的路要走,但仅仅依赖规模并不能保证GAI的实现。他认为更为有益的路径应该从生物学中获取灵感。他说:“基于大模型的GAI或机器智能不一定要和人脑认知机制相同,但分析人脑的工作机制可能更好地启发GAI的实现。”

张亚勤(Zhang Yaqin),微软亚洲研究院的联合创始人,百度前总裁,清华大学人工智能产业研究院的创始院长,以及BAAI的顾问,列出了LLM的三个问题:低计算效率、无法“真正理解物理世界”和所谓的“边界问题”(tokenization问题)。张亚勤认为(与Goertzel一致):“我们需要探索如何将大型生成概率模型与现有的‘第一原则’或真实世界的模型和知识图谱结合起来。”

黄铁军(Huang Tiejun)是BAAI的创始人,曾担任该院院长,并且是北京大学人工智能研究院的副院长。他提到了三条通向GAI的路径:基于大数据和大计算的“信息模型”,通过强化学习训练的“具象模型”,以及大脑仿生模型——在这一点上,BAAI有着重要的参与。黄铁军同意LLM的规模法则将继续存在,但他补充道:“不仅仅需要收集静态数据,还需要获取并处理实时的多感官信息。”他认为,GAI的实现依赖于将统计模型与大脑启发式AI和具象智能结合起来,即:LLM代表的是“基于大数据的静态涌现”,而大脑启发式智能则基于复杂的动态过程,具象智能通过与环境互动生成新的能力。

徐波(Xu Bo),中国科学院大学人工智能学院院长、自动化研究所(CASIA)院长,蒲慕明(Pu Muming),中国科学院脑科学与智能技术卓越创新中心主任,认为具象化和环境互动将促进LLM向GAI发展。尽管LLM依赖的人工神经网络最初受到生物学的启发,但它们通过增加“更多的神经元、层次和连接”来扩展规模,尚未开始模拟大脑神经元类型、选择性连接和模块化结构的复杂性。特别是,“计算代价高昂的反向传播算法……可以通过更符合生物学的学习算法加以改进或替代。”这些候选算法包括尖峰时序突触可塑性、“神经调节剂依赖的元可塑性”以及“短期与长期记忆存储规则”。

朱松纯(Zhu Songchun),北京大学人工智能研究院院长,北京通用人工智能研究院(BIGAI)院长,成立BIGAI的理念是,大数据基础的LLM在模拟人类认知能力方面已经走到了死胡同。朱松纯毫不客气地指出:“实现通用人工智能是人工智能研究的初衷和最终目标,但继续扩大现有大模型的参数规模无法实现通用人工智能。”朱松纯将中国的LLM成就比作“登上珠穆朗玛峰”,而真正的目标则是“登上月球”。在他看来,LLM“本质上无法解释,存在数据泄露的风险,缺乏认知架构,缺乏因果和数学推理能力等其他局限性,因此不能通向‘通用人工智能’”。

曾毅(Zeng Yi),中国科学院自动化研究所脑启发式认知智能实验室主任、国际人工智能伦理与治理研究中心的创始主任,正在基于时间依赖的尖峰神经网络建设GAI平台。他说:“我们的类脑认知智能团队坚信,只有通过镜像人脑的结构和智能机制,以及自然进化的规律和机制,才能实现真正有意义并且有益于人类的人工智能。”

其他中国AI科学家对LLM的批评不胜枚举。
  • 沈向洋(Shen Xiangyang),微软前执行副总裁,曾任北京大学人工智能研究院学术委员会主任,遗憾地表示,AI研究缺乏“对智能本质的明确理解”。沈向洋支持纽约大学名誉教授和LLM批评者Gary Marcus的观点:“无论ChatGPT如何发展,当前的技术路线都无法带来真正的智能。”

  • 郑庆华(Zheng Qinghua),同济大学校长、中国工程院院士,表示,LLM存在四大缺陷:消耗过多的数据和计算资源,容易发生灾难性遗忘,逻辑推理能力弱,并且无法知道自己错了也不知道为什么错。

  • 李武(Li Wu),北京师范大学认知神经科学与学习国家重点实验室主任,认为:“当前的神经网络相对专门化,并不符合人脑的工作方式。如果盲目炒作大模型本身,只关注将参数从数十亿、数百亿扩展到数千亿,就无法实现真正的智能。”

中国政府对LLM作为通向通用AI路径的支持

对中国LLM研究进行的公开声明表明,中国不仅在追求LLM的应用开发,同时也在寻找通向GAI的多条路径。中国政府支持的这些替代路径包括大脑启发式模型、具象化智能和基于强化学习的模型等。政府的战略表明,虽然LLM研究是中国AI发展的一部分,但它并不是唯一的方向。

2023年5月30日,北京市政府发布了一项声明,呼吁开发“包括大模型在内的其他通用人工智能技术体系”。这一声明的第三部分(条款7-11)特别提到,除了大模型,政府还支持“探索通向通用人工智能的新路径”。该声明指出,要发展包括自动协作与决策、具身智能、以及类脑智能等在内的基础理论体系,并确保所有的系统都支持实际环境中的开放场景、广泛任务的训练。北京市计划通过这一方案,推动AI领域的多模态技术的综合发展,并鼓励各类实验与创新方法的探索。

2024年3月,中国科学院副院长吴朝晖在公开演讲中强调,AI正朝着“大小模型协同”的方向发展,并指出中国必须“多路径探索通用人工智能的发展”。他列举了具象智能、分布式群体智能、人机混合智能、增强智能和自主决策等为通向GAI的可行路径。

同月,北京市海淀区政府发布了一项为期三年的规划,旨在促进具身AI的研究。该规划对“具身化”做了定义,认为“具身化”指的是智能系统或机器通过感知和交互与环境实时互动的能力。这一计划将为全国范围内的具象智能创新奠定基础,细节包括通过模拟大脑功能来开发类人机器人。

中国的这些声明与行动表明,虽然LLM作为一种生成型人工智能的技术路径仍在探索之中,但中国在推动通用人工智能发展方面的战略不仅限于此。政府正在全力支持多种不同的技术路径,来补充LLM可能存在的局限。

学术记录显示的内容

科学家的公开声明是衡量中国通用人工智能(GAI)进展的一种方式,另一种方式是他们的学术成果。先前的研究表明,中国正通过多种途径推进GAI的发展,包括生成型大语言模型、类脑模型以及通过脑机接口增强认知能力。我们当前的任务是,检查文献中是否有证据表明中国学者在LLM存在缺陷的背景下,正在寻求替代路径。

为此,我们在CSET的合并语料库中进行了关键词搜索,查找“AGI/GAI + LLM”及其常见变体,收集了2021年及之后由中国学者主导的论文。一共获得了35篇文献。另通过基于网络的搜索获得了43篇更多的论文,其中15篇因不相关而被排除,剩下的63篇由研究专家审阅,以下24篇被标记为涉及中国研究,提出了LLM在实现GAI方面的困难。

图片
图片
图片

这些论文共同讨论了本文第一部分和第二部分中描述的LLM缺陷,尤其是在心智理论(ToM)失败、归纳、演绎和溯因推理缺陷、通过类比学习新任务的困难、缺乏落地和具象化、错误和幻觉的不可预测性、缺乏社会智能、对真实世界输入(尤其是视频输入)的理解不足、处理更大上下文的困难、微调输出的挑战以及操作成本等问题。

针对这些问题提出的解决方案包括添加模块、模拟大脑结构和过程、严格的标准和测试、以及现实世界的嵌入,甚至完全替代计算底层基础,采用更为先进的芯片类型。

这些研究的作者中,许多与先前提到的中国顶级科学家(如唐杰、张亚勤、朱松纯、曾毅等)有直接关联,为他们的声明增加了可靠性。

此外,几乎所有参与GAI研究的中国顶级机构和公司,包括北京人工智能研究院、北京通用人工智能研究院、中国科学院自动化研究所、清华大学、北京大学、中国科学院大学、阿里巴巴、字节跳动、华为和腾讯等,都在这些论文中有所体现。

对中国GAI研究的总结

从中国的学术记录和公共声明可以看出,中国的AI社区正在探索多条路径以实现通用人工智能。尽管LLM仍是一个重要的研究领域,但中国的AI研究者和政府明显认识到LLM的局限性,并致力于寻找其他替代路径。与此同时,其他方法(例如类脑启发式模型和具象智能)正成为中国研究的核心方向。

中国AI研究的这一多元化策略,不仅是对当前LLM路径的补充,也为未来GAI的发展开辟了新的可能性。这一战略无疑为中国在全球AI竞争中提供了一个独特的优势,尤其是在GAI这一重要领域的长期发展上。

评估:所有路径都能通向“智慧”吗?

当LLM聊天机器人首次推出时,关于LLM可能具有“意识”的早期主张——即能够体验感受和意识,甚至表现出自我意识——在当时广为讨论。然而,随着时间推移,冷静的声音开始占据主导地位,焦点从关于LLM内在意识的哲学猜测转向了更为具体的衡量标准,即LLM是否具备“智能”行为的关键指标,尤其是它们是否可能具备通用人工智能(GAI)。

虽然目前尚不清楚意识和情感能力是否对GAI至关重要,但有一点是明确的:GAI系统必须能够推理,并且能够区分事实与幻觉。现阶段,LLM并没有明确的机制来执行这些智能行为的核心要求。相反,LLM的支持者们寄希望于,随着训练的进行,LLM通过越来越精确地预测对话中的下一个词,推理能力将“涌现”。然而,这一信念缺乏理论基础。相反,研究表明,LLM庞大的文本记忆掩盖了推理能力的缺陷。

改进推理的启发式尝试(例如,链式思维),这些可能是OpenAI新版本“o1”LLM表现改进的基础,以及更近期的“重述并回应”、“思维树”或“思维图”方法,确实带来了一些改进,但并未解决缺乏核心“推理引擎”的根本问题。

同样,解决LLM“幻觉”问题的多次尝试也陷入了死胡同,因为它们未能解决LLM在将训练数据推广到新情境时所固有的问题。事实上,目前改进推理能力和修复幻觉问题的努力,就像玩“打地鼠”游戏一样,但地鼠藏在十亿维的权重空间中,而用来打击它的锤子能否击中目标尚无把握。这些系统或许足以应对一些人类能够评估LLM输出质量的情境,例如编写求职信、设计旅游行程或撰写高中教师常见的作文。但这些能力离GAI还有很远。

西方世界关于GAI路径的公开辩论往往被那些有商业利益的公司压倒,这些公司在宣传自己的最新LLM时,宣称其具备“类人智能”或“人工通用智能的火花”,即便LLM的缺陷越来越明显,正如本文第一部分所详细描述的那样。推崇LLM作为GAI必经之路的商业利益主导地位,已经负面影响了美国学术界对GAI替代路径的探索。

与此不同的是,在中国,尽管也有企业在开发LLM以用于商业目的,但正如本文详细说明的那样,中国的顶级AI科学家和政府官员意识到,LLM存在根本性缺陷,必须探索其他通向GAI的路径,或通过“类脑”算法来补充LLM的不足。这一追求“大脑启发”AI的策略,过去曾带来重要突破,例如结合深度学习——模拟大脑的感知处理层次结构——与强化学习——模拟大脑如何通过奖励学习策略——形成“深度强化学习”,为AlphaGo的成功打下了基础,AlphaGo是第一个击败人类围棋冠军的人工神经网络。这一不同的研究方向,可能使中国在实现GAI的竞赛中占据有利位置。

这种情况可以与中国如何主导全球光伏(PV)市场的过程进行比较(更近的例子还包括电池技术和电动汽车)。中国政府在千年之初做出战略决策,致力于成为光伏领域的全球领导者。随之而来的政策决策和投资,推动了国内光伏产业的崛起,并提升了光伏面板的效率,现在中国生产着全球至少75%的太阳能面板。中国如果决定战略性地投资于非LLM路径的GAI研究,可能会重演这一成功,尽管GAI领域的重要性远超光伏。

管理中国的“先发优势”

Geoffrey Hinton,最近获得诺贝尔奖并因其在多层神经网络领域的贡献获得图灵奖,他承认:“中国和美国之间显然存在竞争,而双方都不会放慢脚步。”

这场关于GAI的竞赛通常被描述为数据、芯片、人才和能源的竞争,成功的衡量标准是通过旨在评估“人类级智能”的基准测试。而这一比较的假设是,双方在同一个领域竞争。

然而,这一观点极具误导性。本研究表明,中国AI社区的主要元素正通过一些非传统路径追求GAI,其中模型的复杂度——许多美国人将其作为性能的代名词,并由公司通过其模型的参数数量来区分——仅扮演次要角色。这些非传统方法,尤其是类脑启发式方法,得到了中国政府的支持。

除了实际效用,务实性也可能是中国政府支持通用人工智能的动力,特别是避免LLM固有的不可控性,这不仅包括它们的幻觉问题,还包括它们抵抗政府自上而下审查的性质,因为它们的内在工作机制通常是“黑箱”。中国政府早期关注LLM“安全性”(安全在这里也意味着“保障”)应该在这一背景下理解。

因此,替代模型从国家角度改善了哪些问题呢?BIGAI的主任朱松纯提出了一个答案。

朱松纯认为,要实现通用人工智能,AI必须吸收指导其探索所处环境的原则。在朱松纯的系统中,AI:

1)必须管理无穷的任务,包括那些未预定义的任务;

2)必须具备自主性(自主性),包括能够生成自己的任务;

3)必须是“价值驱动的”,而不是当前大模型那样的“数据驱动的”。

朱松纯正确指出,现有的LLM“没有人类的认知和推理能力,也缺乏人类的情感和价值观”。

“从价值观的角度来看,是否能理解人类的价值取向,决定了大模型是否能安全可靠地应用到与国民经济和人民生计相关的重要领域。”

因此,AI系统不仅需要在学习过程中驱动自身,还需要确保它学习到的内容能够满足国家和人民的需求。正如朱松纯所解释的:

“人们对人工智能威胁的核心关注是对‘大模型’的不信任。有两个层次的信任。第一个是对系统能力的信任,第二个是对价值观的认同。人与人之间的核心信任来自于价值观的认同。”

朱松纯对通用AI系统的测试,BIGAI基于此系统进行评估,除了评估视觉、语言、认知、运动和学习外,还评估其在五个维度上遵循的嵌入式“价值观”:基础自我价值、高级自我价值、主要社会价值、高级社会价值和群体价值。

确保LLM输出与特定价值集一致的困难也在西方文献中得到了认可。早期,确保LLM输出与特定价值集对齐的方法遭到了广泛的嘲笑。在“对齐”挑战的核心是缺乏LLM中的明确道德引擎”。这迫使开发者依赖于基于人类反馈的繁琐“微调”LLM参数,来解决LLM生成的有问题的回答。

这种基于调整不理想或“非对齐”答案的做法,并寄希望于能够将结果推广到新提示上的做法并不保证成功。一个案例是最近的一项研究,该研究通过不同的LLM展示了相同的伦理困境,且采用不同语言呈现。这项研究发现,伦理决策的行为在LLM之间差异显著,甚至在相同的LLM中,当面临相同的伦理困境时,在不同语言下也表现出不同的行为。新的方法,如基于不同价值模型的训练,而非人类反馈,可能适用于特定的、明确界定的场景,但尚不清楚这种策略如何推广到更广泛的伦理困境,也无法确定这种策略如何能生成与特定价值集一致的LLM回答。目前尚不清楚如何确保LLM的回答能符合特定的伦理价值框架。

本文贯穿始终的一项关于中西人工智能研究的最终区别需要明确,即在其他条件相同的情况下,中国采取的有针对性的、战略性的方法可能比西方追求利润的方法更有效,后者侧重于快速取胜,可能会牺牲需要更长时间跨度才能取得成功的策略。因此,我们的建议分为两点:
(1)用政府和机构对通用人工智能的多方面支持来取代单一的人工智能研究文化;
(2)认真对待通过开源渠道监控中国技术发展的需求。

编译排版:赵杨博

终审:梁正、鲁俊群