数据猿出品
本次“数据猿2024年度三大媒体策划活动——《2024中国AI大模型产业图谱3.0版》”正式发布。下一次版本迭代将于2025年发布,敬请期待,欢迎报名。
2024年,AI大模型技术快速发展,已成为推动各行各业变革的核心力量。从文本处理到视频生成,再到自动化决策,AI大模型的应用正在渗透到各个领域,影响着产业格局的重构。为了帮助各界深入了解这一趋势并把握技术发展脉搏,我们经过不断研究与迭代,发布《2024中国AI大模型产业图谱3.0版》。
本版本在前两版基础上,进行了全面更新与优化,融入了最新的市场动态与技术进展。通过对AI大模型在不同领域的应用场景、技术架构及产业链条的详细梳理,图谱不仅揭示了行业发展的现状与挑战,更为企业、研究机构及政策制定者提供了战略规划的参考依据。
《2024中国AI大模型产业图谱3.0版》旨在为各界人士提供清晰的产业脉络,助力决策者在日新月异的AI大模型浪潮中抢占先机。希望通过这一图谱,能够激发更多的创新思维与合作机会,共同推动AI技术的繁荣发展。
以下为《2024中国AI大模型产业图谱3.0版》示意缩略图
以下是《2024中国AI大模型产业图谱3.0版》中部分典型性代表企业展:
传神成立于2005年,是一家人工智能科技创新公司,国家“专精特新”小巨人企业。公司致力于将中国原创的人工智能技术推向世界舞台,涵盖两大核心业务体系:一是以“大模型”技术为驱动的国产自研的任度大模型业务;二是以“大语言”服务为依托,打造全链条智能化语言服务平台的语联网业务,已成为语言服务行业龙头。传神始终秉承“坚持原创,促进全球智能互联”的核心理念,通过技术创新和全球化战略,为全球用户提供更高效、智能的解决方案。传神已获得超过200项专利,其中发明专利超160项,产品和服务广泛应用于金融、医疗、教育、零售、交通等多个行业。
●上述产业图谱中,传神语联隶属的核心服务板块/领域:大语言模型、多模态模型
① 大语言模型方面,任度大模型2.1B参数版,在MMLU评估中,综合评分超越了Gemma-7B、LLaMA2-34B等知名大模型,性参比超越了包括GPT-4o、Phi-3、Qwen2-7B、Llama3.1等诸多一众国际知名大模型,以极低的参数达到同行业竞品百亿、千亿级别的性能。
服务内容:具备强大的认知功能、语义理解与逻辑推理能力,可处理PDF、DOC、PPT、XLS等多种格式的电子文档。大模型集成向量数据库,可支持用户快速构建私有专属大模型。任度大模型极小的参数体量对用户本地部署的硬件要求极低,仅需民用级别GPU即可本地部署与运行。
服务过的典型性客户:国内某创新研究院、某券商研究院、某大型集团数科子公司、某大型央企集团
以某大型集团数科子公司项目为例,积极推进数字化转型,希望通过引入大模型技术,让研发人员聚焦核心方向,提升研发效率,缩小研发周期,进而强化企业核心竞争力。传神语联任度大模型团队综合考量该企业的业务场景、核心需求及项目预算等实际情况后,依托任度大模型展开专业编程工作,成功推动智能编程助手高效落地,在编程时提供代码建议和自动补全功能,让研发人员掌握了新质生产力工具,实现业务高质量发展。
从实施效果看,任度大模型性参比表现卓越,至少节省超10%的项目成本。此外,任度大模型适配企业多种场景,已获500+客户研发团队验证,可高精度达成代码生成需求,将研发效率提升20%,切实达成企业降本增效目标。
② 多模态模型方面,任度大模型9B参数多模态版本,已参加Spuerclue、CMMLU、MMLU、MMLU-Pro等多个全球知名测试集,均取得了优异成绩,进一步验证任度的优势性能。测评成绩包含:2024年10月,Spuerclue测试,第8名;CMMLU测试,第9名;MMLU测试,第13名;MMLU-Pro测试,排名第10名。
服务内容:全模态数据支持:任度大模型能够对视频、图片、文字等多种模态数据的理解和生成,处理更加复杂和多样的信息输入输出,满足用户全维度数据与垂类场景的切实使用需求。
服务过的典型性客户:某科研研究院、某大型央企、海内外某科技企业等
任度大模型业务是传神核心业务之一,引领国产原创大模型步入新阶段。客户面向B端与G端用户,应用于党政、金融、医疗、电力、航空航天等关键领域。传神推出的的全国产自研“根原创”任度大模型,在技术架构上采用了一种创新的数推分离双网络模式,将客户数据学习网络与推理网络分开,能够将客户数据实时压缩进数据学习网络,并与推理网络联合推理,且不会影响基座网络能力,突破了传统大模型数据和推理一体化的局限。任度包含2.1B与9B两个参数版本,能够解决企业大模型落地三大难题:客户私有数据泄露、向量检索精度低、人才投入成本高。
智慧芽是AI驱动的科技创新和知识产权信息服务商,为知识产权、研发创新和生物医药等创新场景提供软件、数据等信息服务。在生成式AI、机器学习、计算机视觉和自然语言处理(NLP)等人工智能技术上拥有领先优势,帮助客户实现更快更深远的创新。
公司成立于2007年,目前在全球拥有超15000家客户,覆盖生物医药、新材料、智能制造、新能源汽车、通信、半导体、高校和科研院所等领域。
●上述产业图谱中,智慧芽隶属的核心服务板块/领域:医疗大模型、对话式分析大模型、行业/领域数据集
① 医疗大模型方面,智慧芽“生物医药大模型”在智慧芽多年服务生物医药领域所积累的药物、临床试验、生物序列、化学结构、新闻等高质量垂直领域数据之上训练而成,旨在为医药企业中的立项决策人群、研发人群、知识产权人群等提供快速准确的信息检索和分析,还能够生成详尽的调研报告,帮助从业者在新药研发、市场调研、竞品分析等多个环节中做出更加明智的决策。
智慧芽面向医药领域构建了包括新药情报库、生物序列数据库、化学结构数据库、生物医药数据与大模型服务等在内的产品矩阵,并推出了基于大模型的AI助手“芽仔-生物医药”,致力于满足该行业人群在药物立项调研、辅助研发决策、商业拓展合作以及竞品及时跟踪等多种场景中的需求。当前智慧芽有20%以上的客户来自生物医药领域。
服务过的典型性客户:君实生物、上海医药、华海药业、恒瑞医药、菲鹏生物等
智慧芽为该企业整合多方数据源,利用AI技术进行数据统一结构化和特征提取,与客户内部数据融合关联。基于智慧芽强大的数据加工能力,帮助客户建立内部标注平台和数据质量验证体系,从专利中深度挖掘抗体序列和靶向抗原关系。此外,基于独特的数据抽取和链接,智慧芽通过NLP与深度学习技术,助力客户提取海量序列和结构,建立与专利文献的关联关系,辅助优选药物结构。
② 对话式分析大模型方面,智慧芽基于旗下“垂直领域大模型”开发了AI助手“芽仔”。用户可通过自然语言与“芽仔”进行交互,即可获取相关技术问题的答案。相较于传统搜索引擎式的信息获取方式,“芽仔”可以降低信息获取的门槛,助力企业降低相关成本,提升研发效率。
赋能企业研发创新与知识产权是智慧芽的核心业务板块之一。AI助手“芽仔”是专注于研发创新与知识产权领域的AI助手,旨在帮助通过互动对话、专业内容生成、精准检索与推荐、总结分析、多语言翻译等能力,重构研发情报挖掘、技术方案探索、研发成果保护等研发创新环节,大幅提升研发效率。
服务过的典型性客户:OPPO、联影医疗、中国二十冶、哈啰普惠、小熊电器等
智慧芽基于产品内的工作空间模块,按照客户重点布局的技术和产品分类,为客户打造了企业专属的技术情报库,能够实现AI自动化标引竞企专利、自动收录与更新专利、智能情报监控、智能分析报告等功能,有效解放了客户知识产权与研发团队的人力。
③ 行业/领域数据集方面,垂直大模型的成功训练离不开高质量的垂直领域数据。智慧芽多年来积累了丰富的数据,包括覆盖全球170个受理局的超1.9亿专利、超8.9亿序列、超2.5亿化学结构、超9万全球药物、超4万靶点、超1.3亿全球企业数据等。智慧芽各大数据产品已成功挂牌上海数据交易所及其国际板、深圳数据交易所、苏州大数据交易所、湖南大数据交易所等。
智慧芽全面开放旗下专利数据、生物医药数据和科创数据等三大类140余项数据产品,以满足企业创新、医药研发、科创评估等场景的数据服务需求。数据使用者可以通过多种对接方式,如API和离线数据包等,获得这些相关数据产品的支持。
服务过的典型性客户:OPPO、联影医疗、阳光电源、江苏银行苏州分行、兴业银行上海分行等
智慧芽为客户自建的大数据信息中台提供知识产权类数据,还能通过多种数据产品的综合应用,帮助企业实现竞争监控、专利运营等目标。
蜜度创立于2009年,是一家以人工智能技术为核心的语言智能和垂直大模型企业,专注于多模态、多语言智能科技,通过AI产品赋能千行百业的数字化、智能化转型升级。
蜜度基于自主研发的蜜巢、文修两个垂直大模型,利用先进的多语言校对(MLC)、自然语言处理(NLP)、计算机视觉(CV)、跨模态检索(CMR)、内容生成(AIGC)、知识图谱(KG)等人工智能技术,提供智能检索、智能校对、智能生成三大核心应用,致力于为政府、媒体和企业客户提供智能、安全、高效的“AI+”解决方案。
●上述产业图谱中,蜜度隶属的核心服务板块/领域:政务大模型、行业/领域数据集
① 政务大模型方面,蜜巢为蜜度自主研发的政务大模型,具备“自主安全双引擎,应用丰富落地强”的特点,基于自主积累的海量高质量中文语料数据,从源头强化价值观对齐能力与中文理解能力。并融合书生·浦语大模型,通过构建“双引擎”协同机制,聚焦智能知识管理、文稿智能写作、智能舆情分析三大垂直应用方向,赋能各类应用场景的深度开发与高效落地实施,为千行百业的客户提供优质高效、低成本、低门槛的大模型服务。
2023年7月,在世界人工智能大会上,蜜巢正式发布;2024年初,蜜巢完成生成式人工智能备案。目前,蜜巢已成功在多个政府、企业实现商业化落地,为1万+客户提供SaaS服务。
服务过的典型性客户:某市12345市民服务热线、新疆维吾尔自治区水利厅、甘肃省水利厅、某省公安厅、吉林省委网信办
以某市12345市民服务热线为例:随着市民需求的不断增长,市民热线在接线、工单分析、决策等环节面临诸多挑战。蜜巢政务大模型基于智能知识管理能力,结合先进的分类算法,能够快速对工单进行分类,即使在高峰期也能高效处理大量来电。此外,蜜巢智能分析报告能力,可以帮助工作人员定期对工作进行分析,深入挖掘难点和痛点,为决策提供有力支持。同时,可视化大屏的引入使得数据呈现更加直观、简洁,极大地提升了诉求信息解读的效率,使得整个政务热线服务更加智能化、高效化。
② 行业/领域数据集方面,2023年9月,蜜度发布了“蜜巢花粉”文本数据集。该数据集由互联网公开可访问网站2022年历史数据归纳而成,数据总量7000余万条,并通过合规审核,具备来源可靠、数据质量高、可持续稳定更新等特点。该数据集1.0版本已由中国大模型语料数据联盟开源使用,以高质量的中文语料数据为大模型技术深度发展与高水平应用提供更多元的数据要素保障。
服务过的典型性客户:上海人工智能实验室
以上海人工智能实验室为例,为上海人工智能实验室“书生·浦语”大模型训练提供语料数据支持。蜜度作为第二批成员加入“大模型语料数据联盟”,并开源了“蜜巢花粉”语料数据集,为国内数个大模型企业提供高质量数据集,以增强其大模型对话过程中的价值观对齐能力,大模型多轮对话能力,改善其用户交互的自然性及流畅度。年度数商大会上,“蜜巢花粉”系列数据服务获上海数据品牌认证。