互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

208

（报告出品方/作者：中信建投证券，孙晓磊、崔世峰、于伯韬）一、大模型发展情况1、行业发展历程语言是人类表达和交流的突出能力，其在儿童早期发展并在一生中不断演变。然而，除非配备强大的人工智能（AI）算法， ...

（报告出品方/作者：中信建投证券，孙晓磊、崔世峰、于伯韬）

一、大模型发展情况

1、行业发展历程

语言是人类表达和交流的突出能力，其在儿童早期发展并在一生中不断演变。然而，除非配备强大的人工智能（AI）算法，机器不会自然地掌握理解和使用人类语言的能力。要让机器像人类一样阅读、写作和交流一直是一个长期的研究挑战。从技术上讲，语言建模（Language Model, LM）是提高机器语言智能的主要方法之一。一般来说，LM 旨在对单词序列的生成概率进行建模，以便预测未来（或缺失）单词的概率。LM 的研究在学界中得到了广泛的关注，可以分为四个主要发展阶段：统计语言模型（SLM）：SLM 是基于 20 世纪 90 年代兴起的统计学习方法开发的。其基本思想是基于马尔可夫假设构建单词预测模型，例如根据最近的上下文预测下一个单词。具有固定上下文长度 n 的 SLM 也被称为 n-gram 语言模型，例如二元和三元语言模型。SLM 已经被广泛应用于提高信息检索（IR）和自然语言处理（NLP）任务的性能。然而，它们经常受到维度灾难的影响：由于需要估计指数级的转移概率，因此很难准确估计高阶语言模型。因此，专门设计的平滑策略，例如后退估计和 Good-Turing 估计已经被引入为缓解数据稀疏问题。

神经语言模型（NLM）：NLM 通过神经网络，例如递归神经网络（RNNs），来描述单词序列的概率。作为一个显着的贡献，Y. Bengio 和 R. Ducharme 等人引入了单词的分布式表示的概念，并构建了基于聚合上下文特征（即分布式单词向量）的单词预测函数。通过扩展学习词或句子有效特征的想法，已有研究开发了一种通用神经网络方法来为各种自然语言处理任务构建统一解决方案。此外，word2vec 提出了构建一个简化的浅层神经网络，用于学习分布式单词表示，这在各种 NLP 任务中被证明非常有效。这些研究开创了语言模型用于表示学习（超越了词序列建模）的应用，对 NLP 领域产生了重要影响。预训练语言模型（PLM）：作为早期尝试，ELMo 被提出来通过预训练一个双向 LSTM（biLSTM）网络（而不是学习固定的词表示）来捕捉上下文感知的词表示，然后根据特定的下游任务微调 biLSTM 网络。此外，基于高度可并行化的 Transformer 架构和自注意力机制，BERT 提出了通过在大规模无标注语料库上设计特定的预训练任务来预训练双向语言模型。这些预训练的上下文感知的单词表示非常有效，可作为通用语义特征，大大提高了 NLP 任务的性能。这项研究启发了大量的后续工作，建立了“预训练和微调”学习范式。在此范式下，开发了大量关于 PLM 的研究，引入了不同的架构（例如 GPT-2 和 BAR）或改进的预训练策略。在这个范式中，通常需要微调 PLM 以适应不同的下游任务。

大型语言模型（LLM）：研究人员发现，扩展 PLM（例如扩展模型大小或数据大小）通常会导致模型在下游任务上具有更强的能力（即遵循缩放定律）。一些研究探索了通过训练更大的 PLM（例如 175B 参数的 GPT-3 和 540B 参数的 PaLM）来达到性能极限。尽管缩放主要是在模型大小（具有类似的架构和预训练任务）方面进行的，但这些大型 PLM 显示出与较小 PLM（例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2）不同的行为，并展现出令人惊讶的能力（称为涌现能力）以解决一系列复杂任务。例如，GPT-3 可以通过上下文学习来解决少样本任务，而 GPT-2 做不好。因此，研究界为这些大型 PLM 创造了“大型语言模型（LLM）”的术语。LLM 的一个显著应用是 ChatGPT，它利用 GPT 系列的 LLM 适应对话，具有惊人的与人类对话的能力。大语言模型相较于以往的语言模型具备显著优势，其具备优秀的上下文学习能力、可观的知识容量、优秀的泛化性和复杂推理能力。

大型语言模型研究的发展有三条技术路线：Bert 模式、GPT 模式、混合模式。其中国内大多采用混合模式，多数主流大型语言模型走的是 GPT 技术路线，直到 2022 年底在 GPT-3.5 的基础上产生了 ChatGPT。到 2019 年后，Bert 路线基本没有标志性的新模型更新，而 GPT 技术路线则趋于繁荣。从 Bert 往 GPT 演化的过程中，模型越来越大，所实现的性能也越来越通用。各类大语言模型路线各有侧重，GPT 模式在生成类任务表现最优。大型语言模型按照从数据到知识来划分，数据可分为通用数据和领域数据，知识分为语言知识和世界知识。从任务类型来划分，大型语言模型可以分为单一任务和多任务、理解类和生成类；Bert 模式有两阶段（双向语言模型预训练+任务 Fine-tuning），适用于理解类以及某个场景的具体任务，表现得“专而轻”。GPT 模式是由两阶段到一阶段（单向语言模型预训练+zero-shot prompt），比较适合生成类任务、多任务，表现得“重而通”。T5 模式则将两者的方法结合，包含有两阶段（单向语言模型预训练+Fine-tuning）。根据当前研究结论，如果模型规模不特别大，面向单一领域的理解类任务，适合用 T5 模式，而 GPT 模式在做生成类任务时的效果最好。综合来看，当前几乎所有参数规模超过千亿的大型语言模型都采取 GPT 模式。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

如今，LLM 正在对人工智能社区产生重大影响，ChatGPT 和 GPT-4 的出现引发了重新思考人工智能通用智能（AGI）的可能性。OpenAI 已经发表了一篇名为“Planning for AGI and beyond”的技术文章，讨论了实现 AGI 的短期和长期计划，而最近的一篇论文则认为 GPT-4 可能被视为一个早期版本的 AGI 系统。LLM 的快速进步正在彻底改变人工智能的研究领域。在自然语言处理领域，LLM 可以在某种程度上充当通用语言任务求解器，研究范式已经转向使用 LLM。在信息检索领域，传统的搜索引擎正在被 AI 聊天机器人（即 ChatGPT）挑战，而 New Bing 则是基于 LLM 增强搜索结果的初始尝试。在计算机视觉领域，研究人员试图开发类似于 ChatGPT 的视觉语言模型，以更好地服务于多模态对话，而 GPT-4 通过集成视觉信息已经支持多模态输入。这股新的技术浪潮有可能会导致基于 LLM 的真实世界。例如，Microsoft 365 正在被 LLM（如 Copilot）赋能以自动化办公工作，而 OpenAI 支持在 ChatGPT 中使用插件来实现特殊功能。

起源于 Transformer 模型，ChatGPT 经过 5 年迭代成功出世。ChatGPT 的诞生经历了从 Transformer -> GPT -> GPT2 -> GPT3 -> ChatGPT 的逐步迭代过程，其具体发展历程如下：（1）2017 年 6 月，Google 发布论文《Attention is all you need》，首次提出 Transformer 模型，成为 GPT 发展的基础；（2）2018 年 6 月, OpenAI 发布论文《Improving Language Understanding by Generative Pre-Training》，首次提出 GPT 模型,即 GPT-1，模型参数量达 1.17 亿；（3）2019 年 2 月，OpenAI 发布论文《Language Models are Unsupervised Multitask Learners》，提出 GPT-2 模型, 大模型共计 48 层，参数量达 15 亿；（4）2020 年 5 月，OpenAI 发布论文《Language Models are Few-Shot Learners》，提出 GPT-3 模型, 参数量达 1750 亿；（5）2022 年 2 月底，OpenAI 发布论文《Training language models to follow instructions with human feedback》，公布 Instruction GPT 模型，参数量达 13 亿；（6）2022 年 11 月 30 日，OpenAI 推出 ChatGPT 模型，并提供试用。

2、大语言模型概览

通常，大型语言模型（LLMs）是指包含数千亿（或更多）参数的语言模型，它们是在海量文本数据上进行训练的，例如 GPT-3，PaLM，Galactica 和 LLaMA。具体来说，LLMs 建立在 Transformer 架构之上，其中多头注意力层在一个非常深的神经网络中堆叠。现有的 LLMs 主要采用类似的模型架构（即 Transformer）和预训练目标（即语言建模）作为小型语言模型。作为主要区别，LLMs 大量扩展了模型大小、预训练数据和总计算量（数量级）。它们可以更好地理解自然语言，并基于给定的上下文（即提示）生成高质量的文本。这种能力提升可以部分地由缩放法则描述，即性能大致随着模型大小的增加而显著增加。然而，一些能力（例如上下文学习）是不可预测的，只有当模型大小超过一定水平时才能观察到。

百亿参数量级别的模型：这类模型的参数规模除了 LLaMA（最大版本 65B 参数）和 NLLB（最大版本 54.5B 参数），大多在 10B 至 20B 之间。这一参数范围内的模型包括 mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、 UL2、Flan-T5 和 mT0 等。其中，Flan-T5（11B 版本）可以作为研究指令微调的首选模型，因为它从三个方面探索了指令微调：增加任务数量、扩大模型规模和使用思维链提示数据进行微调。CodeGen（11B）是一个为生成代码设计的自回归语言模型，可用作探索代码生成能力的候选模型，其提出了一个新的基准测试 MTPB，专门用于多轮程序合成，由 115 个专家生成的问题组成，为了解决这些问题，需要大语言模型获得足够的编程知识（例如数学、数组操作和算法）。对于多语言任务，mT0（13B）可能是一个比较好的候选模型，因为它在多语言任务中使用多语言提示进行微调。此外，对于中文的下游任务，PanGu-α具有较好的表现，特别是在零样本或小样本的设置下，该模型基于深度学习框架 MindSpore 开发，拥有多个参数版本（最大版本 200B 参数），而最大的公开版本只有 13B 参数。此外，作为最近发布的模型，LLaMA（65B）在与指令遵循相关的任务中展现了卓越的性能。由于其开放性和有效性，LLaMA 引起了研究界的广泛关注，许多工作致力于微调或继续训练其不同的模型版本以实现新模型或工具的开发。百亿参数量级别的模型通常需要数百甚至上千个 GPU 或 TPU。例如，GPT-NeoX-20B 使用了 12 个微服务器，每个服务器配备了 8 个 NVIDIA A100-SXM4-40GBGPU，LLaMA 使用了 2048 个 A100-80GGPU。为了准确估计所需的计算资源，我们还是建议使用衡量涉及计算量的指标，例如计算 FLOPS（每秒浮点数运算次数）。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

据中移智库统计，截止到 2023 年 4 月 18 日，国内至少有 19 家企业及科研院所涉足人工智能大模型训练，主要分为大型科技公司、科研院校和初创科技团队三类。具体来看：百度、阿里等 12 家大型科技公司和中国科学院、清华大学等 3 家科研院校已经提供开放测试，或有明确的推出时间计划；字节跳动、搜狗创始人王小川、美团创始人王慧文、创新工场创始人李开复等则是最近对外宣布组建团队，进军大模型研发领域。其中，字节跳动旗下火山引擎于 4 月 18 日发布自研 DPU（数据处理器）等系列云产品，推出新版机器学习平台，可以支持万卡级大模型训练、微秒级延迟网络，为预训练模型提供强大的算力支持。

从大模型参数量看，科技大厂的参数量远大于科研院所。科技大厂的大模型参数量较大：阿里通义千问大模型参数在 10 万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参数量在 2 千亿级以上、京东言犀大模型的参数量为千亿级；垂直行业科技企业已经上线的参数量普遍在千亿级以上;而科研院校大模型的参数量在千亿级及以下。从大模型应用方向看，大部分企业前期以内部应用为主，后续主要向 B 端企业拓展服务，预计少数企业将在 C 端市场形成规模。目前，百度文心大模型、华为盘古大模型、中国科学院紫东太初大模型均在 B 端垂类市场积累了标杆应用案例，腾讯混元大模型、阿里通义大模型则更多聚焦公司自身业务。而在 C 端市场应用方面，百度文心一言、阿里通义千问、腾讯混元助手三类大模型最有可能向此方向拓展，但目前只有百度文心一言大模型正在进行友好客户测试，阿里通义千问大模型则计划在今年 9 月份进行公测，腾讯混元助手大模型则处于计划开发状态。

3、产业发展趋势

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放 API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。大模型的核心作用是突破数据标注的困境，通过学习海量无标注的数据来做预训练，拓展整体模型前期学习的广度和深度，以此提升大模型的知识水平，从而低成本、高适应性地赋能大模型在后续下游任务中的应用。在实践中，预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育，再借助 “预训练+精调”等模式，在共享参数的情况下，根据具体应用场景的特性，用少量数据进行相应微调，即可高水平完成任务。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

大模型增强了 AI 技术的通用性，让开发者以更低成本、更低门槛，面向场景研发更好的 AI 模型，助力普惠 AI 的实现。但目前，基础大模型距离大规模产业应用并成为产业基座还有很长的一段路要走，不仅需要有与场景深度融合的大模型体系，也需要有支持全流程应用落地的专业工具和平台，还需要开放的生态来激发创新；三层之间交互赋能，才能形成良性循环的产业智能化生态共同体。我们看到 OpenAI 在开发 GPT 大模型的过程中具有相似的思路，在不断加强大模型本身性能的同时，将 GPT 打包成产品，对外提供 API 服务，相关开发者、企业、学术机构以及高校都可以申请使用。开放后，大量开发者利用 API 开发出了各种各样的功能，例如翻译机、网站生成器等；OpenAI 则通过用户获取了更多的行为数据，形成了对 GPT 的反哺。由此可见，“模型+工具平台+生态”三层共建有助于业务的良性循环，也更容易借助长期积累形成竞争壁垒。

生态层是基于大模型能力打造共创、共享社区。大模型“预训练+精调”的新研发范式，让 AI 在识别、理解、生成等方面的能力实现突破，带来深度语义理解、智能交互、内容生成的技术与产品变革动能。打造基于大模型能力的生态，提供能力、工具、服务，连接供需，吸引更多的开发者和企业共创、共享，是释放大模型潜力的重要路径。“模型+工具平台+生态”的模式需要协同优化，拓宽人工智能技术落地的场景覆盖广度，加深产业实际应用的深度，共同加速产业智能化，推动人工智能技术赋能千行百业，惠及千家万户。 “模型+工具平台+生态”的模式需要协同优化，才能拓宽人工智能技术落地的场景覆盖广度，加深产业实际应用的深度，共同加速产业智能化，推动人工智能技术赋能千行百业，惠及千家万户。

二、互联网大厂模型

1、阿里

阿里以“通义大模型+飞天智算平台+魔塔社区+行业应用”成为大模型全部环节的重要参与者。2019 年，阿里达摩院开启大模型研究。2022 年 9 月，阿里正式发布通义大模型，包括通义 M6 多模态模型、通义 AliceMind 自然语言处理模型、通义视觉计算机视觉模型。2022 年 11 月，阿里推出 AI 开源社区“魔搭”(ModelScope)，旨在打造下一代“模型即服务”的共享平台，整合业界多方模型提供者，为开发者提供预训练基础模型和 API 接口。目前该平台已有超过 300 个开源模型，包括阿里自有的通义大模型系列以及澜舟科技孟子系列模型等外部资源和能力。2023 年 4 月，阿里正式发布了“通义千问”产品，该产品基于 10 万亿级参数的大模型底座 M6-OFA，未来将具有多轮交互及复杂指令理解、可多模态融合、支持外部增强 API 等多种能力。另外，阿里不仅拥有最多的英伟达 A100 芯片，还拥有自研芯片含光 800、倚天 710 芯片，共同为人工智能大模型提供算力。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

1.1 模型

阿里推出“通义”系列大模型，由统一底座层、通用模型层、行业模型层组成，不仅通用多种任务，又容易落地应用，其中，应用在 B 端更有优势。2022 年 9 月 2 日，阿里推出“通义”系列大模型，核心模型通过“魔搭”社区向全球开发者开源开放，推出“飞天智算平台”提升 AI 训练效率。通义大模型通过打造业界首个 AI 统一底座并构建大小模型协同的层次化人工智能体系，解决了大模型通用性与易用性仍欠缺的难题。通义大模型由统一底座层、通用模型层、行业模型层组成。其中，统一底座是基于 transformer 框架，由统一学习范式和模块化设计理念构成；通用模型层主要包括通义-M6、通义-AliceMind 和通义-CV 三大模型体系。由于低训练能耗优势，通义大模型运行速度加快，例如，M6 在相同参数规模下的训练能耗仅是 GPT-3 的 1%。目前，阿里通义大模型已广泛用于电商、设计、医疗、法律、金融等领域，助力其降本增效。而在落地应用方面，阿里原有的产品资源导致其在 B 端更有优势。阿里巴巴于 2023 年 4 月 7 日推出通义千问大语言模型内测。在 4 月 11 日的 2023 阿里云峰会上，阿里巴巴 CEO 张勇表示阿里巴巴所有产品未来将接入通义千问大模型，进行全面改造，包括天猫、钉钉、高德地图、淘宝、优酷、盒马等。阿里将结合 200 多万的企业用户和辐射的 2-3 亿真实活跃用户资源,把文本作为核心场景镶嵌到钉钉的三大入口，预计 2023Q3 推送给部分 B 端客户的企业钉。

通义-M6 属于多模态模型，覆盖文本和语音模态，在短时间内高速发展，并实现架构、模态和任务统一。通义-M6（英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer，6 个 M，简称 M6）包括图文生成，图文理解，多模态对话，运动预测，运动生成，语音理解，语音生成，多模态检测和分割。通义-M6 已经从 2020 年 6 月的 3 亿参数基础模型逐渐发展到 2021 年 10 月的 10 万亿参数全球最大预训练模型再到 2022 年 1 月的业界首个通用统一大模型 M6-OFA。2020 年 1 月，阿里巴巴达摩院启动中文多模态预训练模型 M6 项目，同年 6 月推出 3 亿参数的基础模型。2021 年 1 月，模型参数规模到达百亿，已经成为世界上最大的中文多模态模型。2021 年 3 月，千亿参数模型 KDD2021 发布，与 10B 模型相比：①训练损失减少 37%，在许多下游任务实现 SOTA 结果；②混合精度提亮 90%的效率；③仅需 32 张 v100GPU 即可完成训练。 2021 年 5 月，具有万亿参数规模的模型正式投入使用，追上了谷歌的发展脚步。2021 年 10 月，M6 的参数规模扩展到 10 万亿，成为当时全球最大的 AI 预训练模型。 2022 年 1 月，业界首个通用的统一大模型 M6-OFA 发布。

AliceMind 是 NLP 的深度语言模型体系，以通用预训练语言模型 StructBERT 为基础，拓展到超大的领域模型、多语言、多领域、多模态方向，可用于结构化、生成式、知识驱动等应用。AliceMind, 取名来自 Alibaba's Collection of Encoder-decoders from MinD (Machine Intelligence of Damo)，是阿里达摩院机器智能技术实验室倾力打造的具有领先性和系统化的深度语言模型体系。AliceMind 的核心应用场景有：文本标签分类、序列标注、智能中文生成（如商品描述写作推荐、小说续写、古诗生成、菜谱生成等）、多模态问答（如 VQA，图片问答）、问答对自动生成等。Alicemind 已经服务阿里内部和外部客户几百个场景。

通义-视觉属于 CV 模型，覆盖图像，视频模态。通义-视觉大模型自下往上分为底层统一算法架构、中层通用算法和上层产业应用，由两个基础模型构成，能够实现视频处理、视觉问答、视觉算数等多种算法，在电商、交通、自动驾驶等领域发挥作用。

1.2 算力

2022 年，阿里云推出全栈智能计算解决方案“飞天智算平台”，并启动两座超大规模智算中心，为科研、公共服务和企业机构提供强大的智能计算服务，可将计算资源利用率提高 3 倍以上，AI 训练效率提升 11 倍，推理效率提升 6 倍。飞天智算平台源于阿里巴巴内部广泛实践，也源于广泛的产业智能实践。目前，该平台正在支撑建设两座超大规模智算中心。张北智算中心建设规模为 12 EFLOPS（每秒 1200 亿亿次浮点运算）AI 算力。在云端，张北智算中心支撑 AI 预训练大模型、AI Earth、数字人等前沿 AI 应用，将成为全球最大的智算中心。乌兰察布智算中心建设规模为 3 EFLOPS（每秒 300 亿亿次浮点运算）AI 算力，位于“东数西算”内蒙古枢纽节点，采用自然风冷、AI 调温等绿色技术，实现绿色低碳。

智能计算不同于通用型计算，需要海量数据对 AI 模式进行训练，算力被损耗在数据迁移、同步等环节，千卡以上规模的算力输出最低往往仅有 40%左右。这导致了智能算力成本高昂，制约了产业发展。阿里云通过体系化的技术创新，改变了智能计算的损耗难题，将千卡并行计算效率提升至 90%以上。在网络技术上：阿里云采用高性能 RDMA 网络，实现端对端最低 2 微秒延迟。在通信技术上：阿里云自研的无阻塞通信技术，让计算过程中的数据交换速度提升了 5 倍以上。在存储技术上：自研的 IO 加速器让数据存取实现最高 10 倍性能提升。在大数据 AI 开发层：阿里云提供分布式训练框架，并通过 API 对分布式策略进行自动组合和调优，将训练效率提升了 11 倍以上。一站式 AI 计算开发服务：阿里云为用户提供了一站式的通用推理优化工具，对算法模型进行量化、剪枝、稀疏化、蒸馏等操作，将推理效率提升 6 倍以上。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

阿里研发出高质量的大模型压缩技术，快速匹配客户计算资源。达摩院推出了大模型落地技术 S4（Sound、 Sparse、Scarce、Scale）框架，就包含了各种微调算法和模型压缩算法，将稀疏化等技术应用到百亿量级的大模型中。基于这一技术，阿里的 270 亿参数语言大模型 PLUG 在压缩率达 99%的情况下，多项任务的精度损失在 1%以内。这意味着百亿参数大模型也可能在几乎不损失精度的情况下进行稀疏化，最终实现单卡运行。

另一方面，基于“通用大模型+行业 knowhow”的方式迭代模型。通用大模型基于“大一统”技术，预训练时就已经具备了很强的理解和生成能力，只需再针对特定任务进行简单微调。即先打造一个基础大模型，再继续训练得到领域模型，最后通过微调构建具体行业任务模型。通义大模型的架构设计将这一过程做得更快且更高效。目前，通过部署超大模型的轻量化及专业模型版本，通义大模型已在超过 200 个场景中提供服务，实现了 2%-10%的应用效果提升。比如，通义大模型在淘宝服饰类搜索场景中实现了以文搜图的跨模态搜索、在 AI 辅助审判中司法卷宗的事件抽取、文书分类等场景任务中实现 3～5%的应用效果提升、在开放域人机对话领域通过建立初步具备“知识、情感以及个性、记忆”的中文开放域对话大模型实现了主动对话、广泛话题、紧跟热点等对话体验。

1.3 平台

2022 年 11 月，阿里巴巴达摩院与中国计算机学会开源发展委员会共同推出人工智能模型开源社区“魔搭” （Model Scope），首批合作方还包括澜舟科技、智谱 AI、深势科技、中国科学技术大学等多家科研机构，旨在打造下一代开源的模型即服务共享平台，致力降低 AI 应用门槛。 ModelScope Library 为模型贡献者提供了必要的分层 API，以便将来自 CV、NLP、语音、多模态以及科学计算的模型集成到 ModelScope 生态系统中。所有这些不同模型的实现都以一种简单统一访问的方式进行封装，用户只需几行代码即可完成模型推理、微调和评估。同时，灵活的模块化设计使得在必要时也可以自定义模型训练推理过程中的不同组件。除了包含各种模型的实现之外，ModelScope Library 还支持与 ModelScope 后端服务进行必要的交互，特别是与 Model-Hub 和 Dataset-Hub 的交互。这种交互促进了模型和数据集的管理在后台无缝执行，包括模型数据集查询、版本控制、缓存管理等。当前，魔搭社区收录模型共 775 个，其中中文模型约 300 个，主要通过大模型帮助开发者提取、抽象知识，通过下游调优，将下游目标精确化，从而快速形成针对行业的解决模型，解决实际应用问题。

1.4 应用

通义千问将陆续接入阿里巴巴生态的所有商业应用中，如企业通讯、智能语音助手、电子商务、搜索、导航、娱乐等，从而进一步提升用户体验。凭借其中英双语能力，通义千问将首先部署于阿里巴巴的数码协同办公和应用开发平台钉钉，以及物联网智能家居终端机天猫精灵上。通义千问赋能钉钉：让职场沟通更高效。例如，钉钉将能够总结会议纪要、将会议对话生成文字会议记录、撰写电子邮件，以及仅用简单输入就可创建业务策划或推广方案初稿。用户还可以透过上传一张构思草图的图像，转瞬间就能在钉钉上生成小程序。通义千问赋能天猫精灵：与中国用户更活泼生动地对话。例如，天猫精灵将能够为儿童创作和讲故事、提供健康食谱和旅行建议，或推荐健身背景音乐等。从应用的角度，在传统 APP 中，因为各业务逻辑上的不同，比如淘宝与饿了么，飞猪与高德打车，APP 间很难整合，强行整合反而会带来产品使用复杂度大幅增加，用户体验下降。但如果统一接入到通义千问中，参考智能座舱的语音助手，其更强的理解能力将使得交互逻辑变得非常简单，用户可以像询问生活助手一样询问通义千问来完成业务交互，不再需要学习操作逻辑，阿里生态中的家庭终端入口将实现统一。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

图像理解和“文生图（text-to-image）”等多模态能力也将很快添加到通义千问模型中，为用户提供更具吸引力的 AI 功能。阿里云智能首席技术官周靖人表示：“语言大模型支持下的生成式 AI 正迎来全新的发展阶段。在新 AI 时代，我们凭借可靠的公有云基础设施和久经验证的 AI 能力，为客户和广大社会创造价值。我们正见证 AI 发展的新范式，云和 AI 模型在其中发挥至关重要的作用。我们致力于让这种范式更普惠，希望以此促进各行各业的数智化转型，助力提高企业生产力，扩展专业知识和能力，并通过创新释放更大的机遇。”通义千问基于阿里巴巴自研的“通义”预训练模型框架，其统一底座包括“文生图”、“文生短视频”等 AI 模型。去年，阿里云推出开源“模型即服务”（Model-as-a-Service）平台“魔搭”（ModelScope），开放了数以百计 AI 模型，包括面向全球开发者和研究人员的通义“文生图”模型。目前“魔搭”小区拥有超过 100 万活跃用户，提供 800 多个模型，模型总下载量超 1600 万次。

2、百度

百度是国内领先布局 AI 领域的科技大厂，也是我国最早发布知识增强大语言模型产品的企业，其在 AI 领域累计投入研发总额超过千亿元,专利数量连续五年居全国第一。2010 年，百度成立了人工智能自然语言处理部,是中国最早布局 AI 的企业之一。2012 年,百度的 AI 战略已经初步成型,陆续成立了深度学习研究院 IDL、人工智能实验室。2014 年，百度开始涉足智能驾驶领域,先后推出了深度语音系统、百度大脑、度秘、 Apollo 自动驾驶平台等技术体系,涉及自然语言处理、机器翻译、语音、视觉、机器学习、深度学习、知识图谱等核心技术。2016 年 9 月，百度在百度世界大会上正式对外开放集视觉、语音、自然语言处理、知识图谱、深度学习等技术于一体的百度大脑,并且每隔一段时间就会进行迭代,合作伙伴可以直接调用百度 AI 的核心能力。同年，百度主导的深度学习框架 PaddlePaddle(飞桨)上线,涵盖了深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件,填补了中国开源深度学习框架的空白。2017 年开始,百度就开始整合人工智能体系,在 2019 年下半的一次架构调整后,王海峰开始统管 AIG、ACG 和 TG 三块业务，百度 AI 的打法也进一步清晰,云计算被定义为智能基础设施的底座,同时将人工智能和底层技术能力灌输到底座中,进而成为赋能各行各业的“动力工厂”。2020 年，百度智能云确立了“以云计算为基础,以人工智能为抓手,聚焦重要赛道”的新战略,选择智慧城市、智慧金融、智慧医疗、智能制造、智慧能源等为重要赛道,并屡屡签下数亿级别的订单。2021 年初,百度再次夯实了自身的人工智能战略,从“AI+云”的整合过渡到云智一体的新阶段。2022 年底，百度智能云推出了全栈自研的 AI 基础设施“百度 AI 大底座”，其包括“芯片–框架–模型”三层技术栈，在各个层面都拥有关键自研技术和领先产品，分别对应昆仑芯、飞桨（PaddlePaddle）、文心大模型。百度 AI 大底座对各层的技术栈进行了全栈融合、系统优化，完成了云和智的技术一体化建设，可以实现对大模型训练的端到端优化和加速。

2.1 模型

文心大模型架构分为“基础+任务+行业”三级模型。基础大模型聚焦技术方向的技术挑战、通用性、泛化性探索；任务大模型深入理解任务特性，构建预训练算法、训练数据集，打造紧贴任务的模型能力；行业大模型深度融合行业数据与知识特性，构建更适配行业的模型底座。基础大模型支撑任务与行业大模型的建设，任务和行业大模型结合真实场景与数据反哺基础大模型优化。目前，文心大模型已经建设了 36 个大模型，其中基础大模型包含：NLP（自然语言处理）大模型、CV（计算机视觉）大模型、跨模态大模型，任务大模型包含对话、搜索、信息抽取、生物计算等多个典型任务，行业大模型包含与来自 8 个行业的头部企业或机构共建的 11 个行业大模型。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

2.1.1 文心 NLP 大模型

文心 NLP 大模型发展历程有三条主线，1）是文心 ERNIE，百度发布了文心 ERNIE 3.0 以及文心·ERNIE 3.0 Titan 模型，并且在 SuperGLUE 和 GLUE 都超过了人类排名第一的水平，以及基于层次化多任务学习的文心 ERNIE 3.0 Zeus。同时为了进一步降低落地门槛，出现了效率高、泛化能力强的轻量级大模型，比如文心 ERNIE 3.0 Tiny。2）对话生成大模型文心 PLATO 的发布，对话的流畅性得到了很大提升。3）文心 ERNIE 在跨模态、跨语言以及长文档、图模型等方面获得了非常好的发展，在各种榜单尤其是视觉语言相关的榜单上获得第一百，比如文心 ERNIE-ViLG 2.0，该模型可以生成语义更相关、质量更高的图片。文心一言整合了过往关键技术，在文心知识增强大模型 ERNIE 及对话大模型 PLATO 的基础上研发，基于飞桨深度学习平台训练和部署，其关键技术包括，有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术，在 ERNIE 和 PLATO 模型中已经有应用和积累，文心一言中又进行了进一步强化和打磨，做到了更懂中文、更懂中国文化、更懂中国的使用场景；后三项则是百度已有技术优势的再创新。

ERNIE 3.0 系列模型（ERNIE 3.0、ERNIE 3.0 Titan、ERNIE 3.0 Zeus）有四大特点：从大规模知识图谱和海量无结构数据中学习，突破异构数据统一表达的瓶颈问题。同时输入大规模图谱和相应无标注、无结构化的文本，通过文本的 Mask，能够推理这个知识图谱里的关系，从而使这个模型具有知识推理能力。

融合了自编码和自回归的结构，使模型既可以做语言理解，也可以做语言生成。在做语言理解时，模型拥有上下文相关的信息，从而做语言理解。在生成的时候，由于模型只看到了上文，所以只能基于自回归的方式学习。因此，在一个框架中同时能够拥有语言理解和语言生成两种能力非常重要。

基于持续学习框架，从不同任务中持续学习。不断从不同的数据和知识上学习，而不断地构建新任务，比如文本分类任务、问答任务、完形填空任务等。大模型从不同任务中持续学习，使能力得到持续提升，拥有更多知识。为了进一步学习特定任务的相关知识，ERNIE 3.0 Zeus 提出了层次化提示（Prompt）学习技术。在数据构造时通过层次化的 Text Prompt 库将百余种不同的任务统一组织成自然语言的形式，和海量无监督文本以及百度知识图谱联合学习。此外训练过程引入了层次化的 Soft Prompt 建模了不同任务之间的共性与特性，进一步提升了模型对于不同下游任务的建模能力。此外，通过持续学习对百余种不同形式的任务数据，实现了任务知识增强，显著提升了模型的零样本/小样本学习能力。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

PLATO (Towards Building an Open-Domain Chatbot via Curriculum Learning) 是文心一言的另一项关键技术，主要作用是多轮对话，其发展经历了三个阶段。1）2019 年 10 月，百度首次发布了 PLATO 对话模型，其是全球首个大规模变量对话模型，刷新开放领域对话效果。2）2020 年 7 月，发布 PLATO-2，其是基于课程学习的对话生成模型，进一步刷新了开放领域对话效果。2020 年 10 月，PLATO-2 斩获全球对话技术竞赛 DSTC-9 五项冠军。3）2021 年 9 月，发布 PLATO-XL，其是首个百亿参数中英对话预训练生成模型。 PLATO 在预训练模型之上，对对话能力进行增强，让对话具有人格属性，包括人设稳定性、知识增强、跨模态对话、情感抚慰、主动对话、长期记忆等。同时，PLATO 也已应用到百度的各个产品线，比如：小度聊天，百度推出的虚拟人对话，领域对话。同时，百度也通过 UNIT 平台，对外输出对话技术。

2019 年，百度首次发布了 PLATO 对话模型，首次创新性的提出了“隐变量”的概念。开放型对话具有一对多的特点，用户输入 query 后，系统可以有多种多样的回复。每个回复有不同的性质，比如，输入“我得健身了，不能放纵了”。可以给用户建议、询问、质询、质疑等类型的回复。除了这种关系外，还会有对话背后的场景信息，这会导致开放型对话一对多的关系，这会导致模型学习很困难。如果针对一个输入，有特定的输出，模型的学习会相对简单。但当模型的输出不确定，甚至有多种多样的输出，这就会导致模型学习复杂。针对这一问题，我们提出隐变量建模输入和输出的映射信息。它不是一个显式的建模，而是一个隐式建模输入和每一个输出的对应关系。这就会让原来的输入和输出一对多的关系，转化为一对一的关系。通过在输入增加 soft token 的方式，让 transformer 建立输入和输出之间的关系。Transformer 不是独立的编码器和解码器的方式，我们选择了使用编码器和解码器共享参数的方式来实现即 unified transformer。预训练分为两个阶段，先根据输入和输出预测隐变量的分布，然后从分布中采样隐变量，将其加入输入中再去学习根据隐变量和输入预测回答的能力。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

2021 年，百度推出 PLATO-XL，将模型的规模推进至 110 亿，模型有 72 层。同时引入了 role embedding 的特征来感知角色信息。在对话上文中，既有用户的输入，也有系统的输入，使用 role embedding 来区分用户和系统的角色。在原有 transformer 模型三个特征,token、sentence type、position 的基础上，模型新增了 role embedding 的信息，能让模型更好的掌控角色。

2.1.2 文心 CV 大模型

文心 CV 大模型基于领先的视觉技术，利用海量的图像、视频等数据，为企业和开发者提供强大的视觉基础模型，以及一整套视觉任务定制与应用能力。百度文心发布了 VIMER 系列的 CV 大模型，视觉自监督预训练大模型 VIMER-CAE 创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架，在图像分类、目标检测、语义分割等经典下游任务上刷新 SOTA 结果。在此之上，多任务学习模型 VIMER-UFO 2.0 可抽取轻量级小模型，兼顾大模型效果和小模型推理性能，单模型覆盖 20 多个 CV 基础任务，在 28 个公开测试集上效果刷新 SOTA。端到端文档 OCR 表征学习预训练模型 VIMER-StrucTexT 2.0 解决了训练数据匮乏和传统 OCR+NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题，能够广泛应用于各行各业行的文档、卡证、票据等图像文字识别和结构化理解。 VIMER-CAE 基于自监督图像掩码建模原理，创新性地提出“在隐含的编码表征空间完成掩码预测任务” 的预训练框架，对编码模块和解码模块进行分离，通过编码模块对输入的图像块进行特征表达，并利用隐式上下文回归和解码模块对输入图像的掩码块进行特征表达恢复，在图像掩码建模问题上提高了预训练模型的图像表征能力。基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升，其中在目标检测、实例分割、语义分割等任务的指标上达到最优水平。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

VIMER-UFO 2.0 技术方案的主要内容包括：1）All in One——行业最大 170 亿参数视觉多任务模型，覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+ CV 基础任务，单模型 28 个公开测试集效果 SOTA；2） One for All——首创针对视觉多任务的超网络与训练方案，支持各类任务、各类硬件的灵活部署，解决大模型参数量大，推理性能差的问题。针对大模型的开发和部署问题，VIMER-UFO 给出了 One for All 的解决方案，通过引入超网络的概念，超网络由众多稀疏的子网络构成，每个子网络是超网络中的一条路径，将不同参数量、不同任务功能和不同精度的模型训练过程变为训练一个超网络模型。训练完成的 VIMER-UFO One for All 超网络大模型即可针对不同的任务和设备低成本生成相应的可即插即用的小模型，实现 One for All Tasks 和 One for All Chips 的能力。

VIMER-UFO 2.0 单个模型一套参数，在不进行下游 fine-tuning 的情况下，在 28 个主流的 CV 公开数据集上取得了 SOTA 的结果。同时，尽管 VIMER-UFO 2.0 大模型参数量达到了 170 亿，得益于 Task-MoE 稀疏结构，每个任务推理时只需激活部分参数，计算量相当于 6 亿参数模型规模，加速比接近 30 倍。

VIMER-StrucTexT 2.0 是端到端文档 OCR 表征学习预训练模型，首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架，仅通过单一文档图像的输入，就能让模型充分捕获语义和结构信息。经过大规模文档图像数据充分学习后的预训练模型，显著提高文档理解全景应用任务效果，包括文档图像分类、文档版式分析、表格结构解析、文档 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同时解决了训练数据匮乏和传统 OCR + NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题，能够广泛应用于各行各业行文档、卡证、票据等图像文字识别和结构化理解。

VIMER-UMS (Unified Multi-Source Pre-training for Product)，是百度基于海量的互联网商品图文信息提出的多源信息统一建模的商品图文表征预训练模型，也是行业首个统一视觉单模态与多源图文模态表征的商品多模态预训练模型。针对图文多模态建模中模态信息残缺问题，通过构建视觉特征与多源图文对比的多任务学习框架，实现统一图文表征预训练同时覆盖商品视觉单模态、多模态识别与检索任务，可以显著改善商品视觉检索和商品多模态检索体验。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

VIMER-UMS 基于端到端 Transformer 训练方式，通过视觉编码、文本编码、融合编码、搜索查询编码，提供多源商品信息的统一表达结构。由于现有主流多模态预训练方法依靠语言作为弱监督关联信号，视觉表征能力存在退化现象。为了解决该问题，VIMER-UMS 通过建立视觉与多源图文对比多任务预训练，实现视觉特征、图文特征的统一增强表征。

2.1.3 文心跨模态大模型

文心·跨模态大模型基于知识增强的跨模态语义理解关键技术，可实现跨模态检索、图文生成、图片文档的信息抽取等应用的快速搭建，落实产业智能化转型的 AI 助力。 ERNIE-ViL 是业界首个融合场景图知识的多模态预训练模型。ERNIE-ViL 将场景图知识融入到视觉-语言模型的预训练过程，学习场景语义的联合表示，显著增强了跨模态的语义理解能力。ERNIE-ViL 还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等 5 项典型多模态任务中刷新了世界最好效果。并在多模态领域权威榜单视觉常识推理任务（VCR）上登顶榜首。基于文本中解析出的场景图，ERNIE-ViL 提出了三个多模态场景图预测任务：物体预测，随机选取图中的一部分物体，然后对其在句子中对应的词进行掩码和预测；属性预测，对于场景图中的属性-物体组合，随机选取一部分词对其中属性词进行掩码和预测；关系预测，对于场景图中的物体-关系-物体三元组，对其中的关系词进行掩码和预测。

ERNIE-ViL 在场景图里加入知识，通过它的文字信息去构建场景图，使得模型能够理解图中细粒度的语义。举例而言，下图中有 6 个人，但只有 5 个人运动员，因为其中一个是裁判，模型要能依据运动场景进行判断，才能给出正确答案。

文心 ERNIE-ViLG 2.0 采用基于知识增强算法的混合降噪专家建模，是全球首个知识增强的 AI 作画大模型，也是目前全球参数规模最大的 AI 作画大模型，在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型，取得了当前该领域的世界最好效果，并在语义可控性、图像清晰度、中国文化理解等方面展现出了显著优势。文心 ERNIE-ViLG 2.0 通过视觉、语言等多源知识指引扩散模型学习，强化文图生成扩散模型对于语义的精确理解，以提升生成图像的可控性和语义一致性。同时，ERNIE-ViLG 2.0 首次引入基于时间步的混合降噪专家模型来提升模型建模能力，让模型在不同的生成阶段选择不同的“降噪专家”网络，从而实现更加细致的降噪任务建模，提升生成图像的质量。

2.2 算力

百度早在 2011 年就开始布局 AI 芯片领域，并逐步建立 AI 技术的全栈布局，拓展了全面的 AI 应用场景。同时，拥有数亿用户规模的产品百度搜索，以及服务各个行业的百度智能云等。同时，百度依托昆仑芯科技前身为百度智能芯片及架构部，昆仑芯是百度自主研发的云端通用 AI 芯片，目前，昆仑芯 1、2 代已实现量产，并达到数万片规模部署。昆仑芯 3 代将于 2024 年初量产。依托深厚技术沉淀，昆仑芯科技核心团队于 2017 年发布 100%自研、面向通用 AI 计算的芯片核心架构昆仑芯 XPU，并从 AI 落地的实际需求出发，按照复杂前沿的人工智能场景需求来迭代架构。2018 年至今，昆仑芯云端 AI 芯片已经迭代两代，并实现数万片的规模落地。其中，昆仑芯 1 代已经在百度搜索引擎、小度等业务中部署超过两万片，昆仑芯 2 代也于 2021 年 8 月实现量产，并已在互联网、智慧工业、智慧城市、智算中心、智慧交通、科研等领域实现规模化部署，服务来自千行百业的不同客户。

针对大模型，昆仑芯持续打磨部署优化方案，领跑产业落地。昆仑芯已将大模型的 Transformer 相关优化技术沉淀为重要基建，优化后的性能比原有方案提升 5 倍以上，压缩显存 30% 以上。以文生图大模型为例，昆仑芯已跑通一条端到端优化、规模落地之路。AI 绘画模型的推理算力及显存需求随图像分辨率增大而指数级增加，同时，图像生成需要循环采样数十次，产业落地动辄需要高昂成本的部署集群，严重阻碍了 AIGC 模型大规模商业化落地。2022 年第四季度，昆仑芯联合客户，基于飞桨 PaddlePaddle 发起了端到端联合优化项目。在 2-3 周内，项目组快速完成端到端优化，最终实现输入文本后 2 秒出图的优化效果，性能提升近 8 倍。目前，昆仑芯 AI 加速卡 R200 已在该客户的大模型场景完成规模部署，性能数据全面超越同系列主流推理卡，基于昆仑芯 AI 加速卡 R200 高效运算与推理能力，综合优化方案，在 dpm-25steps 算法下，利用昆仑芯 AI 加速卡 R200，生成 1024*1024 图像时的推理速度为 10.89 iters/s，相比同能力的主流推理卡快 20%；昆仑芯 AI 加速卡 R200 拥有 32G GDDR6 显存，为大规模参数提供更大的存储容量、更高带宽的内存访问、更稳定的性能，生成更高分辨率的图片，为用户提供高性价比服务。

2.3 平台

百度飞桨是我国首个自主研发的产业级深度学习开源开放平台，飞桨在平台功能上具备丰富的产业级模型库、端到端开发套件、工具组件，以及零门槛 AI 开发平台 EasyDL 和全功能 AI 开发平台 BML、学习与实训社区 AI Studio，高效支持深度学习模型开发、训练、部署等全流程，降低 AI 技术应用门槛；在生态上，飞桨推动构建了全方位的生态体系，包括开发者生态、教育生态、企业生态、硬件生态，通过生态共享共创加速产学研用协同创新发展。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

飞桨官方精选产业算法新增 100 多个，累计超过 600 个，覆盖计算机视觉(PaddleCV)、自然语言处理 (PaddleNLP)、推荐(PaddleRec)、语音(PaddleSpeech)四大应用领域，超过 95%的用户使用模型库。包含经过产业实践长期打磨的主流模型，42 个精度与性能平衡的产业级 PP 系列特色模型，以及文心系列大模型。

飞桨硬件生态持续繁荣，包括 Intel、NVIDIA、Arm 等诸多芯片厂商纷纷开展对飞桨的支持，并主动在开源社区为飞桨贡献代码。飞桨还与飞腾、海光、鲲鹏、龙芯、申威等 CPU 进行深入融合适配，并结合麒麟、统信、普华操作系统，以及昆仑芯、海光、寒武纪、瑞芯微、算能、高通、Graphcore、Ambarella 等 AI 芯片深度融合，与浪潮、中科曙光等服务器厂商合作形成软硬一体的全栈 AI 基础设施。当前已经适配飞桨的芯片或 IP 厂商超过 40 家，处于业界领先地位。2022 年 5 月，飞桨联合硬件生态伙伴发布“硬件生态共创计划”，在联合研发、资源共享、联合授权、培训赋能等多个维度全面合作。2022 年 11 月，飞桨“硬件生态共创计划”成员已经从 13 家增加至 28 家。

飞桨平台服务规模快速渗透，技术能力创新卓著。截至 2022 年 11 月，飞桨已凝聚国内规模最大的开发者群体（535 万）、服务 20 万企事业单位，基于飞桨平台创造出 67 万个 AI 模型，超越 TensorFlow 和 PyTorch 成为国内服务规模最为广泛的框架工具，不断夯实 AI 工业大生产的基础，有力推动了我国实体经济的高质量发展。百度飞桨从 2016 年经历多年积累、沉淀、探索后，创新成果已经逐步涌现。飞桨 PaddleClas、PaddleDetection、 PaddleGAN、PaddleOCR、PaddleSpeech 等开发套件发布后多次登顶 Papers with Code 和 Github 趋势榜单，引起业界高度关注。此外，针对国内市场需求特点，飞桨提供了大量经过真实应用场景有效验证的高精度、便捷部署的官方模型库，相关算法及 API 更加强调对中文情境的支持优化，能够广泛支持国产硬件平台，技术能力优势逐步凸显，相较于 TensorFlow 和 PyTorch 成为更满足国内技术应用需求的开发框架。

2.4 应用

百度文心大模型积极拓展内外部应用，目前面向公众和企业用户同时进行开放测试。内部应用层面，文心大模型已经率先应用于百度搜索、信息流、智能驾驶、百度地图、小度智能屏等内部重要产品上。百度在 5 月 25 日的移动生态大会上展示了全新的 AI 搜索体系。1）极致满足：搜索结果不再是简单的文本段落，而是多模态的，包括相关的图片和视频，省去了用户的浏览和总结时间。对于那些相对简单但没有现成答案的问题，AI 可以展示逻辑推理和计算能力，直接给出可用的结果。对于开放的多答案问题，百度 AI 搜索可以整合多个符合要求的答案，并列出引用和选择依据，满足用户需求。此外，搜索引擎还能自动定位到视频中相关内容的位置，方便用户查看。根据介绍，现在百度搜索每天有 70%的问答需求能在首条搜索结果中得到满足，这一比例在半年前只有 40%，这种改进进一步提升了需求，现在每天有超过 3000 万次的新增问答需求。2）AI 伙伴：除了提供丰富准确的搜索结果，百度还提出了全能的"AI 伙伴"，使人们能够以最直接的方式获取人工智能的能力。通过 AI 伙伴，人们可以使用自然语言或语音作为输入，获得准确详细的搜索结果。 AI 伙伴不仅会在生成答案时标出重点并列出引用链接，还能调用其他工具和服务完成任务，并接受进一步追问或指正。AI 伙伴还可以根据用户意图生成图片、进行文案写作，在不同任务中扮演具体的角色，如旅行时可以充当导游，写作业时可以充当老师。3）AIBOT：以往人们对搜索引擎结果的准确性有所顾虑，因为无论 AI 算法有多准确，始终只是概率统计的结果，并不能代表专家意见。为解决这个问题，百度推出了全新的 AIBOT。类似于 ChatGPT 的插件，AIBOT 通过与第三方技术提供商的合作，使搜索可以自动接入特定能力。目前亮相的 AIBOT 覆盖了创作、商业、机构、服务和品牌等多个领域，它们可以利用专业领域知识直接回答用户的问题。

百度文心围绕大模型产业应用的不同研发环节，面向各阶段不同技术、业务背景的开发者或用户，打造系列工具平台与场景化产品。大模型套件：百度文心推出新一代预训练范式的 NLP 算法定制开发工具集 ERNIEKit，面向 NLP 工程师，提供全流程大模型开发与部署工具集，端到端、全方位发挥大模型效能。包括数据标注与处理、大模型精调、大模型压缩、高性能部署、场景化工具五大模块能力； AI 开发平台：百度 AI 开发以双平台模式驱动，面向应用开发者或业务专家提供零门槛 AI 开放平台 EasyDL，面向 AI 算法开发者提供全功能 AI 开发平台 BML。EasyDL 使用百度文心 NLP、CV、跨模态大模型作为训练基座，利用少量数据即可获得理想的模型效果，具有零门槛、高精度、低成本数据、超灵活部署四大核心优势。 BML 深度融合文心大模型，提供 Notebook 建模、预置模型调参、可视化建模、模型产线建模、Pipeline 建模、实验管理等功能，兼具性能和性价比；

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

3、腾讯

腾讯构建了“太极机器学习平台+混元大模型”，同时腾讯启动了“混元助手”知识增强大语言模型项目。 2016 年，腾讯成立了 AI Lab 实验室。2022 年 4 月，腾讯对外披露了混元大模型，涉及自然语言处理、计算机视觉、多模态等多个领域。腾讯自研的太极机器学习平台为混元大模型提供算力，可支持 10TB 级模型训练、 TB 级模型推理计算能力等。腾讯 AI Lab 是腾讯的企业级 AI 实验室，于 2016 年 4 月在深圳成立，目前有 100 多位顶尖研究科学家及 300 多位应用工程师。2017 年公司提出了“Make AI Everywhere” 的战略愿景，和“基础研究—场景共建—能力开放”的三层 AI 战略架构。作为衡量机构研究实力的重要标准，成立四年多来，腾讯 AI Lab 的基础研究成果已覆盖 CVPR、ACL、ICML、NIPS 及 Nature Communications 等国际顶级 AI 学术会议或期刊，发表论文超过 460 篇，位居国内企业前列。截止 2020 年 3 月，腾讯拥有 AI 全球专利超过 6500 个，中国专利超过 5000 个。

3.1 模型

2022 年 4 月，腾讯首次披露了混元 AI 大模型研发进展，先后在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 ActivityNet 五大最具权威的跨模态视频检索数据集榜单中取得第一名，实现跨模态检索领域的大满贯。当月，腾讯混元 AI 大模型又在中文语言理解评测基准 CLUE 分类榜中取得第一名，分数突破了 80.000 分，接近人类语言理解能力，刷新该榜单历史记录。这是混元 AI 大模型在斩获跨模态检索榜单大满贯后，取得的又一突破性进展，展现了该模型在自然语言处理上的实力。 2022 年 5 月，腾讯混元 AI 大模型在 CLUE 总排行榜、阅读理解、大规模知识图谱三个榜单同时登顶，一举打破三项纪录。据了解，CLUE 总榜由分类任务和阅读理解任务构成。腾讯混元 AI 大模型在一个月内先后实现分类任务、阅读理解双佳绩，最终以 84.730 的成绩取得总榜第一。之后混元 AI 大模型又在多模态理解领域国际权威榜单 VCR（Visual Commonsense Reasoning，视觉常识推理）中登顶，两个单项成绩和总成绩均位列第一。这是继在跨模态检索领域实现大满贯、CLUE 自然语言理解分类榜及 CLUE 总榜登顶后，混元 AI 大模型的又一重大突破，展现了其在多模态理解领域的强大实力。

互联网行业专题报告：逐浪大模型，互联网巨头的AI野望

3.2 算力

腾讯发布大模型算力集群 HCC 大幅提速模型训练。大模型进入万亿参数时代，单体服务器提供的算力有限，需要将大量服务器相连，协同优化单机算力、网络架构和存储性能，打造大规模、分布式的高性能计算集群。以新一代集群为标志，基于自研芯片、星星海自研服务器和分布式云操作系统遨驰，腾讯云正通过软硬一体的方式，打造面向 AIGC 的高性能智算网络，持续加速全社会云上创新。 2023 年 4 月 14 日，腾讯云发布新一代 HCC 高性能计算集群，其采用最新一代星星海自研服务器，搭载 NVIDIA H800 Tensor Core GPU，并基于自研网络、存储架构，带来 3.2T 超高互联带宽 TB 级吞吐能力和千万级 IOPS。实测结果显示新一代集群算力性能较前代提升 3 倍。2022 年 10 月，腾讯完成首个万亿参数的 AI 大模型——混元 NLP 大模型训练。在同等数据集下，将训练时间由 50 天缩短到 11 天。如果基于新一代集群，训练时间将进一步缩短至 4 天。服务器单机性能是集群算力的基础，新一代集群的单 GPU 卡在不同精度下，支持输出最高 1979 TFlops 的算力。针对大模型场景，星星海自研服务器采用 6U 超高密度设计，相较行业可支持的上架密度提高 30%；利用并行计算理念，通过 CPU 和 GPU 节点的一体化设计，将单点算力性能提升至更高。

此外，新一代集群集成了腾讯云自研的 TACO 训练加速引擎，对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化，大幅节约训练调优和算力成本。腾讯太极机器学习平台自研的训练框架 AngelPTM，也已通过腾讯云 TACO 提供服务，帮助企业加速大模型落地。依托分布式云原生的治