大模型(Foundation Models)综述

大模型的定义

“大模型”通常是指参数数量庞大、计算资源要求高的机器学习模型。这些模型通常具有大量的参数,通过训练过程来学习数据的特征和模式,以实现各种任务,如自然语言处理、计算机视觉、推荐系统等。大模型的典型例子包括深度神经网络(如深度学习模型)、大型树模型(如梯度提升树)、大规模线性模型等。

以下是大模型的一些特点:

  1. 参数数量庞大:大模型通常包含数百万到数十亿个参数,这些参数用于捕获输入数据的复杂关系和模式。
  2. 计算资源要求高:由于参数数量众多,训练大模型通常需要大量的计算资源,包括高性能的GPU、TPU(谷歌(Google)开发的一种专用于机器学习加速的处理器)等硬件设备。
  3. 复杂的结构:大模型往往具有复杂的网络结构或模型结构,包括多层神经网络、多个隐藏层、大规模的树结构等。
  4. 高度的泛化能力:由于拥有庞大的参数空间,大模型通常具有较强的泛化能力,能够在广泛的任务和数据集上表现良好。
  5. 需要大规模的训练数据:为了训练大模型,通常需要大规模的训练数据集,以确保模型能够学习到充分的特征和模式。

大模型在各种领域和任务中都有广泛的应用,但由于其训练和部署成本较高,因此在实际应用中通常需要权衡资源投入和性能需求。

大模型分类

大模型通常可以根据其应用领域、结构和参数规模等不同方面进行分类。以下是一些常见的大模型分类方法:

  1. 按应用领域分类
    • 自然语言处理(NLP)模型:专门设计用于处理文本数据的大型模型,如BERT、GPT等。
    • 计算机视觉(CV)模型:针对图像和视频数据的大型模型,如ResNet、Inception等。
    • 语音识别模型:针对语音数据的大型模型,如DeepSpeech等。
  2. 按结构分类
    • 深度神经网络(DNN):由多个神经网络层组成的大型模型,如多层感知器(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)等。
    • 转换器(Transformer)模型:采用自注意力机制的大型模型,适用于处理序列数据,如BERT、GPT等。
    • 图神经网络(GNN)模型:用于处理图结构数据的大型模型,如GraphSAGE、GCN等。
  3. 按参数规模分类
    • 大型模型:具有数十亿到数百亿个参数的模型,通常需要大规模的计算资源进行训练和推理。
    • 超大型模型:具有数百亿到数千亿个参数的模型,通常需要更多的计算资源和分布式训练策略。
    • 极端大型模型:具有数千亿甚至万亿个参数的模型,是目前领先的研究和工业应用中的顶尖模型。
  4. 按训练策略分类
    • 单一模型:由单个模型组成的大型模型,一次训练单个模型。
    • 模型集成:通过集成多个不同的模型来构建大型模型,例如深度集成、投票集成等。
  5. 按任务分类
    • 通用模型:适用于多种不同的任务和数据集的大型模型,如BERT、GPT等。
    • 专用模型:针对特定任务或领域进行定制的大型模型,如医疗影像分析模型、金融风控模型等。

这些分类方法可以帮助理解和区分不同类型的大模型,以及它们在不同领域和任务中的应用情况。

根据场景不同,大部分大模型公司把大模型分为大语言模型、计算机视觉(包含图像和视频)、音频、多模态大模型四大类。

大语言模型

大语言模型,顾名思义,专门用来处理自然语言的模型,有的公司分类标签中,直接把大语言模型等同于NLP(Natural Language Model)。

多模态

多模态很容易理解,就是文、图、视频、音频之间相互转换。下图中仅仅列出一些有代表性的多模态大模型,例如经典双塔模型CLIP(BERT+ViT),ALBEF—将BERT的6层网络拿出来做文本和图像的编码融合。