LLM - ChatGPT

Created2024-06-25|AILLM

|Word Count:1.4k|Reading Time:4mins

Timeline

OpenAI 在 NLP 领域取得了突破性进展
ChatGPT 背后包含了一系列的资源整合 - 技术、资源、大厂背书、国际巨头的通力合作 - 工程 + 产品

NLP

Transformer

基于 Transformer 架构的语言模型大体可分为两类

以 BERT 为代表的掩码语言模型 - Masked Language Model - MLM
以 GPT 为代表的自回归语言模型 - Autoregressive Language Mode - ALM

OpenAI

创造造福全人类的安全通用人工智能 - Artificial general intelligence - AGI
创立之初就摒弃了传统 AI 模型标注式的训练方式
- 可用来标注的数据总是有限的，而且很难做得非常通用

Autoregressive

基于自回归的无监督训练

BERT 由 Google 发布，非常权威，GPT 早期压力巨大 - GPT-2 引入了 zero-shot
按照人类语言的习惯，语言本身是有先后顺序的，下文依赖上文
- 自回归语言模型代表了标准的语言模型 - 利用上文信息预测下文
- 比传统 AI 预测更加复杂，但上限更高，有望通向 AGI
在 GPT-1 和 GPT-2 的探索中没有取得压倒性的效果
- 但验证了标准语言模型在 zero-shot 等当面的潜在能力
无监督自回归的训练方式，使 GPT 模型可以接受大量文本数据
- GPT-3 的参数规模为 1750 亿，使用了大约 45 TB 的文本数据，一次训练费用为 460 万美元
GPT-3 还不具备直接和人类对话的能力，而 ChatGPT 所使用的模型为 GPT-3.5

Alignment

与人类意识对齐

GPT-3 和 GPT-3.5 是不同的系列
GPT-3 经过充分训练，但依然不是一个适合与人类进行对话的模型
从 GPT-3 到 GPT-3.5 再到 InstructGPT 和 ChatGPT，参数规模并没有太大变化，主要是经历了各种技术的微调
- 适配人类场景 - RLHF - Reinforcement Learning From Human Feedback

Emergent Ability

突现能力 - 大语言模型展现出来的特有的强大能力 - 复杂推理 + 思维链 - NLP 领域所追求

问题：小明每天早饭吃2个馒头，他一个月会吃掉多少包馒头？

一个月按30天说，共吃掉60个馒头，每包5个馒头的话，总共12包。

答案：12

语言和数学混在一起，在早期 GPT-3 模型上进行类型的推理，准确率低于 40%
后来在 code-davinci-002 上进行推理，准确率能达到 80%
- code-davinci-002 在模型规模上并没有扩大，而是基于代码进行训练的
- 这些突现能力是大模型经过大量代码训练后展现出来的能力
- 代码训练和思维链及复杂推理有很强的相关性 - 暂无确定证据

小结

模型并非越大越好
- GPT-3 的参数规模为 1750 亿
- 微软与英伟达联合开发的 Megatron-Turing 模型拥有超过 5000 个参数
  - 但在性能方面却不是最好的，因为模型未经过充分训练
RLHF 并不是最早用在 GPT 上，而且在恰当的时机用到了 ChatGPT 上
只有 codex 使用了大量代码进行训练

自回归语言模型 + 充分无监督训练 + 大量代码训练 + 有监督指令微调 + RLHF

超大规模预训练

超过 40T 的文本数据，大模型训练 首先需要高质量的数据集

数据集

GPT-3

基础模型 GPT-3 具有 1750 亿个参数，训练数据集大约 500B 个 Token

原始大约 45T 的纯文本数据，经过过滤后，大概是 750G 的高质量文本数据

ChatGPT

ChatGPT 属于 GPT-3.5 系列
大概率上，ChatGPT 的参数规模要小于 GPT-3，其训练数据基于大量对话型数据进行指令微调
- 典型数据集 - Persona-Chat 的数据集、康奈尔电影对话语料库、Ubuntu 对话语料库、DailyDialog
- 互联网上大量非结构化数据的训练 - 网站、书籍、其它文本源
  - ChatGPT 能够从更一般的意义上了解语言的结构和模式，然后可以针对对话管理或者情感分析等特定应用进行微调

训练成本

GPT-3 的单次训练成本高达 460 万美元，为了找钱，OpenAI 从开源转为了闭源
早期的 OpenAI 是开源的，创办宗旨为创建通用人工智能
为了引入资金，OpenAI 从开源转为闭源，设计了一种商业模式来吸引投资人，最主要为微软

OpenAI 的母公司为 OpenAI Inc - 为非营利性组织
后来成立一家子公司，OpenAI LP，即常说的 OpenAI - 为一家纯粹的商业化公司，设置了最高 100 倍的回报上限

产品化

ChatGPT 在真正产品化后愿意公开免费给普通用户使用
大部分的 AI 厂家只发布模型，技术人员去 Huggingface 下载然后部署，但这样会将模型限制在一个非常小的范围
ChatGPT 发布的是普通大众用户都可以使用的产品（使用门槛非常低） - 邮箱注册 + 全天候不限时 + 网页对话

优点

适用场景多
- 代码编写、代码翻译、智能问答、语言识别等
使用效果好
- 微软小冰由小模型组成，只能同时处理特定类型的任务，无法相互关联，此类产品无法做通用性回答
- ChatGPT 像真人在回答，甚至有记忆和感情
工程化应用
- ChatGPT 是以大模型为内核的整套技术完成了产品化 - 两个月注册用户过亿的世界级产品

Author: zhongmingmao

Link: https://blog.zhongmingmao.top/2024/06/25/llm-chatgpt/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Related Articles

Knowledge Graph 知识图谱也称为语义网络，表示现实世界实体的网络，并说明它们之间的关系信息通常存储在图形数据库中，并以图形结构直观呈现知识图谱由三部分组成 - 节点 + 边 + 标签 Why 降噪 + 提召 + 提准传统 RAG 中的 Chunking 方式会召回一些噪音的 Chunk 引入 KG，可以通过实体层级特征来增强相关性传统 RAG 中的 Chunk 之间是彼此孤立的，缺乏关联，在跨文档回答任务上表现不太好引入 KG，增强 Chunk 之间的关联，并提升召回的相关性假设已有 KG 数据存在，可以将 KG 作为一路召回信息源，补充上下文信息 Chunk 之间形成的 KG，可以提供 Graph 视角的 Embedding，来补充召回特征构建一个高质量、灵活更新、计算简单的大规模图谱的代价很高 - RAG 会很慢 https://hub.baai.ac.cn/view/30017 https://hub.baai.ac.cn/view/33147 https://hub.baai.ac.cn/view/33390 https://hub.baa...

Prompt 是否充分使用好 AI 大模型，提示是关键 OpenAI question / answer prompt / completion - 给 LLM 一个提示，让 LLM 进行补全 LLM 训练原理 GPT 系列模型基于 Transformer 架构的解码器机制，使用自回归无监督方式进行预训练训练过程 - 大量的文本输入，不断进行记忆相比于监督学习，训练效率更低，但训练过程简单，可以喂大量的文本语料，上限比较高 completion 根据训练过的记忆，一个字一个字地计算概率，取概率最大的那个字进行输出因此有人吐槽 LLM 输出很慢 - 逐字计算并输出 Prompt Engineering 需求描述越详细越准确，LLM 输出的内容就越符合要求 Prompt Engineering 是一门专门研究与 LLM 交互的新型学科通过不断地开发和优化，帮助用户更好地了解 LLM 的能力和局限性探讨如何设计出最佳提示，用于指导 LLM 帮助我们高效完成某项任务不仅仅是设计和研发提示，还包含了与 LLM 交互的各种技能和技术在实现与 LLM 交互、...

LLM Core - Machine Learning Algorithm

线性回归概述线性回归是一种预测分析技术，用于研究两个或者多个变量之间的关系尝试用一条直线（二维）或者一个平面（三维）的去拟合数据点这条直线或者平面，可以用来预测或者估计一个变量基于另一个变量的值数学假设有一个因变量 y 和一个自变量 x 线性回归会尝试找到一条直线 y=ax+b a 为斜率，而 b 为截距以便这条直线尽可能地接近所有数据点 $$y=ax+b$$ sklearn 房价预测 - 房价是因变量 y，而房屋面积是自变量 x 12345678910111213141516171819202122232425import matplotlib.pyplot as pltimport numpy as npfrom sklearn.linear_model import LinearRegression# 定义数据X = np.array([35, 45, 40, 60, 65]).reshape(-1, 1) # 面积y = np.array([30, 40, 35, 60, 65]) # 价格# 创建并拟合模型model = LinearRegre...

RAG - In Action

技术选型LangChain LangChain 是专门为开发基于 LLM 应用而设计的全面框架 LangChain 的核心目标是简化开发者的构建流程，使其能够高效地创建 LLM 驱动的应用索引文档解析 pypdf 专门用于处理 PDF 文档 pypdf 支持 PDF 文档的创建、读取、编辑和转换，能够有效地提取和处理文本、图像及页面内容文档分块 RecursiveCharacterTextSplitter 是 LangChain 默认的文本分割器 RecursiveCharacterTextSplitter 通过层次化的分隔符（从双换行符到单字符）拆分文本旨在保持文本的结构和连贯性，优先考虑自然边界（如段落和句子）索引 + 检索向量化模型 bge-small-zh-v1.5 是由北京智源人工智能研究院（BAAI）开发的开源向量模型 bge-small-zh-v1.5 的模型体积较小，但仍能提供高精度和高效的中文向量检索 bge-small-zh-v1.5 的向量维度为 512，最大输入长度同样为 512 向量库 Faiss - Facebook AI Similarity Sea...

基础 NLP 的研究目的是让计算机能够理解、解释和生成人类语言，一般包含 4 个步骤 Step Desc 文本预处理将原始文本转换成机器容易理解的格式分词（单词或短语）、去除停用词、词干提取、词性标注等特征提取从处理过的文本中提取特征，以便用于机器学习模型将文本转换成数值形式 - 向量化 - 词袋模型 or 词嵌入模型训练使用提取到的特征和相应的机器学习算法来训练模型分类器、回归模型、聚类算法等评估与应用评估模型的性能，并在实际应用中使用模型来解释、生成或翻译文本应用场景 - 搜索引擎 / 语音转换 / 文本翻译 / 系统问答 ML vs NLP Scope Desc ML 让计算机通过查看大量的例子来学习如何完成任务 NLP 教会计算机理解和使用人类语言 ML + NLP 用机器学习的技术来让计算机学习如何处理和理解语言文本预处理将原始文本转换成易于机器理解和处理的格式文本清洗去除噪音（对分析无关紧要的部分）及标准化文本 123456789101112131415161718impor...

RAG - Data Processing

数据存储 LLM 变成生产力，有两个制约因素 - 交互过程中的长文本 + 内容的实时更新在传统的应用开发中，数据存储在数据库中，保留了应用的全部记忆在 AI 时代，向量数据库充当了这一角色在 RAG 系统中，数据被转换为高维向量形式，使得语言模型能够进行高效的语义相似度计算和检索在向量数据库中，查找变成了计算每条记录的向量近似度，然后按照分值倒序返回结果 RAG 就如何存储向量的方法论，根据不同的实现策略，衍生出了不同的 RAG 技术利用图结构表示和检索知识的 GraphRAG 结合知识图谱增强生成能力的 KG-RAG - Knowledge Graph Augmented Generation AI 应用的数据建模强调的是数据的语义表示和关联，以支持更灵活的查询和推理高质量的数据处理，不仅影响检索的准确性，还直接决定了 LLM 生成内容的质量和可靠性 Embedding 将所有内容转成文本 + 额外数据（用来关联数据）选择一个 Embedding 模型，把文本转成向量，并存储到向量数据库中厂商 LLM Embedding 国产百度文心一言 Embeddi...