Skip to content

Commit

Permalink
Merge pull request #116 from 0-yy-0/up614
Browse files Browse the repository at this point in the history
[C1]更新链接;更新 GPT4-o、LLaMA3、Qwen2、GLM4 相关信息
  • Loading branch information
0-yy-0 authored Jun 14, 2024
2 parents a3162cd + eb22fcb commit b35894b
Show file tree
Hide file tree
Showing 4 changed files with 55 additions and 41 deletions.
46 changes: 26 additions & 20 deletions docs/C1/1.大语言模型 LLM 理论简介.md
Original file line number Diff line number Diff line change
Expand Up @@ -38,6 +38,8 @@ LLM 通常指包含**数百亿(或更多)参数的语言模型**,它们在

##### 1.3.1.1 GPT 系列

> [OpenAI 模型介绍](https://platform.openai.com/docs/models)
**OpenAI** 公司在 `2018 年`提出的 **GPT(Generative Pre-Training)** 模型是典型的 `生成式预训练语言模型` 之一。

GPT 模型的基本原则是**通过语言建模将世界知识压缩到仅解码器 (decoder-only) 的 Transformer 模型中**,这样它就可以恢复(或记忆)世界知识的语义,并充当通用任务求解器。它能够成功的两个关键点:
Expand Down Expand Up @@ -73,15 +75,18 @@ ChatGPT 从本质上来说是一个 LLM 应用,是基于基座模型开发出
GPT3.5 是免费的,而 GPT-4 是收费的。需要开通 plus 会员 20 美元/月。

`2024 年 5 月 14 日`,新一代旗舰生成模型 **GPT-4o** 正式发布。GPT-4o 具备了对文本、语音、图像三种模态的深度理解能力,反应迅速且富有情感色彩,极具人性化。而且 GPT-4o 是完全免费的,虽然每天的免费使用次数是有限的。

通常我们可以调用模型 API 来开发自己的应用,主流模型 [API 对比](https://openai.com/pricing)如下:

| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) | 知识截止日期 |
| :--------------------: | :--------: | :--------------: | :--------------------------: | :-----------------------: | :-----------: |
| GPT-3.5-turbo-0125 | 16k | 经济,专门对话 | 0.5 | 1.5 | 2021 年 9 月 |
| GPT-3.5-turbo-instruct | 4k | 指令模型 | 1.5 | 2 | 2021 年 9 月 |
| GPT-4 | 8k | 性能更强 | 30 | 60 | 2021 年 9 月 |
| GPT-4-32k | 32k | 性能强,长上下文 | 60 | 120 | 2021 年 9 月 |
| GPT-4-turbo | 128k | 性能最强 | 10 | 30 | 2023 年 12 月 |
| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) | 知识截止日期 |
| :--------------------: | :--------: | :----------------: | :--------------------------: | :-----------------------: | :-----------: |
| GPT-3.5-turbo-0125 | 16k | 经济,专门对话 | 0.5 | 1.5 | 2021 年 9 月 |
| GPT-3.5-turbo-instruct | 4k | 指令模型 | 1.5 | 2 | 2021 年 9 月 |
| GPT-4 | 8k | 性能更强 | 30 | 60 | 2021 年 9 月 |
| GPT-4-32k | 32k | 性能强,长上下文 | 60 | 120 | 2021 年 9 月 |
| GPT-4-turbo | 128k | 性能更强 | 10 | 30 | 2023 年 12 月 |
| GPT-4o | 128k | 性能最强,速度更快 | 5 | 15 | 2023 年 10 月 |

| Embedding 模型名称 | 维度 | 特点 | 费用($/ 1M tokens) |
| :--------------------: | :-----------: | :--: | :----------------: |
Expand Down Expand Up @@ -160,31 +165,33 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3
> [LLaMA 开源地址](https://github.com/facebookresearch/llama)
**LLaMA 系列模型****Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LLaMA 于`2023 年 2 月`发布,并于 `20237 月`发布了 **LLaMA2** 模型。它们都是在数万亿个字符上训练的,展示了如何**仅使用公开可用的数据集来训练最先进的模型**,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行****流水线并行**技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。
**LLaMA 系列模型**是 **Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LLaMA 于`2023 年 2 月`发布,2023 年 7 月发布了 LLaMA2 模型,并于 `20244 月 18 日`发布了 **LLaMA3** 模型。它们都是在数万亿个字符上训练的,展示了如何**仅使用公开可用的数据集来训练最先进的模型**,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行**和**流水线并行**技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。

与 GPT 系列相同,LLaMA 模型也采用了 **decoder-only** 架构,同时结合了一些前人工作的改进:

- `Pre-normalization 正则化`:为了提高训练稳定性,LLaMA 对每个 Transformer 子层的输入进行了 RMSNorm 归一化,这种归一化方法可以避免梯度爆炸和消失的问题,提高模型的收敛速度和性能;
- `SwiGLU 激活函数`:将 ReLU 非线性替换为 SwiGLU 激活函数,增加网络的表达能力和非线性,同时减少参数量和计算量;
- `旋转位置编码(RoPE,Rotary Position Embedding)`:模型的输入不再使用位置编码,而是在网络的每一层添加了位置编码,RoPE 位置编码可以有效地捕捉输入序列中的相对位置信息,并且具有更好的泛化能力。

**LLaMA2** 在 LLaMA 系列模型的基础上进行了改进,提高了模型的性能和效率:
**LLaMA3** 在 LLaMA 系列模型的基础上进行了改进,提高了模型的性能和效率:

- `更多的训练数据量`:LLaMA3 在 15 万亿个 token 的数据上进行预训练,相比 LLaMA2 的训练数据量增加了 7 倍,且代码数据增加了 4 倍。LLaMA3 能够接触到更多的文本信息,从而提高了其理解和生成文本的能力。

- `更多的训练数据量`LLaMA2 在 2 万亿个 token 的数据上进行预训练,相比 LLaMA1 的训练数据量增加了 40%。LLaMA2 能够接触到更多的文本信息,从而提高了其理解和生成文本的能力
- `更长的上下文长度`:LLaMA3 的上下文长度增加了一倍,从 LLaMA2 的 4096 个 token 增加到了 8192。这使得 LLaMA3 能够处理更长的文本序列,改善了对长文本的理解和生成能力

- `更长的上下文长度`LLaMA2 的上下文长度增加了一倍,从 LLaMA1 的 2048 个 token 增加到了 4096。这使得 LLaMA2 能够处理更长的文本序列,改善了对长文本的理解和生成能力
- `分组查询注意力(GQA,Grouped-Query Attention)`:通过将查询(query)分组并在组内共享键(key)和值(value),减少了计算量,同时保持了模型性能,提高了大型模型的推理效率(LLaMA2 只有 70B 采用)

- `分组查询注意力(GQA,Grouped-Query Attention)`:通过将查询(query)分组并在组内共享键(key)和值(value),减少了计算量,同时保持了模型性能,提高了大型模型的推理效率
- `更大的词表`:LLaMA3 升级为了 128K 的 tokenizer,是前两代 32K 的 4 倍,这使得其语义编码能力得到了极大的增强,从而显著提升了模型的性能

##### 1.3.2.2 通义千问

> [通义千问使用地址](https://tongyi.aliyun.com)
> [通义千问开源地址](https://github.com/QwenLM/Qwen1.5)
> [通义千问开源地址](https://github.com/QwenLM/Qwen2)
**通义千问由阿里巴巴基于“通义”大模型研发**,于 `2023 年 4 月`正式发布。2023 年 9 月,阿里云开源了 Qwen(通义千问)系列工作。并于 `2024 年 2 月 5 日`,开源了 **Qwen1.5**(Qwen2 的测试版)是一个 **decoder-Only** 的模型,采用 `SwiGLU 激活``RoPE``multi-head attention`的架构。中文能力相对来说非常不错的闭源模型
**通义千问由阿里巴巴基于“通义”大模型研发**,于 `2023 年 4 月`正式发布。2023 年 9 月,阿里云开源了 Qwen(通义千问)系列工作。2024 年 2 月 5 日,开源了 **Qwen1.5**(Qwen2 的测试版)。并于 `2024 年 6 月 6 日`正式开源了 **Qwen2**。 Qwen2 是一个 **decoder-Only** 的模型,采用 `SwiGLU 激活``RoPE``GQA`的架构。中文能力相对来说非常不错的开源模型

目前,已经开源了 7 种模型大小:**0.5B、1.8B、4B、7B、14B 、72B 的 Dense 模型和 14B (A2.7B)的 MoE 模型**;所有模型均支持长度为 **32768 token** 的上下文
目前,已经开源了 5 种模型大小:**0.5B、1.5B、7B、72B 的 Dense 模型和 57B (A14B)的 MoE 模型**;所有模型均支持长度为 **32768 token** 的上下文。并将 Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 的上下文长度扩展至 **128K token**

以下是通义千问的使用界面:
![通义千问界面](../figures/C1-1-qwen.png)
Expand All @@ -193,16 +200,15 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3

> [ChatGLM 使用地址](https://chatglm.cn/)
> [ChatGLM 开源地址](https://github.com/THUDM)
> [ChatGLM 开源地址](https://github.com/THUDM/GLM-4)
**GLM 系列模型****清华大学和智谱 AI 等**合作研发的语言大模型。2023 年 3 月 发布了 **ChatGLM**2023 年 6 月发布了 **ChatGLM 2**2023 年 10 月推出了 **ChatGLM3**
**GLM 系列模型****清华大学和智谱 AI 等**合作研发的语言大模型。2023 年 3 月 发布了 **ChatGLM**。6 月发布了 **ChatGLM 2**。10 月推出了 **ChatGLM3**。2024 年 1 月 16 日 发布了 **GLM4**,并于 `2024 年 6 月 6 日`正式开源

**ChatGLM3-6B** 支持正常的多轮对话的同时,原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景
**GLM-4-9B-Chat** 支持多轮对话的同时,还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 **128K** 上下文)等功能

开源了`对话模型` **ChatGLM3-6B**`基础模型` **ChatGLM3-6B-Base**`长文本对话模型` **ChatGLM3-6B-32K**`多模态` **CogVLM-17B** 、以及 `智能体` **AgentLM** 等全面对标 OpenAI:
开源了`对话模型` **GLM-4-9B-Chat**`基础模型` **GLM-4-9B**`长文本对话模型` **GLM-4-9B-Chat-1M**(支持 1M 上下文长度)、`多模态模型`**GLM-4V-9B** 等全面对标 OpenAI:

![chatglm VS openai](../figures/C1-1-chatglm_vs_openai.png)
`2024 年 1 月 16 日` 发布了 **ChatGLM4**,但**目前还没有开源**

以下是智谱清言的使用界面:

Expand Down
2 changes: 1 addition & 1 deletion docs/C1/5.阿里云服务器的基本使用.md
Original file line number Diff line number Diff line change
Expand Up @@ -12,7 +12,7 @@

### 2.2. 高校学生计划申请

申请链接:https://university.aliyun.com/
申请链接:https://university.aliyun.com/mobile?clubTaskBiz=subTask..11337012..10212..&userCode=1h9ofupt

1.权益一:通过学生认证的中国高校学生,可领取 300 元无门槛优惠券。

Expand Down
Loading

0 comments on commit b35894b

Please sign in to comment.