readme

机器学习

image.png|550

前沿一些【授权】李宏毅2023春机器学习课程

ML 2023 春季 (ntu.edu.tw)

如果想找开源模型，可以去 Hugging Face 上去找。

在 Colab 上跑程序

一个句子先通过 Tokenization 将句子切分成 Token，每个 Token 对应一个 id

首先与 Embedding Table 交互，它是一个矩阵，矩阵的 row 对应到每一个 Token，column 对应每一个 Token 要转成对应的向量，一个 embedding 有多少个 dimension （这里向量就是 embedding）

Embedding Table 要做的事是输入是一排 ID，每一个 ID 会去查它在 Embedding Table 里面对应的位置。Embedding Table 的 row 个数就是 Vocabulary 的 size

embedding 的所有行组成的矩阵是模型的参数。这个矩阵就是 Embedding Table。

接下来就进入到 Layer By Layer，每个 Layer 做的事是把一排输入的向量变成另一排输入的向量，输出的向量有两种叫法 (Contextualized) Embedding、(Hiddle/Latent) Representation。会有多次 Layer。这个多个 Layer 就是 Deep Learning(深度学习) 也就是 neural network 。

Unembedding
所有的 Layer 都跑过后，得到一排向量，拿到这排的最后一个向量，假设有 K 个 column 。乘以上一个矩阵 $A_(K*V)$ 输出一个 V 维的向量 Logit。这个 V 是 Vocabulary 的 size。这个矩阵就是模型的参数名字称 LM head 。
V 维向量 Logit 通过 softmax 得到一个 Probability ，这个 Probability 总和是 1，每个元素是 0-1 的

每层 Layer 做什么事情
首先经过一个 Self-attention Layer ，能够考虑上下文就是 Self-attention Layer
需要知道一篇文章 Attention Is All You Need ，上古时期的文章，寒武纪时期的文章哈哈，在有这篇文章之前，大家以为 attention 不够强，以为 attention 必须要搭配其他处理上下文的类神经网络架构如 LSTM 来使用，这篇文章发现只有 attention 是能够单独运作的

触发 ChatGPT 监督学习示例

image.png|550