cyberyang blog
cyberyang blog
首页
关于
记录
自然语言处理
模型部署
2023年12月
基于Transformer网络的中译英翻译器
2023-12-29
0 条评论
自然语言处理
无标签
chen
本文将会逐一拆解Transformer网络,并给出代码实现,最终将应用Transformer模型完成一个文本翻译任务。Transformer网络拆解Transformer唯一难理解的地方,也是唯一涉及到了数学知识的地方就是正弦位置编码表,对于这部分的工作原理大可不比过于纠结,知道它是做什么的、会用就可以;其他地方只需要像搭积木一样摆放到合适的位置就好。缩放点积注意力虽然说Attention机...
多头交叉Attention机制的代码实现
2023-12-28
0 条评论
自然语言处理
无标签
chen
深蓝学院生成式预训练语言模型 第6章作业怎么搞在Encoder-Decoder模型中,Attention机制可以将编码器的输出和解码器的隐藏状态联系起来我们需要计算的是解码器输出对于编码器输出的注意力(代码里的编码器输出指的是RNN的output,不是最后一层hidden)对于编解码交叉注意力,我们需要将Context(Encoder输出)看成是K和V,将Decoder的输出看成是Q,再按照...
×