Transformer 解析 超级详细版

推荐学习视频

汉语自然语言处理-从零解读碾压循环神经网络的transformer模型(一)- 注意力机制-位置编码-attention is all you need_哔哩哔哩_bilibili

目录

首先下transformer和LSTM的最大区别是什么?

 1.positional \ encoding, 即位置嵌入(或位置编码); 

 2 自注意力机制

Attention Mask

 3. layernorm和残差连接.

 4.整体结构.   ​编辑​编辑


transformer是谷歌大脑在2017年底发表的论文attention is all you need中所提出的seq2seq模型. 现在已经取得了大范围的应用和扩展, 而BERT就是从transformer中衍生出来的预训练语言模型.

应用:上游应用(训练一个预训练语言模型)  下游任务 (情感分析、分类、机器翻译)

首先下transformerLSTM的最大区别是什么?

LSTM的训练是迭代的, 是一个接一个字的来, 当前这个字过完LSTM单元, 才可以进下一个字, 而transformer的训练是并行, 就是所有字是全部同时训练的, 这样就大大加快了计算效率, 

输入的时间序列关系怎么确定呢?

transformer使用了位置嵌入来理解语言的顺序, 使用自注意力机制和全连接层来进行计算

完成机器翻译的流程

句子输入进编码器  得到隐藏层输出  与start 开始符一起再输入到解码器 得到输出“为”,“为”和下一个编码器的输出隐藏层一起输入到解码器得到输出“什”  直到模型翻译结束

 

 1.positional \ encoding, 即位置嵌入(或位置编码); 

由于transformer模型没有循环神经网络的迭代操作, 所以我们必须提供每个字的位置信息给transformer, 才能识别出语言中的顺序关系

 位置嵌入的维度和字向量的维度是一样的,可以直接元素相加

奇数偶数 使用不同的编码方式, 

在时间维度(句子长度维度)产生一种独特的纹理信息使得模型能够区分出时间序列关系

 

 2 自注意力机制

 

 

 

 点积的意义:两个向量之间的相似度  越相似 点积越大

Q*KT 得到的是当前字和其他所有字的联系,第一行 c1和其他字的相关程度

然后沿列的维度做归一化softmax  让相关程度 之和变为一

当前字和其他所字的关系和为1

沿列的维度做归一化softmax之前要除以 根号dk  why?

假设 q 和 k 的组件是均值为 0 和方差为 1 的自变量。那么它们的点积 q · k = ∑dki=1 qiki 的均值为 0 和方差 dk。QK 的点积相当于放大了dk 倍,把注意力矩阵 缩放回原来的分布,还有一个原因是避免因为softmax 计算的值过大 或者过小,导致出现接近0 1 的不均匀分布

归一化后的注意力矩阵和V加权  ,让所有字的信息 融入到当前字中,让每一个字含有当前句子中所有的信息,attention机制其实使用这句话中所有字来表达句子中的一个字

Attention Mask

要给无效的区域加一个 很大的负数  偏置   似的进行 softmaix之后 无效的区域结果还是0  

 

 3. layernorm和残差连接.

 加快训练 加快收敛

 4.整体结构.   

 极大似然估计(MLE)推导与3D可视化 - 知乎

GitHub - aespresso/a_journey_into_math_of_ml: 汉语自然语言处理视频教程-开源学习资料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/610489.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

windows连接CentOS数据库或Tomcat报错,IP通的,端口正常监听

错误信息 数据库错误: ERROR 2003 (HY000): Cant connect to MySQL server on x.x.x.x (10060) Tomcat访问错误: 响应时间过长 ERR_CONNECTION_TIMED_OUT 基础排查工作 【以下以3306端口为例,对于8080端口来说操作是一样的,只需…

NM2-WRDUW施耐德电动机保护器EOCR-NM2

EOCR智能电动机保护器原产地为韩国,隶属于施耐德(韩国)电气有限公司工厂。此公司早起源于韩国三和SAMWHA株式会社,是早研发电子式电动机保护器厂家,产品涵盖过电流继电器EOCR-SS,EOCR-SE2,EOCR-AR,欠电流继电器EUCR,数…

3分钟快速了解VR全景编辑器

说到VR全景,想必大多数人都见过那种可以360旋转拖动观看的图片。虽然这种技术已经不算新鲜,如果你以为这就是VR全景的全部,那就大错特错了! 上面看到的这种形式,只能算VR全景的第一层形态。现在的VR全景已经发展成为了…

LabVIEW自动机械变速器(AMT)开发

LabVIEW自动机械变速器(AMT)开发 在现代汽车工业中,提升车辆的自动化水平和驾驶体验是一个不断追求的目标。随着技术的发展,自动机械变速器(AutomatedMechanical Transmission, AMT)凭借其较高的能效和较低…

四、VGA项目:联合精简帧+双fifo+sobel算法 实现VGA显示

前言:该项目实际上是在很多基础的小练习上合成起来的,例如涉及到uart(rs232)的数据传输、双fifo流水线操作、VGA图像显示,本次内容在此基础上又增添了sobel算法,能实现图像的边沿监测并VGA显示。 文章目录…

你写的每条SQL都是全表扫描吗

你写的每条SQL都是全表扫描吗?如果是,那MySQL可太感谢你了,每一次SQL执行都是在给MySQL上压力、上对抗。MySQL有苦难言:你不知道索引吗?你写的SQL索引都失效了不知道吗?慢查询不懂啊?建那么多索…

Xinstall助力App地推监测,实现精准效果评估

在移动互联网时代,App的推广已经成为企业营销的重要手段。然而,如何有效地监测App地推效果,一直是广告主和开发者面临的难题。幸运的是,Xinstall作为国内专业的App全渠道统计服务商,为广告主和开发者提供了一站式的解决…

【C++阅览室】C++之Vector(容器)

目录 vector的介绍 vector的使用 vector的定义 vector iterator 的使用 vector 空间增长问题 vector 增删查改 vector 迭代器失效问题。(重点) vector的介绍 1、 vector 是表示可变大小数组的序列容器,可以使用连…

java.lang.NoSuchMethodException: com.ruoyi.web.controller.test.bean.HeadTeacher

软件开发过程中使用Java反射机制时遇到了下面的问题 com.ruoyi.web.controller.test.bean.HeadTeacher4b9af9a9 com.ruoyi.web.controller.test.bean.HeadTeacher4b9af9a9java.lang.NoSuchMethodException: com.ruoyi.web.controller.test.bean.HeadTeacher.<init>(java…

英飞凌TC3xx 启动逻辑梳理(1)

目录 1.启动时序总览 2.Boot Firmware干了什么&#xff1f; 2.1 BMHD梳理 2.2 HWCFG 2.3 ABM 2.4 BMHD 无效时处理方案 2.5 HSM启动如何影响SSW启动 3.小结 在调TC3xx的板子时&#xff0c;最害怕的就是刷UCB&#xff1b;稍不注意板子就上锁&#xff0c;调试器也连不上了…

MacOS java多版本安装与管理

Home - SDKMAN! the Software Development Kit Manager # 安装sdkman curl -s "https://get.sdkman.io" | bashsource "$HOME/.sdkman/bin/sdkman-init.sh"sdk version正常出现sdkman版本号就安装成功了 # 安装java # 安装java8 sdk install java 8.0…

大数据------JavaWeb------Tomcat(完整知识点汇总)

Web服务器——Tomcat Web服务器定义 它是一个应用程序&#xff08;软件&#xff09;&#xff0c;对HTTP协议的操作进行封装&#xff0c;使得程序员不必直接对协议进行操作&#xff0c;让Web开发更便捷 Web服务器主要功能 封装HTTP协议操作&#xff0c;简化开发将Web项目部署到…

浅谈如何自我实现一个消息队列服务器(7)——编写服务器部分

文章目录 一、编写服务器代码1.1、分析一个服务器应具备的功能1.1.1、成员变量1.1.2、对外提供的接口 一、编写服务器代码 再次拿出这张图&#xff0c;前面我们已经将重要概念&#xff1a;VirtualHost、exchange、msgQueue、message、binding 都实现了&#xff0c;此时就可以开…

传统行业商家转到抖音开店怎么操作?电商的本质其实都一样

我是王路飞。 现在越来越多的传统行业商家开始转型到抖音上开店了。 不仅仅是因为现在的传统电商平台的环境、玩法、规则等&#xff0c;都对中小卖家非常苛刻&#xff0c;尤其是没有团队自己单干的&#xff0c;想做起来&#xff0c;真的挺难的。 更关键的是&#xff0c;抖音…

PCIE协议-1

1. PCIe结构拓扑 一个结构由点对点的链路组成&#xff0c;这些链路将一组组件互相连接 - 图1-2展示了一个结构拓扑示例。该图展示了一个称为层级结构的单一结构实例&#xff0c;由一个根复合体&#xff08;Root Complex, RC&#xff09;、多个端点&#xff08;I/O设备&#xf…

Dependencies:查找项目中dll关联文件是否缺失。

前言 Dependencies工具作为一款优秀的DLL解析工具&#xff0c;能让你很直观地看到DLL的相关信息&#xff0c;如具备哪些功能函数、参数&#xff0c;又比如该DLL基于哪些DLL运行。判断该dll基于哪些dll运行&#xff0c;如果基于的dll丢失&#xff0c;那么就会提示。就能判断缺少…

《第一行代码》第二版学习笔记(10)——基于位置的服务

文章目录 一、使用百度定位二、获取经纬度使用百度地图移动到我的位置并让“我”显示在地图上 Android Studio中没有signingReport文件&#xff0c;解决参考文档 一、使用百度定位 下载百度LBS开放平台的SDK 在项目的app.gradle文件下添加依赖&#xff1a;implementation fil…

【北京迅为】《iTOP-3588开发板从零搭建ubuntu环境手册》-第2章 获取并安装Ubuntu操作系统

RK3588是一款低功耗、高性能的处理器&#xff0c;适用于基于arm的PC和Edge计算设备、个人移动互联网设备等数字多媒体应用&#xff0c;RK3588支持8K视频编解码&#xff0c;内置GPU可以完全兼容OpenGLES 1.1、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800万像素ISP&…

buildroot添加ssh功能

在制作了自己的buildroot生成的根文件系统之后&#xff0c;是没有ssh服务的&#xff0c;需要自行添加。 在buildroot的menuconfig里&#xff1a; Target packages -> Networking applications -> openssh 重新编译&#xff0c;还不能通过电脑连接&#xff0c;还需配置并…

101_Linux文件挂载系统相关

一、文件系统简介 传统的磁盘与文件系统应用中,一个分区就只能够被格式化成为一个文件系统,所以我们可以说一个文件系统就是一个硬盘分区。 随着新技术的出现如LMM与软件磁盘阵列software raid),这些技术可以将一个分区格式化为多个文件系统(例如LWM),也能够将多个分区合成一…
最新文章