讲解学术规范,以免有意或无意构成学术不端行为。
自我取证:对工作的开展和执行过程进行记录以便做自证,类似于github时间戳,小组讨论记录等。
需要完成:https://plagiarism.iu.edu/IUcriteria.html 主页上...
基本的运算讲解参考:
动手学习深度学习(23)自注意力机制(self attention) - 顺利毕业企划 (hxiangdou.github.io)
动手学习深度学习(24)transformer - 顺利毕业企划 (hxiangdou.git...
对于模型训练的初期,一般遵循下图的调整方向。
optimization fails(优化失败):(critical point: training loss不再下降)
local minima(局部最小值):无路可走
saddle point(...
Pytorch作为深度学习常用模块库,里面包含了很多深度学习相关的操作和模块,底层由C++实现,使用张量进行计算,可使用GPU加速。
Pytorch Documentation参考网址:https://pytorch.org/docs/stable...
每次需要读取csv,json或者txt等类型文件时,总是要去google一下,所以在这里整理一下常用文件的读写,方便后续使用。
csv文件python官方文档中有csv库的详细解析,具体参考:csv — CSV 文件读写 — Python 3.11...
优化算法使我们能够继续更新模型参数,并使损失函数的值最小化。优化算法对于深度学习非常重要。一方面,训练复杂的深度学习模型可能需要数小时、几天甚至数周。优化算法的性能直接影响模型的训练效率。另一方面,了解不同优化算法的原则及其超参数的作用将使我们能够...
创建BERT的动机:预训练的模型抽取了足够多的信息,新的任务只需要增加一个简单的输出层。
BERT架构
只有编码器的Transformer
两个版本:
Base:
\#blocks=12,hidden size=768,\#heads=12,\...
Transformer作为编码器-解码器架构的一个实例。Transformer是由编码器和解码器组成的。Transformer的编码器和解码器是基于自注意力的模块叠加而成的,源(输入)序列和目标(输出)序列的嵌入(embedding)表示将加上位置编...
在深度学习中,经常使用CNN或RNN对序列进行编码。使用注意力机制之后,每个查询都会关注所有键值对并生成一个注意力输出。由于查询、键、值来自同一组输入,因此被称为自注意力。自注意力适合处理长文本,但是复杂度相对会更高。
给定序列
x_1,...,...