顺利毕业企划

动手学习深度学习（22）注意力机制（attention pooling）

茴香豆 Lv5

2022-12-15 13:19:28 2022-12-15 13:19:28 Created 2023-02-15 19:12:10 2023-02-15 19:12:10 Updated

DeepLearning学习

Python
| DeepLearning

卷积、全连接、池化层都只考虑不随意线索

注意力机制则显示的考虑随意线索

随意线索被称之为查询（query）
每个输入是一个值（value）和不随意线索（key）的对
通过注意力池化层来有偏向性的选择某些输入

非参注意力池化层(非参数注意力汇聚)

给定数据
平均池化是最简单的方案：
更好的方案是60年代提出来的Nadaraya-Watson核回归

Nadaraya-Watson核回归

使用高斯核

那么有

参数化的注意力机制

在之前的基础上引入可以学习的

注意力评分函数

高斯核函数部分可以视为注意力评分函数，简称评分函数（scoring function），然后把这个函数的输出结果输入到softmax函数中运算。
通过上述步骤。将得到与key对应的value的概率分布（即注意力权重）

两种常见的分数计算：（重要）

将query和key合并起来进入一个单输出隐藏层的MLP（加性）
直接将query和key做内积（点积）

Title: 动手学习深度学习（22）注意力机制（attention pooling）
Author: 茴香豆
Created at : 2022-12-15 13:19:28
Updated at : 2023-02-15 19:12:10
Link: https://hxiangdou.github.io/2022/12/15/DL_22/
License: This work is licensed under CC BY-NC-SA 4.0.

Comments

On this page

动手学习深度学习（22）注意力机制（attention pooling）

非参注意力池化层(非参数注意力汇聚)
1. Nadaraya-Watson核回归
参数化的注意力机制
注意力评分函数
1. 两种常见的分数计算：（重要）