shi0rik0 的博客shi0rik0 的博客
主页
所有文章
按类别浏览
按标签浏览
主页
所有文章
按类别浏览
按标签浏览
ACGN 1pinia 1electron 2理财 1神经网络 1transformer 1npm 1WSL 1算法八股文 7滑动窗口 1前缀和 1前缀树 1树状数组 1VuePress 1
Transformer decoder推理时是否应该设置causal mask

Date: 2/19/2025Category: Tag: transformer

最近在扣关于Transformer的细节,结果发现了一个问题:众所周知,在训练Transformer的过程中,decode的时候要使用causal mask避免泄漏还未生成的信息。在推理的时候,由于我们是逐个生成token的,所以不会出现泄漏的问题,那么是不是就不需要causal mask了呢?后来我看到StackExchange上有个人和我有相同的问题:Is the Mask Needed for Masked Self-Attention During Inference with GPT-2。目前我对这个问题的理解是这样的:答案是依然需要。