Date: 2/19/2025Category: Tag: transformer
最近在扣关于Transformer的细节,结果发现了一个问题:众所周知,在训练Transformer的过程中,decode的时候要使用causal mask避免泄漏还未生成的信息。在推理的时候,由于我们是逐个生成token的,所以不会出现泄漏的问题,那么是不是就不需要causal mask了呢?后来我看到StackExchange上有个人和我有相同的问题:Is the Mask Needed for Masked Self-Attention During Inference with GPT-2。目前我对这个问题的理解是这样的:答案是依然需要。
