当前位置：首页 > news >正文

GenerationMixin概述

news 来源：原创 2025/8/23 15:16:26

类

类名	简单说明
`GenerateDecoderOnlyOutput`	继承自 `ModelOutput`，适用于非束搜索方法的解码器-only模型输出类。
`GenerateEncoderDecoderOutput`	继承自 `ModelOutput`，适用于非束搜索方法的编码器-解码器模型输出类。
`GenerateBeamDecoderOnlyOutput`	继承自 `ModelOutput`，适用于束搜索方法的解码器-only模型输出类。
`GenerateBeamEncoderDecoderOutput`	继承自 `ModelOutput`，适用于束搜索方法的编码器-解码器模型输出类。
`GreedySearchDecoderOnlyOutput`	与 `GenerateDecoderOnlyOutput` 相同，保留用于向后兼容的别名。
`ContrastiveSearchDecoderOnlyOutput`	与 `GenerateDecoderOnlyOutput` 相同，保留用于向后兼容的别名。
`SampleDecoderOnlyOutput`	与 `GenerateDecoderOnlyOutput` 相同，保留用于向后兼容的别名。
`GreedySearchEncoderDecoderOutput`	与 `GenerateEncoderDecoderOutput` 相同，保留用于向后兼容的别名。
`ContrastiveSearchEncoderDecoderOutput`	与 `GenerateEncoderDecoderOutput` 相同，保留用于向后兼容的别名。
`SampleEncoderDecoderOutput`	与 `GenerateEncoderDecoderOutput` 相同，保留用于向后兼容的别名。
`BeamSearchDecoderOnlyOutput`	与 `GenerateBeamDecoderOnlyOutput` 相同，保留用于向后兼容的别名。
`BeamSampleDecoderOnlyOutput`	与 `GenerateBeamDecoderOnlyOutput` 相同，保留用于向后兼容的别名。
`BeamSearchEncoderDecoderOutput`	与 `GenerateBeamEncoderDecoderOutput` 相同，保留用于向后兼容的别名。
`BeamSampleEncoderDecoderOutput`	与 `GenerateBeamEncoderDecoderOutput` 相同，保留用于向后兼容的别名。
`GreedySearchOutput`	`GreedySearchEncoderDecoderOutput` 和 `GreedySearchDecoderOnlyOutput` 的联合类型。
`SampleOutput`	`SampleEncoderDecoderOutput` 和 `SampleDecoderOnlyOutput` 的联合类型。
`BeamSearchOutput`	`BeamSearchEncoderDecoderOutput` 和 `BeamSearchDecoderOnlyOutput` 的联合类型。
`BeamSampleOutput`	`BeamSampleEncoderDecoderOutput` 和 `BeamSampleDecoderOnlyOutput` 的联合类型。
`ContrastiveSearchOutput`	`ContrastiveSearchEncoderDecoderOutput` 和 `ContrastiveSearchDecoderOnlyOutput` 的联合类型。
`GenerateNonBeamOutput`	`GenerateDecoderOnlyOutput` 和 `GenerateEncoderDecoderOutput` 的联合类型。
`GenerateBeamOutput`	`GenerateBeamDecoderOnlyOutput` 和 `GenerateBeamEncoderDecoderOutput` 的联合类型。
`GenerateOutput`	`GenerateNonBeamOutput` 和 `GenerateBeamOutput` 的联合类型。
`GenerationMixin`	包含自动回归文本生成所有功能的类，可作为 `PreTrainedModel` 的 mixin 使用。

定义了多个数据类（@dataclass），这些类继承自 ModelOutput，用于表示生成模型在不同情况下的输出结果。
Python：@dataclass装饰器
定义了一些等价的类和类型简写（typing shortcuts），主要是为了兼容旧版本的代码，也方便在代码中进行类型提示。

重点解释以下三个类：

GenerateDecoderOnlyOutput
GenerateEncoderDecoderOutput
GenerateNonBeamOutput

1. GenerateDecoderOnlyOutput

描述：

GenerateDecoderOnlyOutput 是一个数据类，用于表示 仅解码器模型（decoder-only models） 在使用 非束搜索方法（non-beam methods） 进行生成时的输出结果。

主要用途：

此类主要用于像 GPT-2、GPT-3 等仅包含解码器的模型，当它们使用贪婪搜索（Greedy Search）、随机采样（Sampling）、对比搜索（Contrastive Search）等非束搜索方法进行文本生成时，封装和返回生成的结果。

2. GenerateEncoderDecoderOutput

描述：

GenerateEncoderDecoderOutput 是一个数据类，用于表示 编码器-解码器模型（encoder-decoder models） 在使用 非束搜索方法（non-beam methods） 进行生成时的输出结果。

主要用途：

此类主要用于像 BART、T5 等包含编码器和解码器的模型，当它们使用贪婪搜索、随机采样、对比搜索等非束搜索方法进行文本生成时，封装和返回生成的结果。

`GenerateDecoderOnlyOutput` 与 `GenerateEncoderDecoderOutput`

字段名	GenerateDecoderOnlyOutput	GenerateEncoderDecoderOutput
sequences	必填 `torch.LongTensor` 形状：(batch_size, sequence_length) 生成的序列。	必填 `torch.LongTensor` 形状：(batch_size * num_return_sequences, sequence_length) 生成的序列。
scores	可选 `Optional[Tuple[torch.FloatTensor]]` 当 `output_scores=True` 时返回。处理后的预测分数（每步）。	可选 `Optional[Tuple[torch.FloatTensor]]` 同左。
logits	可选 `Optional[Tuple[torch.FloatTensor]]` 当 `output_logits=True` 时返回。未经处理的预测分数（每步）。	可选 `Optional[Tuple[torch.FloatTensor]]` 同左。
attentions	可选 `Optional[Tuple[Tuple[torch.FloatTensor]]]` 当 `output_attentions=True` 时返回。解码器每层的注意力权重。	名称不同在 `GenerateEncoderDecoderOutput` 中，该字段为 `decoder_attentions`。
hidden_states	可选 `Optional[Tuple[Tuple[torch.FloatTensor]]]` 当 `output_hidden_states=True` 时返回。解码器每层的隐藏状态。	名称不同在 `GenerateEncoderDecoderOutput` 中，该字段为 `decoder_hidden_states`。
past_key_values	可选 `Optional[Tuple[Tuple[Tuple[torch.FloatTensor]]]]` 当 `use_cache=True` 时返回。模型的缓存状态。	可选 `Optional[Tuple[Tuple[Tuple[torch.FloatTensor]]]]` 同左。
encoder_attentions	无此字段	可选 `Optional[Tuple[torch.FloatTensor]]` 当 `output_attentions=True` 时返回。编码器每层的注意力权重。
encoder_hidden_states	无此字段	可选 `Optional[Tuple[torch.FloatTensor]]` 当 `output_hidden_states=True` 时返回。编码器每层的隐藏状态。
decoder_attentions	无此字段对应于 `attentions` 字段。	可选 `Optional[Tuple[Tuple[torch.FloatTensor]]]` 解码器每层的注意力权重。
decoder_hidden_states	无此字段对应于 `hidden_states` 字段。	可选 `Optional[Tuple[Tuple[torch.FloatTensor]]]` 解码器每层的隐藏状态。
cross_attentions	无此字段	可选 `Optional[Tuple[Tuple[torch.FloatTensor]]]` 当 `output_attentions=True` 时返回。解码器每层的跨注意力权重。

字段详解

共有字段

sequences
- 描述：生成的序列。
- GenerateDecoderOnlyOutput：形状为 (batch_size, sequence_length)。
- GenerateEncoderDecoderOutput：形状为 (batch_size * num_return_sequences, sequence_length)。
scores
- 描述：处理后的预测分数（即在 SoftMax 之前的 logits），每步生成一个。
- 类型：Optional[Tuple[torch.FloatTensor]]。
- 返回条件：output_scores=True。
logits
- 描述：未经处理的预测分数（logits），每步生成一个。
- 类型：Optional[Tuple[torch.FloatTensor]]。
- 返回条件：output_logits=True。
past_key_values
- 描述：模型的缓存状态，用于加速解码。
- 类型：Optional[Tuple[Tuple[Tuple[torch.FloatTensor]]]]。
- 返回条件：use_cache=True。

仅在 `GenerateDecoderOnlyOutput` 中

attentions
- 描述：解码器的注意力权重。
- 类型：Optional[Tuple[Tuple[torch.FloatTensor]]]。
- 返回条件：output_attentions=True。
hidden_states
- 描述：解码器的隐藏状态。
- 类型：Optional[Tuple[Tuple[torch.FloatTensor]]]。
- 返回条件：output_hidden_states=True。

仅在 `GenerateEncoderDecoderOutput` 中

encoder_attentions
- 描述：编码器的注意力权重。
- 类型：Optional[Tuple[torch.FloatTensor]]。
- 返回条件：output_attentions=True。
encoder_hidden_states
- 描述：编码器的隐藏状态。
- 类型：Optional[Tuple[torch.FloatTensor]]。
- 返回条件：output_hidden_states=True。
decoder_attentions
- 描述：解码器的注意力权重（相当于 GenerateDecoderOnlyOutput 中的 attentions）。
- 类型：Optional[Tuple[Tuple[torch.FloatTensor]]]。
- 返回条件：output_attentions=True。
decoder_hidden_states
- 描述：解码器的隐藏状态（相当于 GenerateDecoderOnlyOutput 中的 hidden_states）。
- 类型：Optional[Tuple[Tuple[torch.FloatTensor]]]。
- 返回条件：output_hidden_states=True。
cross_attentions
- 描述：解码器的跨注意力权重（解码器与编码器之间的注意力）。
- 类型：Optional[Tuple[Tuple[torch.FloatTensor]]]。
- 返回条件：output_attentions=True。

3. GenerateNonBeamOutput

描述：

GenerateNonBeamOutput 是一个类型别名，用于表示在使用 非束搜索方法（non-beam methods） 进行生成时，模型的输出结果。

定义：

GenerateNonBeamOutput = Union[GenerateDecoderOnlyOutput, GenerateEncoderDecoderOutput]

含义：

它可以是 GenerateDecoderOnlyOutput 类型，也可以是 GenerateEncoderDecoderOutput 类型。
这个类型别名的存在，使得在处理非束搜索生成输出时，可以统一处理，不用区分模型是仅解码器模型还是编码器-解码器模型。

附加说明：

非束搜索方法（Non-beam methods）：

指在生成文本时，不使用束搜索（Beam Search）算法的生成方法，例如贪婪搜索、随机采样、对比搜索等。这些方法通常速度更快，但可能生成的结果质量不如束搜索。
缓存机制（Past Key Values）：

在生成长序列时，模型可以缓存之前计算的键和值，以避免重复计算，提高生成效率。缓存的内容和格式因模型而异。