当前位置：首页 > news >正文

【NLP 60、实践 ⑭ 使用bpe构建词表】

news 来源：原创 2025/7/31 23:48:04

目录

一、BPE（Byte Pair Encoding）算法详解

1.基本概念

2.核心思想

3.算法步骤详解

Ⅰ、预处理

Ⅱ、统计字符对频率

Ⅲ、合并高频字符对

Ⅳ、编码与解码

① 编码（文本→子词序列）

② 解码（子词序列→文本）

二、使用BPE算法构建词表实现方式 ①

1.数据预处理模块

2. 统计模块 get_stats()

3.合并模块 merge()

4. 词表构建模块

5. 解码模块 encode

6.编码模块 encode

7.运行示例

8.完整代码

人们总是在无能为力的时候喜欢说顺其自然

—— 25.4.15

一、BPE（Byte Pair Encoding）算法详解

1.基本概念

BPE（Byte Pair Encoding）是一种子词分词（Subword Tokenization）算法，最初用于数据压缩，后被引入自然语言处理（NLP）领域，解决传统分词方法（如按空格分割）的以下问题：

未登录词（OOV）：无法处理词典外的罕见词（如专业术语、新词）。

数据稀疏性：低频词导致模型泛化能力差。

多语言支持：统一处理不同语言（如中文、英文、德语的混合文本）。

2.核心思想

通过迭代合并高频字符对，将单词拆分为更小的子词单元（Subword Units），平衡词汇表大小与语义粒度。

示例：单词 "unhappy" → 拆分为 ["un", "happy"]（若 "un" 和 "happy" 均为高频子词）

3.算法步骤详解

Ⅰ、预处理

输入：原始文本（如英文句子、代码片段）。

操作：

① 将文本按空格分割为单词，统计词频。

② 将每个单词拆分为字符序列，末尾添加特殊符号（如 </w>）标记单词结束。

③ 初始化词汇表为所有基础字符（如ASCII字符、Unicode符号）。

Ⅱ、统计字符对频率

遍历所有单词拆分后的字符序列，统计相邻字符对的共现频率。

Ⅲ、合并高频字符对

选择频率最高的字符对，将其合并为新符号，并更新词汇表。

重复此过程，直到达到预设的合并次数（或词汇表大小）。

Ⅳ、编码与解码

① 编码（文本→子词序列）

对输入文本按最长匹配原则，递归拆分单词为已合并的子词。

贪心策略：优先匹配最长子词。

② 解码（子词序列→文本）

拼接子词并去除特殊符号（如 </w>）

二、使用BPE算法构建词表代码实现

1.数据预处理模块

text：输入的多语言字符串

tokens：整数列表，每个整数表示一个UTF-8字节

text.encode("utf-8")：将字符串编码为字节序列（默认使用UTF-8）。

参数名	类型	默认值	说明
encoding	str	"utf-8"	编码格式（可省略）

list()：将可迭代对象（如元组、字符串、集合）转换为列表。

参数名	类型	说明
iterable	可迭代对象	如字符串、元组、集合等

map()：将函数 func 应用到可迭代对象的每个元素，返回迭代器。

参数名	类型	说明
func	function	要应用的函数
iterable	可迭代对象	如列表、元组等

text = '''...'''  # 多语言文本
tokens = text.encode("utf-8")
tokens = list(map(int, tokens))

2. 统计模块 get_stats()

ids：可迭代对象（如列表、元组等），基于这个可迭代对象来统计相邻元素组成的元素对出现的次数

counts：字典（dict），用于存储元素对及其出现次数的字典。

pair：元组（tuple），在 for 循环中，pair 表示由 ids 中相邻的两个元素组成的元组。

字典.get()：获取字典中指定键的值，若键不存在则返回默认值。

参数名	类型	默认值	说明
key	任意类型	无	要查找的键
default	任意类型	None	键不存在时返回的值

zip()：将多个可迭代对象按位置打包成元组的列表。

参数名	类型	说明
*iterables	多个可迭代对象	如 `zip([1,2], ["a","b"])`

def get_stats(ids):counts = {}for pair in zip(ids, ids[1:]):counts[pair] = counts.get(pair, 0) + 1return counts

3.合并模块 merge()

ids：可迭代对象（如列表、元组等），当前字节序列

pair：待合并的字节对，一个由两个元素组成的元组。

idx：新子词的唯一标识符，当在 ids 中找到与 pair 匹配的相邻元素对时，会用 idx 这个元素来替换该元素对，实现合并的效果

newids：列表（list），用于存储处理后的结果。

列表.append()： 向列表末尾添加元素。

参数名	类型	说明
item	任意类型	待添加的元素

def merge(ids, pair, idx):newids = []i = 0while i < len(ids):if i < len(ids) - 1 and ids[i] == pair[0] and ids[i + 1] == pair[1]:newids.append(idx)i += 2else:newids.append(ids[i])i += 1return newids

4. 词表构建模块

vocab_size：表示初始的词汇表大小。

num_merges：通过 vocab_size - 256 计算得出，表示需要进行合并操作的次数。

ids：列表（list），初始时被赋值为 list(tokens)，ids 用于存储这些元素，并在后续的合并操作中不断被更新。每次合并操作后，ids 中的元素会根据合并规则发生变化。

tokens：一个包含词汇表中所有元素（可以是单词、字符等）的可迭代对象。

list()：将可迭代对象（如元组、字符串、集合）转换为列表。

参数名	类型	说明
iterable	可迭代对象	如字符串、元组、集合等

merges：字典（dict），记录合并操作的结果。字典的键是由两个元素组成的元组（表示被合并的元素对），值是合并后生成的新元素的索引（从 256 开始依次递增）。

stats：字典（dict），记录 ids 中相邻元素对出现次数的字典。字典的键是元素对（以元组形式表示），值是该元素对出现的次数。

get_stats()：统计列表中两个相邻元素出现的次数

pair：元组（tuple），从 stats 字典中获取，它表示在当前的 ids 中出现次数最多的相邻元素对，这个元素对将在本次合并操作中被合并为一个新的元素。

max()：返回可迭代对象中的最大值，或者多个参数中的最大值。

max(iterable, *, key=None, default=default)：从给定的可迭代对象（如列表、元组、集合等）中返回最大的元素。如果提供了 key 函数，则会根据 key 函数的返回值来比较元素的大小，而不是直接比较元素本身；如果提供了 default 参数，当可迭代对象为空时，返回 default 的值，否则当可迭代对象为空时会抛出 ValueError 异常。

参数名	类型	是否必填	默认值	描述
`iterable`	可迭代对象（如列表、元组、集合等）	是	无	要从中找出最大值的可迭代对象
`key`	函数	否	`None`	一个接收单个参数的函数，用于指定比较元素的方式。函数的返回值将用于比较元素的大小
`default`	任意类型	否	无（在可迭代对象为空时会引发异常）	当 `iterable` 为空时返回的值

max(arg1, arg2, *args, *, key=None)：返回多个参数中的最大值。如果提供了 key 函数，则会根据 key 函数的返回值来比较参数的大小，而不是直接比较参数本身。

参数名	类型	是否必填	默认值	描述
`arg1, arg2, *args`	任意类型（要求所有参数类型兼容比较）	至少一个参数	无	要从中找出最大值的多个参数
`key`	函数	否	`None`	一个接收单个参数的函数，用于指定比较参数的方式。函数的返回值将用于比较参数的大小

idx：整数（int），通过 256 + i 计算得出，用于表示合并后生成的新元素的索引。

merge()：将统计得到的两个最高频字符对合并为一个新字符

len()：返回对象的长度或元素个数。

参数名	类型	说明
obj	任意可迭代对象	如列表、字符串、字典等

表示初始的词汇表大小。

5. 解码模块 encode

vocab：字典（dict），初始时，通过字典推导式 {idx: bytes([idx]) for idx in range(256)} 创建，将整数索引 idx（范围是 0 到 255）映射为对应的单字节 bytes 对象（bytes([idx])）。后续通过循环 for (p0, p1), idx in merges.items():，根据 merges 中记录的合并信息，将合并后的索引 idx 映射为合并后的字节序列（即 vocab[p0] + vocab[p1]）。vocab 最终用于将整数索引转换为字节序列，是解码过程的关键数据结构。

(p0, p1)：merges 字典的键（是一个元组），表示在之前的合并操作中被合并的两个元素对应的索引。

idx：整数（int），在字典推导式 {idx: bytes([idx]) for idx in range(256)} 中，idx 是循环变量，用于生成初始的 vocab 字典。在循环 for (p0, p1), idx in merges.items(): 中，idx 是 merges 字典的值，表示合并后新的索引，并且在 vocab 中用于存储合并后的字节序列。在 decode 函数中，idx 作为 vocab 的键，用于从 vocab 中获取对应的字节序列。

merges：字典（dict）,存储合并操作的结果。

text：在 decode 函数中，通过 tokens.decode("utf-8", errors="replace") 生成。它是将 tokens 字节串按照 UTF-8 编码进行解码得到的文本内容。errors="replace" 表示在解码过程中如果遇到无法解码的字节，将用替换字符（通常是 ?）来替代，以避免解码错误。text 是最终解码得到的字符串结果，是 decode 函数的返回值。

ids：列表（list），作为 decode 函数的参数，ids 是一个包含一系列整数索引的列表。这些索引将用于从 vocab 字典中获取对应的字节序列，进而通过连接和解码操作得到原始的文本内容。

items()：返回字典的键值对视图（dict_items对象）。

str.join()：将可迭代对象的元素用 str 连接成新字符串。

参数名	类型	说明
iterable	可迭代对象	元素必须为字符串类型

tokens.decode()：将字节序列解码为字符串。

参数名	类型	是否必填	默认值	描述
`encoding`	字符串（`str`）	是	无	指定用于解码字节串的编码格式，这里设置为 `"utf-8"`，表示使用 UTF - 8 编码进行解码。UTF - 8 是一种广泛使用的可变长度字符编码，能够表示世界上大部分的字符。
`errors`	字符串（`str`）	否	`"strict"`	指定在解码过程中遇到无法解码的字节时的处理方式。这里设置为 `"replace"`，表示使用替换字符（通常是 `?`）来替代无法解码的字节；默认值 `"strict"` 表示当遇到无法解码的字节时会抛出 `UnicodeDecodeError` 异常。此外，还有其他可选值，如 `"ignore"` 表示忽略无法解码的字节，直接跳过它们进行解码。

# decoding:print("————————————————————————————————————————————————————————————————————")
vocab = {idx: bytes([idx]) for idx in range(256)}
for (p0, p1), idx in merges.items():vocab[idx] = vocab[p0] + vocab[p1]def decode(ids):tokens = b"".join(vocab[idx] for idx in ids)text = tokens.decode("utf-8", errors="replace")return textprint("decode示例：",decode([65, 32, 80, 114, 111, 103, 114, 97, 109, 109, 260, 263, 153, 258, 73, 110, 116, 114, 111, 100, 117, 99, 116, 105,111, 110, 32, 116, 111, 32, 85, 110, 105, 271, 101, ]))
# print(decode(ids))print("————————————————————————————————————————————————————————————————————")

6.编码模块 encode

merges：字典（dict），存储了合并操作的结果。字典的键是由两个元素组成的元组（表示被合并的元素对），值是合并后生成的新元素的索引。

text：作为 encode 函数的输入参数，text 是要进行编码处理的原始文本内容。函数会将其先转换为 UTF-8 编码的字节序列，然后根据 merges 中记录的合并规则进行处理。

tokens：列表（list），一个包含原始文本 UTF-8 编码后每个字节对应的整数值的列表。

text.encode()：将字符串编码为UTF-8格式的字节序列。

参数名	类型	默认值	说明
text	str	无	待编码的原始字符串
encoding	str	"utf-8"	编码格式（可指定其他编码如"gbk"）

len()：返回对象的长度或元素个数。

参数名	类型	说明
obj	任意可迭代对象	如列表、字符串、字典等

starts：字典（dict），一个记录 tokens 中相邻元素对出现次数的字典。字典的键是元素对（以元组形式表示），值是该元素对出现的次数。