从头开始训练BERT语言模型

文章目录

  • 1. 数据准备
    • 1.1 构建语料库
    • 1.2 构建字典文件
  • 2. 创建预训练数据
  • 3. 预训练
  • 4. 训练BERT代码链接
  • 5. BERT下游任务应用举例
    • 5.1 将tf模型转换成pytorch格式
    • 5.2 使用simpletransformers进行文本分类

1. 数据准备

1.1 构建语料库

  如果没有给定语料库文件(如corpus.txt),则可使用训练集、测试集数据来构建语料库文件,具体代码如下所示(代码文件名为):

filtered_line = set()

with open('../../data/raw/train.txt', 'r') as f:
    line = f.readline()
    while line:
        if line[-1] != '\n':
            line += '\n'
        filtered_line.add(line)

        line = f.readlin

你可能感兴趣的