如何应用 BERT
@[toc]
尝试 BERT 的最佳方式是通过托管在 Google Colab 上的 BERT FineTuning with Cloud TPUs。 BERT 代码可以运行在 TPU、CPU 和 GPU。
上一章我们查看 了BERT 仓库 中的代码:
1.BERT代码总结:
1.1 BertTokenizer(Tokenization分词)
- 组成结构:BasicTokenizer和WordPieceTokenizer
- BasicTokenizer主要作用:
- 按标点、空格分割句子,对于中文字符,通过预处理(加空格方式)进行按字分割
- 通过never_split指定对某些词不进行分割
- 处理是否统一小写
- 清理非法字符
- WordPieceTokenizer主要作用:
- 进一步将词分解为子词(subword),例如,tokenizer 这个词就可以拆解为“token”和“##izer”两部分,注意后面一个词的“##”表示接在前一个词后面
- subword介于char和word之间,保留了词的含义,又能够解决英文中单复数、时态导致的词表爆炸和未登录词的OOV问题
- 将词根和时态词缀分割,减小词表,降低训练难度