@[toc]
一、Dataset和DataLoader加载数据集
1.torch.utils.data
torch.utils.data主要包括以下三个类:
- class torch.utils.data.Dataset
其他的数据集类必须是torch.utils.data.Dataset的子类,比如说torchvision.ImageFolder. - class torch.utils.data.sampler.Sampler(data_source)
参数: data_source (Dataset) – dataset to sample from
作用: 创建一个采样器, class torch.utils.data.sampler.Sampler是所有的Sampler的基类, 其中,iter(self)函数来获取一个迭代器,对数据集中元素的索引进行迭代,len(self)方法返回迭代器中包含元素的长度. - class torch.utils.data.DataLoader
2. 加载数据流程
pytorch中加载数据的顺序是: - 加载数据,提取出feature和label,并转换成tensor
- 创建一个dataset对象
- 创建一个dataloader对象,dataloader类的作用就是实现数据以什么方式输入到什么网络中
- 循环dataloader对象,将data,label拿到模型中去训练
代码一般是这么写的:
# 定义学习集 DataLoader |
3. Dataset
Dataset是我们用的数据集的库,是Pytorch中所有数据集加载类中应该继承的父类。其中父类中的两个私有成员函数必须被重载,否则将会触发错误提示。其中len应该返回数据集的大小,而getitem应该编写支持数据集索引的函数
class Dataset(object): |
上面三个方法是最基本的,其中getitem是最主要的方法,它规定了如何读取数据。其主要作用是能让该类可以像list一样通过索引值对数据进行访问。
class FirstDataset(data.Dataset):#需要继承data.Dataset |
图片加载的dataset可以参考帖子:《带你详细了解并使用Dataset以及DataLoader》
人民币二分类参考:《pytorch - 数据读取机制中的Dataloader与Dataset》
4. dataloader类及其参数
dataloader类调用torch.utils.Data.DataLoader,实际过程中数据集往往很大,通过DataLoader加载数据集使用mini-batch的时候可以使用多线程并行处理,这样可以加快我们准备数据集的速度。Datasets就是构建这个工具函数的实例参数之一。一般可以这么写:
train_loader = DataLoader(dataset=train_data, batch_size=6, shuffle=True ,num_workers=4) |
下面看看dataloader代码:class DataLoader(object):
def __init__(self, dataset, batch_size=1, shuffle=False, sampler=None,
batch_sampler=None, num_workers=0, collate_fn=default_collate,
pin_memory=False, drop_last=False, timeout=0,
worker_init_fn=None)
self.dataset = dataset
self.batch_size = batch_size
self.num_workers = num_workers
self.collate_fn = collate_fn
self.pin_memory = pin_memory
self.drop_last = drop_last
self.timeout = timeout
self.worker_init_fn = worker_init_fn
- dataset:Dataset类,PyTorch已有的数据读取接口,决定数据从哪里读取及如何读取;
- batch_size:批大小;默认1
- num_works:是否多进程读取数据;默认0使用主进程来导入数据。大于0则多进程导入数据,加快数据导入速度
- shuffle:每个epoch是否乱序;默认False。输入数据的顺序打乱,是为了使数据更有独立性,但如果数据是有序列特征的,就不要设置成True了。一般shuffle训练集即可。
- drop_last:当样本数不能被batchsize整除时,是否舍弃最后一批数据;
- collate_fn:将得到的数据整理成一个batch。默认设置是False。如果设置成True,系统会在返回前会将张量数据(Tensors)复制到CUDA内存中。
- batch_sampler,批量采样,和batch_size、shuffle等参数是互斥的,一般采用默认None。batch_sampler,但每次返回的是一批数据的索引(注意:不是数据),应该是每次输入网络的数据是随机采样模式,这样能使数据更具有独立性质。所以,它和一捆一捆按顺序输入,数据洗牌,数据采样,等模式是不兼容的。
- sampler,默认False。根据定义的策略从数据集中采样输入。如果定义采样规则,则洗牌(shuffle)设置必须为False。
- pin_memory,内存寄存,默认为False。在数据返回前,是否将数据复制到CUDA内存中。
- timeout,是用来设置数据读取的超时时间的,但超过这个时间还没读取到数据的话就会报错。
- worker_init_fn(数据类型 callable),子进程导入模式,默认为Noun。在数据导入前和步长结束后,根据工作子进程的ID逐个按顺序导入数据。
想用随机抽取的模式加载输入,可以设置 sampler 或 batch_sampler。如何定义抽样规则,可以看sampler.py脚本,或者这篇帖子:《一文弄懂Pytorch的DataLoader, DataSet, Sampler之间的关系》
5. dataloader内部函数
5.1 next函数
DataLoadernext函数用for循环来遍历数据进行读取。def __next__(self):
if self.num_workers == 0:
indices = next(self.sample_iter)
batch = self.collate_fn([self.dataset[i] for i in indices]) # this line
if self.pin_memory:
batch = _utils.pin_memory.pin_memory_batch(batch)
return batch
仔细看可以发现,前面还有一个self.collate_fn方法,这个是干嘛用的呢?在介绍前我们需要知道每个参数的意义:
- indices: 表示每一个iteration,sampler返回的indices,即一个batch size大小的索引列表
- self.dataset[i]: 前面已经介绍了,这里就是对第i个数据进行读取操作,一般来说self.dataset[i]=(img, label)
看到这不难猜出collatefn的作用就是将一个batch的数据进行合并操作。默认的collatefn是将img和label分别合并成imgs和labels,所以如果你的__getitem方法只是返回 img, label,那么你可以使用默认的collate_fn方法,但是如果你每次读取的数据有img, box, label等等,那么你就需要自定义collate_fn来将对应的数据合并成一个batch数据,这样方便后续的训练步骤。
5.2 DataLoaderIter函数
def __setattr__(self, attr, val): |
当代码运行到要从torch.utils.data.DataLoader类生成的对象中取数据的时候,比如:train_data=torch.utils.data.DataLoader(...)
for i, (input, target) in enumerate(train_data):
就会调用DataLoader类的iter方法:return DataLoaderIter(self),此时牵扯到DataLoaderIter类:
def __iter__(self): |
- SingleProcessDataLoaderIter:单线程数据迭代,采用普通方式来读取数据
- MultiProcessingDataLoaderIter:多进程数据迭代,采用队列的方式来读取。
MultiProcessingDataLoaderIter继承的是BaseDataLoaderIter,开始初始化,然后Dataloader进行初始化,然后进入 next __()方法 随机生成索引,进而生成batch,最后调用 _get_data() 方法得到data。idx, data = self._get_data(), data = self.data_queue.get(timeout=timeout)
总结一下:
- 调用了dataloader 的iter() 方法, 产生了一个DataLoaderIter
- 反复调用DataLoaderIter 的next()来得到batch, 具体操作就是, 多次调用dataset的getitem()方法 (如果num_worker>0就多线程调用), 然后用collate_fn来把它们打包成batch. 中间还会涉及到shuffle , 以及sample 的方法等,
- 当数据读完后, next()抛出一个StopIteration异常, for循环结束, dataloader 失效.
DataLoaderIter的源码及详细解读参考:《PyTorch源码解读之torch.utils.data.DataLoader》
6. dataloader循环
ataloader本质上是一个可迭代对象,但是dataloader不能像列表那样用索引的形式去访问,而是使用迭代遍历的方式。
for i in dataLoader: |
也可以使用enumerate(dataloader)的形式访问。
在计算i的类型时,发现其为一个字典,打印这个字典的关键字可得到
for i in dataLoader: |
dict_keys(['text', 'audio', 'vision', 'labels']) |
同理,计算 i[‘text’]发现其为一个张量,打印该张量信息print(i['text'].shape) #64*39*768
此时的64恰好就是我们设置的batchsize,并且最后一个i值的text的shape为2439768,即24个数据
二、代码示例
1. transformer单句文本分类(HF教程)
1.1使用Trainer训练
GLUE榜单包含了9个句子级别的分类任务,分别是:
- CoLA (Corpus of Linguistic Acceptability) 鉴别一个句子是否语法正确.
- MNLI (Multi-Genre Natural Language Inference) 给定一个假设,判断另一个句子与该假设的关系:entails, contradicts 或者 unrelated。
- MRPC (Microsoft Research Paraphrase Corpus) 判断两个句子是否互为paraphrases.
- QNLI (Question-answering Natural Language Inference) 判断第2句是否包含第1句问题的答案。
- QQP (Quora Question Pairs2) 判断两个问句是否语义相同。
- RTE (Recognizing Textual Entailment)判断一个句子是否与假设成entail关系。
- SST-2 (Stanford Sentiment Treebank) 判断一个句子的情感正负向.
- STS-B (Semantic Textual Similarity Benchmark) 判断两个句子的相似性(分数为1-5分)。
- WNLI (Winograd Natural Language Inference) Determine if a sentence with an anonymous pronoun and a sentence with this pronoun replaced are entailed or not.
加载数据集from datasets import load_dataset
raw_datasets = load_dataset("glue","sst2")
预处理数据from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
def tokenize_function(examples):
return tokenizer(examples["sentence"], padding="max_length", truncation=True)
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
full_train_dataset = tokenized_datasets["train"]
full_eval_dataset = tokenized_datasets["test"]
定义评估函数import numpy as np
from datasets import load_metric
metric = load_metric("glue","sst2")#改成"accuracy"效果一样吗?
def compute_metrics(eval_pred):
logits, labels = eval_pred
predictions = np.argmax(logits, axis=-1)
return metric.compute(predictions=predictions, references=labels)
加载模型from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=2)
配置 Trainer参数:
from transformers import TrainingArguments,Trainer |
开始训练:trainer.train()
训练完毕后,执行以下代码,得到模型在验证集上的效果:trainer.evaluate()
{'epoch': 2, |
1.2 使用 PyTorch进行训练
重新启动笔记本以释放一些内存,或执行以下代码:del model
del pytorch_model
del trainer
torch.cuda.empty_cache()
首先,我们需要定义数据加载器,我们将使用它来迭代批次。 在这样做之前,我们只需要对我们的 tokenized_datasets 应用一些后处理:
- 删除与模型不期望的值相对应的列(此处为“text”列)
- 将列“label”重命名为“labels”(因为模型期望参数被命名为标签)
- 设置数据集的格式,以便它们返回 PyTorch 张量而不是列表。
tokenized_datasets 对每个步骤处理如下:
tokenized_datasets = tokenized_datasets.remove_columns(["sentence","idx"])#删除多余的“sebtence”列和“idx”列,否则会报错forward() got an unexpected keyword argument 'idx' |
二三步也可以合并:
columns = ['input_ids', 'token_type_ids', 'attention_mask', 'labels'] |
切出一部分数据集
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000)) |
定义dataloaders:
from torch.utils.data import DataLoader |
定义模型:
from transformers import AutoModelForSequenceClassification |
定义优化器optimizer 和学习率调度器scheduler:
from transformers import AdamW |
使用GPU进行训练:
import torch |
使用 tqdm 库在训练步骤数上添加了一个进度条,并定义训练循环:
from tqdm.auto import tqdm |
编写评估循环,在循环完成时计算最终结果之前累积每个批次的预测:
metric= load_metric("accuracy") |
1.3 句子对文本分类(rte):
dataset = load_dataset('glue', 'rte') |
其它代码一样.更多文本分类参考datawhale-transformer教程4.1:《文本分类》
1.4 更多示例
要查看更多微调示例,您可以参考:
🤗Transformers Examples,其中包括在 PyTorch 和 TensorFlow 中训练所有常见 NLP 任务的脚本。
🤗 Transformers Notebooks ,其中包含各种笔记本,尤其是每个任务一个(查找如何在 xxx 上微调模型)。
2. 科大讯飞中文相似度代码赏析
2.1赛题解析
赛题名称:中文问题相似度挑战赛
http://challenge.xfyun.cn/topic/info?type=chinese-question-similarity&ch=dw-sq-1赛题介绍
重复问题检测是一个常见的文本挖掘任务,在很多实际问答社区都有相应的应用。重复问题检测可以方便进行问题的答案聚合,以及问题答案推荐,自动QA等。由于中文词语的多样性和灵活性,本赛题需要选手构建一个重复问题识别算法。赛题任务
本次赛题希望参赛选手对两个问题完成相似度打分。训练集:约5千条问题对和标签。若两个问题是相同含义,标签为1;否则为0。
测试集:约5千条问题对。训练集样例:
句子1:有哪些女明星被潜规则啦
句子2:哪些女明星被潜规则了
标签:1
句子1:泰囧完整版下载
句子2:エウテルペ完整版下载
标签:0- 解题思路
赛题为经典的文本匹配任务,所以可以考虑使用Bert的NSP来完成建模。
2.2 代码实例
步骤1:读取数据集
import pandas as pd |
import torch |
import re
并按照标签划分验证集:
# stratify 按照标签进行采样,训练集和验证部分同分布 |
步骤2:文本进行tokenizer
使用Bert对文本进行转换,此时模型选择bert-base-chinese。
# pip install transformers |
步骤3:定义dataset
# 数据集读取 |
步骤4:定义匹配模型
使用BertForNextSentencePrediction完成文本匹配任务,并定义优化器。
from transformers import BertForNextSentencePrediction, AdamW, get_linear_schedule_with_warmup |
# 精度计算 |
步骤5:模型训练与验证
祖传代码:模型正向传播和准确率计算。
# 训练函数 |
def validation(): |
for epoch in range(5): |
#打印输出看看 |
步骤6:对测试集进行预测
读取测试集数据,进行转换。
test_df = pd.read_csv('test.csv', sep='\t', names=['question1', 'question2', 'label']) |
对测试集数据进行正向传播预测,得到预测结果,并输出指定格式。
def predict(): |
3. CCF BDCI 剧本角色情感识别
本节转自《CCF BDCI 剧本角色情感识别:多目标学习开源方案》
3.1 赛事解析
赛题名称
剧本角色情感识别 比赛链接:https://www.datafountain.cn/competitions/518
后台回复“爱奇艺”可以获取完整代码赛题背景
剧本对影视行业的重要性不言而喻。一部好的剧本,不光是好口碑和大流量的基础,也能带来更高的商业回报。剧本分析是影视内容生产链条的第一环,其中剧本角色的情感识别是一个非常重要的任务,主要是对剧本中每句对白和动作描述中涉及到的每个角色从多个维度进行分析并识别出情感。相对于通常的新闻、评论性文本的情感分析,有其独有的业务特点和挑战。赛题任务
本赛题提供一部分电影剧本作为训练集,训练集数据已由人工进行标注,参赛队伍需要对剧本场景中每句对白和动作描述中涉及到的每个角色的情感从多个维度进行分析和识别。该任务的主要难点和挑战包括:1)剧本的行文风格和通常的新闻类语料差别较大,更加口语化;2)剧本中角色情感不仅仅取决于当前的文本,对前文语义可能有深度依赖。数据简介
比赛的数据来源主要是一部分电影剧本,以及爱奇艺标注团队的情感标注结果,主要用于提供给各参赛团队进行模型训练和结果验证使用。
数据说明
训练数据:训练数据为txt格式,以英文制表符分隔,首行为表头,字段说明如下:
字段名称 类型 描述 说明
id String 数据ID -
content String 文本内容 剧本对白或动作描写
character String 角色名 文本中提到的角色
emotion String 情感识别结果(按顺序) 爱情感值,乐情感值,惊情感值,怒情感值,恐情感值,哀情感值
备注:
- 本赛题的情感定义共6类(按顺序):爱、乐、惊、怒、恐、哀;
- 情感识别结果:上述6类情感按固定顺序对应的情感值,情感值范围是[0, 1, 2, 3],0-没有,1-弱,2-中,3-强,以英文半角逗号分隔;
- 本赛题不需要识别剧本中的角色名; 文件编码:UTF-8 无BOM编码
- 评估标准
本赛题算法评分采用常用的均方根误差(RMSE)来计算评分,按照“文本内容+角色名”识别出的6类情感对应的情感值来统计。
图片score = 1/(1 + RMSE)
其中是yi,j预测的情感值,xi,j是标注的情感值,n是总的测试样本数。最终按score得分来排名。
- 基于预训练模型的对目标学习
这个题目可操作的地方有很多,一开始见到这个比赛的时候见想到了multi outputs的模型构建,这里给大家分享下这个基线,希望有大佬能够针对这个思路优化上去~
3.2 代码示例
加载数据
with open('data/train_dataset_v2.tsv', 'r', encoding='utf-8') as handler: |
提取情感目标train['emotions'] = train['emotions'].apply(lambda x: [int(_i) for _i in x.split(',')])
train[['love', 'joy', 'fright', 'anger', 'fear', 'sorrow']] = train['emotions'].values.tolist()
构建数据集
数据集的标签一共有六个:
class RoleDataset(Dataset): |
模型构建
class EmotionClassifier(nn.Module): |
6.4 模型训练
回归损失函数直接选取 nn.MSELoss()
EPOCHS = 1 # 训练轮数 |
模型总的loss为六个目标值的loss之和
def train_epoch( |