Pytorch训练时候导入大量数据(How to load large data)

2019年6月20日07:12:413 5664字阅读18分52秒

摘要这一篇文章主要讲一下在Pytorch中，如何处理数据量较大，无法全部导入memory的情况。同时，也会说明一下如何使用Pytorch中的Dataset。

文章目录(Table of Contents)

前言

有的时候，我们会在训练的时候训练数据集较大，无法全部导入到内存中去，于是就有了这篇文章。这里会讲几种我自己在实际使用过程中使用的方法。

不过不管使用什么样的方法，都是需要自己来重写torch.utils.data.Dataset的。在这里也是进行记录。

首先说一下总体的做法。

首先第一个步骤，原始文件为有一个较大的csv文件，我们无法全部读入内存中去，于是我们先转换为HDF5文件。

我们打印一下数据的大小，查看一下是否和我们想要的大小是一样的。

接下来看一下打印一下具体的数据，来查看一下是否正确。

在这里，我们需要继承Dataset, 重写抽象方法: len(), getitem()。其中这两个方法的作用分别如下：

下面是针对HDF5数据的读取方式。

class MyDataset(torch.utils.data.Dataset):
def __init__(self, fileName, features='features', labels='labels', transform=None):
self.h5f = h5py.File(fileName, 'r')
self.data_X = self.h5f[features] # 返回特征数据
self.data_Y = self.h5f[labels] # 返回label数据
self.size = self.data_X.shape[0] # 数据集的整个大小
self.transform = transform # 对原始数据进行变换
def __getitem__(self, idx):
# self.data_X = transform(self.data_X)
# self.data_Y = transform(self.data_Y)
query = torch.tensor([int(i) for i in self.data_X[idx,1].split(' ')]).long()
query_len = query.size(0) # 获取query填充前的真实长度
# query = self.pad_sequences(query, 50)
title = torch.tensor([int(i) for i in self.data_X[idx,3].split(' ')]).long()
title_len = title.size(0) # 获取title填充前的真实长度
# title = self.pad_sequences(title, 20)
content = torch.cat([query, title],dim=0)
content_len = query_len + title_len
if content_len > 100: # 大于100的len也要修改为100
content_len = 100
content = self.pad_sequences(content, 100)
labels = torch.tensor(self.data_Y[idx]).long()
return content, content_len, labels
def __len__(self):
return self.size
def pad_sequences(self, x, max_len):
"""定义自动填充的函数
"""
padded = np.zeros((max_len), dtype=np.int64)
if len(x) > max_len:
padded[:] = x[:max_len]
else:
padded[:len(x)] = x
return padded
train_dataset = MyDataset(fileName='./train_data.h5', features='features', labels='labels')

我自己实验了一下，这种方法在数据量很大的时候，数据集进行转换需要消耗较长的时间。所以后来没有使用这种方式，使用了下面的方式。

对于灰度图, 我们首先需要进行转换, 因为datasets.ImageFolder默认是会按照RGB进行导入, 所以我们需要首先转换为grayscale, 我们可以实验transforms.Grayscale来进行转换, 如下面的例子所展示.

同时, 下面的例子展示了如何对灰度图进行Normalize.

其实这个方法和Pytorch没什么关系，就是把大文件切分成小文件，之后使用小文件来进行训练。

# 分别生成三组对应的数据
csv_path = '/home/kesci/input/bytedance/first-round/train.csv'
base = 1000000 # 每个文件都存储100万条记录
names_list = ['train', 'stacking', 'test']
# train, test, stacking中数据各占的比例
iterations_dict = {'train':90, 'stacking':5, 'test':5}
skiprow = 0
for name in names_list:
iterations = iterations_dict[name]
for itera in range(1, iterations+1):
df = pd.read_csv(csv_path,
header=None,
nrows = base,
skiprows=skiprow) # 跳过读取的行数
skiprow = skiprow + base
df.to_csv('/home/kesci/work/data/{}/{}_{}.csv'.format(name,name,itera), header=False, index=False)
print('文件{}_{}.csv导出成功. skiprow={}'.format(name, itera,skiprow))

评论：3 其中：访客 1 博主 2

葛一飞
2021年3月2日上午11:31 1F
回复

楼主您好，想咨询一下，采用第二种方式，如何加载多个小文件在一个模型上训练，我也在您的公众号上咨询了
- 王茂南
  2021年3月4日下午6:02 B1
  回复
  
  @ 葛一飞你好，不知道我理解的是否正确，多个小文件，就类似于多张图片，训练时候同时加载多个图片。可以有下面两种（我觉得）：
  1. 如果使用 Pytroch 需要重写 Dataset 类
  2. 将多个小文件先保存为 npy 格式再加载即可。
- 王茂南
  2021年3月4日下午6:02 B1
  回复
  
  @ 葛一飞另外，你就直接在网站留言就行，公众号现在看的比较少。