前言:
简洁实现:使用深度学习开源框架达到目的
一、生成数据集
#线性回归的简洁实现就是使用pytorch内置的一些模块来实现 import numpy as np import torch from torch.utils import data #从torch.utils中导入关于data处理的模块 from d2l import torch as d2l
true_w = torch.tensor([2, -3.4])#构造w true_b = 4.2#构造b features, labels = d2l.synthetic_data(true_w, true_b, 1000)#synthetic_data生成数据集函数
在这里,我们通过true_w和true_b生成有1000个数据的数据集(也就是说,)
二、读取数据集
1、调用框架中现有的API来读取数据
2、将 features
和 labels
作为API的参数传递,并在实例化数据迭代器对象时指定 batch_size
# is_train=True:表示希望数据迭代器对象在每个迭代周期内打乱数据 # data_arrays:表示可以传入多个矩阵,即是将features和labels作为参数,data_arrays相当于一个API def load_array(data_arrays, batch_size, is_train=True): #@save """构造一个PyTorch数据迭代器。""" #TensorDateset:把输入的两类数据进行一一对应; #DataLoader:重新排序 dataset = data.TensorDataset(*data_arrays)#*可以对list解开入参,因为features和labels作为API参数传递 return data.DataLoader(dataset, batch_size, shuffle=is_train)#每次随机挑选batch_size个样本,shuffle意思是要不要打乱顺序
# 读取10个样本 batch_size = 10 data_iter = load_array((features, labels), batch_size)
# 不能直接从data_iter中获得数据 next(iter(data_iter))#将data_iter用iter()函数转为迭代器,再使用next()函数从迭代器中获取数据 #输出结果 [tensor([[-0.5143, -1.0371], [ 0.0254, -0.1204], [ 0.1787, 0.2586], [-0.6284, 0.7571], [-0.3744, 0.5989], [ 0.1679, -1.5357], [-0.6135, -1.2744], [ 0.3798, -0.8941], [-1.6691, -0.6110], [ 0.0555, -0.3930]]), tensor([[6.7026], [4.6815], [3.6661], [0.3918], [1.4045], [9.7481], [7.2834], [7.9958], [2.9436], [5.6409]])]
三、定义模型
1、使用框架的预定义好的层,即我们只需关注使用哪些层来构造模型,而不必关注层的实现细节
2、实现步骤:
首先定义一个模型变量net
,它是一个 Sequential
类的实例
Sequential
类为串联在一起的多个层定义了一个容器。当给定输入数据, Sequential
实例将数据传入到第一层,然后将第一层的输出作为第二层的输入,依此类推
3、Pytorch中,全连接层在Linear类中定义。Linear中,第一个变量为输入特征形状,第二个变量为输出特征形状
# `nn` 是神经网络的缩写 from torch import nn # Linear中,第一个指定输入特征数,第二个指定输出数 net = nn.Sequential(nn.Linear(2, 1))#输入维度是2,输出维度是1; #nn.Linear(2,1)可以理解为线性回归就是简单的单层神经网络,将其放在一个Sequential中
四、初始化模型参数
1、在使用net前,需要初始化模型参数,如在此需要初始化权重与偏置
2、 在这里,我们指定每个权重参数应该从均值为0、标准差为0.01的正态分布中随机采样,偏置参数将初始化为零
# net[0]:表示使用网络中的第一个图层 # 权重参数从均值为0,标准差为0.01的正态分布中随机采样 print(net[0].weight.data) net[0].weight.data.normal_(0, 0.01)#normal_(0, 0.01)的意思是使用正态分布替换data的值,均值为0、标准差为0.01 print(net[0].weight.data) #偏置参数初始化为0 print(net[0].bias.data) net[0].bias.data.fill_(0)#bias偏差 print(net[0].bias.data) #输出函数 tensor([[ 0.0080, -0.0021]]) tensor([[-0.0073, 0.0137]]) tensor([0.]) tensor([0.])
五、定义损失函数
1、计算均方误差使用的是MSELoss类,也称为平方L2范数
2、默认情况下,他返回所有样本损失的平均值
# 平方L2范数,返回所有样本损失的平均值 loss = nn.MSELoss()
六、定义优化算法——梯度下降优化算法
# net.parameters()常用于做模块参数 # SGD随机梯度下降求解 trainer = torch.optim.SGD(net.parameters(), lr=0.03)#net.parameters()包括w和b
七、训练
1、在每个迭代周期里,我们将完整遍历一次数据集
2、在每个迭代周期里,会不停地从中获取一个小批量的输入和相应的标签,对于每一个小批量,操作如下:
- 通过调用
net(X)
生成预测并计算损失l
(正向传播)。 - 通过进行反向传播来计算梯度。
- 通过调用优化器来更新模型参数。
num_epochs = 3#迭代三个周期 for epoch in range(num_epochs): for X, y in data_iter: l = loss(net(X), y)#loss是损失函数 trainer.zero_grad()#trainer优化器,先把梯度清零 l.backward()#等价于l.sum().backward()——求和之后算梯度 trainer.step()#调用优化算法进行模型更新 l = loss(net(features), labels) print(f'epoch {epoch + 1}, loss {l:f}') #输出结果 epoch 1, loss 0.000215 epoch 2, loss 0.000107 epoch 3, loss 0.000108
3、比较生成数据集的真实参数和通过有限数据训练获得的模型参数
w = net[0].weight.data print('w的估计误差:', true_w - w.reshape(true_w.shape)) b = net[0].bias.data print('b的估计误差:', true_b - b) #输出结果 w的估计误差: tensor([ 5.0187e-05, -1.9765e-04]) b的估计误差: tensor([0.0008])