继续请教问题:关于 Pytorch 的 Autograd

雷达 · 发表于 2023-2-14 13:09:28

本帖最后由雷达于 2023-2-14 13:12 编辑

为预防老年痴呆，时不时学点新东东玩一玩。
Pytorch 下面的代码做最简单的一元线性回归：
----------------------------------------------
import torch
import numpy as np
import matplotlib.pyplot as plt
import random

x = torch.tensor(np.arange(1,100,1))
y = (x*27+15+random.randint(-2,3)).reshape(-1)  # y=wx+b, 真实的w0 =27, b0=15

w = torch.tensor(0.,requires_grad=True)  #设置随机初始 w,b
b = torch.tensor(0.,requires_grad=True)

epochs = 100

losses = []
for i in range(epochs):
  y_pred = (x*w+b) # 预测
  y_pred.reshape(-1)

  loss = torch.square(y_pred - y).mean() #计算 loss
  losses.append(loss)

  loss.backward() # autograd
  with torch.no_grad():
w  -= w.grad*0.0001 # 回归 w
b  -= b.grad*0.0001    # 回归 b
  w.grad.zero_()
  b.grad.zero_()

print(w.item(),b.item()) #结果

Output： 27.26387596130371  0.4974517822265625
----------------------------------------------
最后的结果，w可以回到 w0 = 27 附近，b却回不去 b0=15。两处红字，损失函数是矢量计算后的均值，感觉 b 的回归表达有问题。
高手们帮看看是神马原因？

老福 · 发表于 2023-2-14 19:23:02

本帖最后由老福于 2023-2-14 21:58 编辑

没有用过pytorch，但你把随机噪音部分改成均值为0的正态分布再试试看是不是符合预期？
-------
不好意思，再看一遍，好像你在自算回归而不是用现成的工具直接出结果，上面的评论只有一点用，就是确认是不是算法有问题。
-------
算法诊断部分，建议把循环次数改为1000, 再看看loss是不是收敛。有点怀疑你循环次数不够，因为你起点是0, 步长很小。只是直观建议。

雷达 · 发表于 2023-2-14 21:52:57

老福发表于 2023-2-14 19:23
/ ?' @4 M" b+ a0 {1 V- M- }; z8 d没有用过pytorch，但你把随机噪音部分改成均值为0的正态分布再试试看是不是符合预期？
2 O) q$ ~2 A6 v5 k-------
9 E* w, I% j0 v: x* }: n7 H; X1 G不好意思， ...

谢谢，算法应该没问题，就是最简单的线性回归。
我特意没有用现成的工具，就是想从最基本的地方深入理解一下。

老福 · 发表于 2023-2-14 22:00:48

本帖最后由老福于 2023-2-14 22:02 编辑

雷达发表于 2023-2-14 21:526 h$ k6 j# u- {( P; }5 d5 o
谢谢，算法应该没问题，就是最简单的线性回归。& r* x1 w8 B o: G! J9 F
我特意没有用现成的工具，就是想从最基本的地方深入理解 ...

刚才更新了一下，建议增加循环次数或调一下步长，查一下loss曲线。

或者把b但的起点改为1试试。

雷达 · 发表于 2023-2-15 00:25:26

本帖最后由雷达于 2023-2-15 00:31 编辑

老福发表于 2023-2-14 22:00
9 K) y# R/ O& b& W0 c. w刚才更新了一下，建议增加循环次数或调一下步长，查一下loss曲线。
' ] a9 h2 b; P( P/ S% ~- G% T
或者把b但的起点改为1试试。 ...

你是对的。
去掉了随机部分
#y = (x*27+15+random.randint(-2,3)).reshape(-1)
y = (x*27+15).reshape(-1)

循环次数加成10倍，就看到 b 收敛了
w , b
27.002620697021484 14.826167106628418

和 b 的起始位置无关，但 labeled data 用 y = (x*27+15+random.randint(-2,3)).reshape(-1) ，收敛就很慢。

		自动登录	找回密码
密码			注册

[信息技术] 继续请教问题:关于 Pytorch 的 Autograd

评分

评分

浏览过的版块