Lynx Li
  • Home
  • Archives
  • Categories
  • Tags
  • About
_

6 posts in total


2025

05-12
Why model.enable_input_require_grads()?
02-16
RLHF -- GRPO
02-16
RLHF -- DPO
02-16
RLHF -- From Zero to PPO 代码篇
02-13
RLHF -- From Zero to PPO 理论篇
02-06
最初的sin/cos编码

Search

Hexo Fluid
总访问量 8697 次 总访客数 5131 人