Lynx Li

Optimizer Factory -- 写一个能够按层衰减的优化器工厂

1 Introduction 按层调节学习率是很重要的，但原始的torch.optim.optimizer类不含按层调整的功能，所以我们需要自定义一个流程来实现。为了方便的创建带这个功能的optimizer，最好的做法是使用工厂设计模式来创建optimizer。当我们需要不同的优化器的时候，optimizer factory总能够帮我们“加工”torch的optimizer来增加按层调整功能。 2

2025-05-12

AI Infra

#PyTorch #深度学习

RLHF -- DPO

RLHF – DPO ongoing

2025-05-12

LLM > RLHF

#深度学习 #智能系统 #AIGC

RLHF -- GRPO

RLHF – GRPO ongoing

2025-05-12

LLM > RLHF

#深度学习 #智能系统 #AIGC

RLHF -- From Zero to PPO 代码篇

RLHF: From Zero to PPO 代码篇 1 简单的强化学习示例 ongoing 2 从OpenRLHF中看PPO实现 ongoing

2025-05-12

LLM > RLHF

#深度学习 #智能系统 #AIGC

RLHF -- From Zero to PPO 理论篇

RLHF: From Zero to PPO 理论篇 1 强化学习101 1.1 建立基本框架假设我们有一个个体（agent），其处在某个环境中，个体在这个环境里一定会存在一个状态（state）（空间中的位置，时间中的某一刻），个体会采取某个行动（action）（例如空间中移动）导致状态更新。个体行动的方式被policy建模。 policy的作用是使用概率建模个体在某个状态下采取某个行动的概率。

2025-05-12

LLM > RLHF

#深度学习 #智能系统 #AIGC

最初的sin/cos编码

位置编码–最初的sin/cos编码 1 1D 序列的sin/cos编码 1.1 介绍众所周知，Transformers模型本身没有关于位置的inductive bias，所以需要额外注入位置信息。在最初的《Attention is All You Need》[1]文章中，作者提出了首个流传至今的位置编码方式: sin/cos位置编码。假设模型的输入embedding为x∈RB×T×dx\in

2025-05-12

LLM > Position Encoding

#深度学习 #智能系统 #AIGC

Why model.enable_input_require_grads()?

What happens when using LoRA? It starts with the error RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn when you have part of the parameters

2025-05-12

LLM > Troubleshooting

#Deep Learning #AI

Rethinking R1-like Rule-based RL

2025-05-08

Research Blogs

#LLM #Reasoning

05：矩阵分解

05：矩阵分解 1 λ\lambdaλ-矩阵 1.1 定义定义：我们记aij(λ)=λn+λn−1+⋯+1a_{ij}(\lambda) = \lambda^n+\lambda^{n-1}+\cdots+1aij(λ)=λn+λn−1+⋯+1是数域F上的多项式，则矩阵 A(λ)=[a11(λ)a12(λ)⋯a1n(λ)a21(λ)a22(λ)⋯a2n(λ)⋮⋮⋱⋮am1(λ)am2(λ)⋯am

2025-05-08

信息与通信工程 > 矩阵论

#数学 #矩阵论 #矩阵分析

02：信号的分析方法

02 Chapter 2：信号的分析方法 1 经典信号分析简要回顾信号与系统的内容 1.1 DC分量和AC分量信号s(t)s(t)s(t)的DC分量是它在时间上的平均 Sdc=lim⁡T→∞1T∫−T2T2s(t)dtS_{dc}=\lim\limits_{T\rightarrow \infty}\frac{1}{T} \int_{-\frac{T}{2}}^{\frac{T}{2}}s(t)

2024-01-07

通信工程本科 > 通信原理

#通信原理 #本科课程