RLHF -- From Zero to PPO 代码篇 RLHF: From Zero to PPO 代码篇 1 简单的强化学习示例 ongoing 2 从OpenRLHF中看PPO实现 ongoing 2025-05-12 LLM > RLHF #深度学习 #智能系统 #AIGC
RLHF -- From Zero to PPO 理论篇 RLHF: From Zero to PPO 理论篇 1 强化学习101 1.1 建立基本框架 假设我们有一个个体(agent),其处在某个环境中,个体在这个环境里一定会存在一个状态(state)(空间中的位置,时间中的某一刻),个体会采取某个行动(action)(例如空间中移动)导致状态更新。个体行动的方式被policy建模。 policy的作用是使用概率建模个体在某个状态下采取某个行动的概率。 2025-05-12 LLM > RLHF #深度学习 #智能系统 #AIGC
最初的sin/cos编码 位置编码–最初的sin/cos编码 1 1D 序列的sin/cos编码 1.1 介绍 众所周知,Transformers模型本身没有关于位置的inductive bias,所以需要额外注入位置信息。在最初的《Attention is All You Need》[1]文章中,作者提出了首个流传至今的位置编码方式: sin/cos位置编码。 假设模型的输入embedding为x∈RB×T×dx\in 2025-05-12 LLM > Position Encoding #深度学习 #智能系统 #AIGC
Why model.enable_input_require_grads()? What happens when using LoRA? It starts with the error RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn when you have part of the parameters 2025-05-12 LLM > Troubleshooting #Deep Learning #AI
05:矩阵分解 05:矩阵分解 1 λ\lambdaλ-矩阵 1.1 定义 定义:我们记aij(λ)=λn+λn−1+⋯+1a_{ij}(\lambda) = \lambda^n+\lambda^{n-1}+\cdots+1aij(λ)=λn+λn−1+⋯+1是数域F上的多项式,则矩阵 A(λ)=[a11(λ)a12(λ)⋯a1n(λ)a21(λ)a22(λ)⋯a2n(λ)⋮⋮⋱⋮am1(λ)am2(λ)⋯am 2025-05-08 信息与通信工程 > 矩阵论 #数学 #矩阵论 #矩阵分析
02:信号的分析方法 02 Chapter 2:信号的分析方法 1 经典信号分析 简要回顾信号与系统的内容 1.1 DC分量和AC分量 信号s(t)s(t)s(t)的DC分量是它在时间上的平均 Sdc=limT→∞1T∫−T2T2s(t)dtS_{dc}=\lim\limits_{T\rightarrow \infty}\frac{1}{T} \int_{-\frac{T}{2}}^{\frac{T}{2}}s(t) 2024-01-07 通信工程本科 > 通信原理 #通信原理 #本科课程
01:信号与系统的基础 01 信号与系统的基础 1 信号 信号其实广泛指代现实世界中的各种物理现象,例如,人说话的声音是一种信号,它在不同时间有不同的音量大小。股票价格是一种信号,在不同时间股票的价格不同。当然,也有与时间没有关系的信号,例如一张静态的图片,图片上像素点的亮度值与所处图片的位置有关。 所以,信号总是一种在变换的值,可能随着时间变化(声音,股票),可能随着空间变化(图片)。它可能还随着其它因素变化,但在这门 2024-01-06 通信工程本科 > 信号与系统 #本科课程 #信号与系统
01:通信的基本概念 01 Chapter 1:通信的基本概念 1 基本概念 通信的需求起源于人们想要把一段信息传输到另外一个地方去。如果距离近,例如两人面对面,那只需要开口说话就行了,但一旦距离很远,通信需要各种各样的工程方法。 1.1 信息,消息与信号 例1:Alice想要传递“一起去旅游”的信息给Bob,她可以写短信,可以打电话,可以发起视频聊天,这代表着信息能够被表达成不同的消息。而她无论采取哪种方式,最终都会 2024-01-06 通信工程本科 > 通信原理 #通信原理 #本科课程