Transfomer 框架 | 逐层剖析,从原理到代码 本文是笔者根据 2017 年由 Google 的研究者发表的论文《Attention is all you need》与 深蓝学院的 LLM 课程 总结的一份 Transformer 框架的技术文档。 Transformer 是当下非常流行的深度学习模型,自从其提出来后,它迅速成为了许多 NLP 任务的基础架构,比如机器翻译、文本摘要、情感分析和问答系统,大名鼎鼎的 ChatGPT 系列其实也是基 2023-11-15 机器学习 #NLP #Transformer #CV
深入理解 DDPM DDPM,全称为 Diffusion Denoising Probability Models(扩散去噪概率模型),是一种生成模型,用于生成高质量的数据样本,如图像、音频或文本。这种方法的核心思想是模拟数据生成的逆向扩散过程,通过逐步去除噪声来生成数据样本。DDPM的工作原理可分为两个主要阶段:正向扩散(加噪)和逆向扩散(去噪)。本文将主要从数学角度详细剖析这两个过程。 正向加噪过程 对 \(t 2024-03-12 机器学习 #机器学习 #深度学习 #概率论 #DDPM #扩散模型
脉冲神经网络 SNN 第三代神经网络 SNN 尖峰神经网络(SNN,Spike Neural Network)是一种神经网络模型,它在模拟人脑处理信息方式方面比传统的人工神经网络更为接近。 SNN 的独特之处在于其神经元之间的交流是通过“尖峰”(Spike),即短暂的电信号脉冲来实现的,类似于生物神经元的通信方式。这种方式允许 SNN 以一种高效的时间编码方式处理信息,使得网络能够响应快速变化的输入信号并在更低的功耗下 2024-01-26 机器学习 #机器学习 #SNN
数据链路层 —— MAC 子层 MAC 子层 什么是 MAC 子层? MAC(Medium Access Control)子层,是数据链路层的一部分,主要负责在物理介质上传输数据包。 在 OSI 模型中,数据链路层被分为逻辑链路控制(LLC)子层和媒体访问控制(MAC)子层,其中: LLC 子层负责管理服务质量,例如流量控制和错误检测(不同于MAC层的错误检测)。这包括重发机制,以确保信息的正确传输等;而 MAC 子层处理物理地 2023-12-11 计算机网络 #数据链路层 #媒体访问控制 #ALOHA #CSMA #以太网
线程与并发 线程 线程与进程的关系 回顾:什么是进程? 进程(Process)是程序运行的实例。一个进程由当前状态和系统资源组成。 当前状态(Current State) 包括 CPU 寄存器、栈指针、PC 指针等。 系统资源(System Resources) 地址空间、I/O 状态等。 每个进程的系统资源都是受到保护的。 什么是线程? 线程(Thread)是进程中的顺序执行流(Sequential e 2023-12-06 操作系统 #操作系统 #并发 #线程 #死锁
基于 Transfomer 的预训练模型 | GPT GPT(Generative Pre-trained Transformer)是一个由 OpenAI 开发的先进的自然语言处理(NLP)模型,专门用于处理各种语言任务。它基于 Transformer 架构,一种在 NLP 领域非常有效的深度学习模型结构。GPT 模型在多种语言任务上表现出色,包括但不限于:文本生成、问答系统、机器翻译、文本摘要、感情分析等。 要注意的是,不同于 BERT,GPT 是 2023-12-03 机器学习 #机器学习 #NLP #Transformer #深度学习 #GPT #LLM
Scrapy 框架学习笔记 Scrapy 是一个基于 Python 的快速的、高级别的 web 爬虫和 web 抓取框架,旨在用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 可以应用于一系列的网路数据抓取任务,从信息提取、数据挖掘到监控和自动化测试。 以下是笔者根据官方文档和 B 站上的教程写的一份学习笔记。 Scrapy 核心组件 爬虫(Spiders):这些是遍历网络收集数据的网络爬虫。它们向网站发 2023-11-20 Python #Python #爬虫 #Scrapy
内存管理 为什么需要内存管理? 计算机的内存被所有进程共享,但是编译器和程序员无法得知当前还有多少进程在内存中的什么地方。 内存管理的主要需求: 代码重定向(Code relocation) 代码重定位是指将程序中的某些代码或数据从一个位置移动到另一个位置的过程。 保护 & 共享(Protection & Sharing) 使得每个进程都有自己的地址空间,便于程序员编程 虚拟内存 & 2023-11-02 操作系统 #操作系统 #内存管理 #MMU #页表
循环神经网络 RNN 时序神经网络 时序神经网络(Time Series Neural Networks, TSNN)并不是一个特定的神经网络类型,而是指那些用于处理时间序列数据的神经网络。这种数据具有时间顺序的特点,如自然语言、股票价格、气象数据、音频信号、视频帧等。常见的时序神经网络有 RNN、LSTM、GRU、1D CNN 等等。 设想接下来一个场景:我们设计了一个自动购票系统,我们根据用户输入的语句自动判断其起 2023-10-30 机器学习 #机器学习 #NLP #深度学习 #时序神经网络 #RNN
数据链路层 —— 流量控制 为什么需要流量控制 ? 流量控制(Flow control)是链路层中主要功能之一,主要目的是确保发送方不会溢出接收方的缓冲区。这是一种防止发送方发送太多数据给接收方,后者来不及处理的机制。 流量控制协议 乌托邦协议 乌托邦协议(Utopian simplex protocol)是最理想状态下的传输协议,此协议有以下假设: 单工信道(Simplex channel) 信道无错(Error-fre 2023-10-29 计算机网络 #数据链路层 #流量控制