elrond's Blog

Vllm:高性能大语言模型推理框架源码解析与最佳实践

vLLM:高性能大语言模型推理框架源码解析与最佳实践 目录 引言 快速上手 2.1. 安装配置 2.2. 基本用法 核心调用流程分析 3.1. 总体调用链路概述 3.2. 核心组件与类层次结构 3.3. 初始化阶段详细流程 3.4. 推理阶段详细流程 3.5. 完整调用链路示例 3.6. 关键调用路径总结 vLLM 关键工作机制 4.1. PagedAttention ...

Mcp 智能聊天助手示例项目

MCP 智能聊天助手示例项目 项目地址 基于Model Context Protocol的智能对话系统示例 项目简介 本项目是基于MCP (Model Context Protocol)框架的智能聊天助手示例,展示了如何使用大语言模型(LLM)与外部数据源和工具进行集成,实现跨模态、多能力的智能对话系统。 MCP框架介绍 MCP (Model Context Pr...

使用3090显卡部署Wan2.1生成视频

使用3090显卡部署Wan2.1生成视频 1. 环境说明 2. 模型下载 3. 克隆仓库 4. 安装依赖 5. 生成视频 5.1. 使用generate脚本生成 5.2. 使用gradio启动UI界面生成 ...

Deploying Wan2.1 for Video Generation with 3090 GPU

Deploying Wan2.1 for Video Generation with 3090 GPU 1. Environment Requirements 2. Model Download 3. Clone Repository 4. Install Dependencies 5. Generate Vid...

HAMI-core 调试

HAMI-core 调试 1. 动态链接库编译 1.1. 编译时需要增加debug符号 1.2. 设置方法可调试 1.3. 编译 2. debug确认 3. 动态链接库加载 4. 调试 5. 一个debu...

Golang Interview

知识点 goroutine为什么比线程快 创建调度与销毁: goroutine的创建调度与销毁都在用户态,线程的在内核态 内存分配: goroutine栈内存为2-4KB,线程1MB 切换: goroutine切换时仅需要保护少数寄存器,而线程则需要保护大量的寄存器,goroutine无需操作系统线程切换 GMP 两级线程模型,内核调度实体kse与线程的对应关系...

HAMI项目GPU POD调度流程源码走读

1. 概述 2. 调度流程 3. Pod调度流程 常见的几个问题排查及处理 Pod UnexpectedAdmissionError 调度问题 3.1. MutatingWebhook 3.1.1. webhook...

HAMI项目本地调试

HAMI项目本地调试 English version generated by AI. 查看英文版 HAMI项目本地调试 1. 前提 2. 创建本地目录保存本地配置 2.1. 创建文件夹 3. hami-device本地调试 ...

HAMI Project Local Debugging

English version generated by AI. 查看中文版 HAMI Project Local Debugging HAMI Project Local Debugging 1. Prerequisites 2. Create Local Directory for Configuration ...

容器启动加速Nydus调研与实践

1. 概述 1.1. 使用nydus需要考虑的问题 1.2. 当前实践探索中遇到的问题 2. 容器集成nydus 2.1. contanierd 集成【核心】 2.1.1. 版本说明 2.1.2. 概念说明 2.1.3. 构建 ...