使用本地部署的 LLaMA 3 模型进行中文对话生成
以下程序调用本地部署的 LLaMA3 模型进行多轮对话生成,通过 Hugging Face Transformers API 加载、预处理、生成并输出最终回答。
- 程序用的是 Chat 模型格式(如 LLaMA3 Instruct 模型),遵循 ChatML 模板,并使用 apply_chat_template 正确构造 prompt。
首先执行下面这个python脚本下载大模型到本地(下载到本地的具体路径通过cache_dir参数指定)。
#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Llama-3.2-1B-Instruct', cache_dir="/root/autodl-tmp/llm")
然后,加载下载好的本地大模型,执行后续操作
from transformers import AutoModelForCausalLM, AutoTokenizerDEVICE = "cuda"# 加载本地模型路径为该模型配置文件所在的根目录
model_dir = "/root/autodl-tmp/llm/LLM-Research/Llama-3___2-1B-Instruct"
# 使用transformer加载模型
model = AutoModelForCausalLM.from_pretrained(model_dir, torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_dir)# 调用模型
# 定义提示词
prompt = "你好,你叫什么名字?你是由谁创造的?"
# 将提示词封装为message
messages = [{"role": "system", "content": "You are a helpful assistant system"},{"role": "user", "content": prompt}]
# 使用分词器的apply_chat_template方法将messages转换为chat引擎可以接受的信息
# tokenize=False表示此时不进行令牌化
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)print("--------------")
print(text)
print("--------------")# 将处理后的文本令牌化并转换为模型的输入张量
model_inputs = tokenizer([text], return_tensors="pt").to(DEVICE)
# 输入模型得到输出
generated = model.generate(model_inputs.input_ids, max_new_tokens=512)
print(generated)# 对输出的内容进行解码还原
response = tokenizer.batch_decode(generated, skip_special_tokens=True)
print(response)
root@autodl-container-38c543b634-d7f7c9f4:~/autodl-tmp/demo_10# python llama3.2_test.py
--------------
<|begin_of_text|><|start_header_id|>system<|end_header_id|>Cutting Knowledge Date: December 2023
Today Date: 12 May 2025You are a helpful assistant system<|eot_id|><|start_header_id|>user<|end_header_id|>你好,你叫什么名字?你是由谁创造的?<|eot_id|><|start_header_id|>assistant<|end_header_id|>--------------
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
tensor([[128000, 128000, 128006, 9125, 128007, 271, 38766, 1303, 33025,2696, 25, 6790, 220, 2366, 18, 198, 15724, 2696,25, 220, 717, 3297, 220, 2366, 20, 271, 2675,527, 264, 11190, 18328, 1887, 128009, 128006, 882, 128007,271, 57668, 53901, 104660, 105424, 101879, 119395, 11571, 57668,21043, 68171, 112471, 104251, 67178, 9554, 11571, 128009, 128006,78191, 128007, 271, 37046, 21043, 16197, 44689, 15836, 18328,3922, 113230, 13372, 18184, 445, 81101, 1811, 43, 81101,55951, 16197, 44689, 48044, 27384, 121790, 9554, 109683, 120074,55642, 123123, 3922, 68438, 38129, 43240, 87502, 41007, 37507,111478, 34208, 23226, 42399, 1811, 128009]], device='cuda:0')
['system\n\nCutting Knowledge Date: December 2023\nToday Date: 12 May 2025\n\nYou are a helpful assistant systemuser\n\n你好,你叫什么名字?你是由谁创造的?assistant\n\n我是 Meta 的AI assistant,目前名为 Llama。Llama 是 Meta 的一个大规模的自然语言处理模型,通过使用多种方法来学习和改进。']
这段程序的目的是:使用本地部署的 LLaMA 3 模型进行多轮中文对话生成,主要包括模型加载、输入构造、文本生成和输出解析四个核心部分。
程序一开始导入了必要的模块,并设置计算设备为 "cuda"
,也就是使用 GPU 来加速模型推理。接着,它指定了模型所在的本地目录路径 model_dir
,这个目录中应该包含 Hugging Face 格式的模型权重和配置文件。程序通过 AutoModelForCausalLM.from_pretrained
来加载模型,并指定了 torch_dtype="auto"
和 device_map="auto"
,这让 transformers 自动选择合适的数据精度(比如 float16)并智能将模型加载到可用的 GPU 上(需要安装 accelerate 库)。同时,AutoTokenizer
也从该路径中加载对应的分词器,它会把人类语言转换成模型可以理解的 token ID。
接下来,程序准备了一条用户输入:你好,你叫什么名字?你是由谁创造的?
。为了构建标准的聊天输入,程序创建了一个 messages
列表,其中包含一个 "system"
信息(设定助手角色),以及一条 "user"
提问。这种格式是 Chat 模型(如 LLaMA3 Instruct)所支持的,类似于 ChatGPT 的对话格式。之后,通过 tokenizer.apply_chat_template
方法将这组消息转换为模型能够理解的 纯文本格式。这个方法的参数中,tokenize=False
表示暂时不转换为 token ID,而 add_generation_prompt=True
会在文本结尾添加生成提示符,引导模型开始生成回答。
完成 prompt 构造后,程序使用分词器将文本转换为 token ID,并用 return_tensors="pt"
表示返回 PyTorch 张量,随后将其 .to(DEVICE)
移到 GPU 上,准备作为模型输入。然后调用 model.generate
方法,让模型基于输入生成回复。这里设置了 max_new_tokens=512
,即最多生成 512 个 token 的新内容。
模型生成的是一串 token ID,因此最后一步需要用分词器进行反解码。tokenizer.batch_decode
方法会将生成的 token 序列还原为人类可读的自然语言文本,skip_special_tokens=True
参数会去除控制符号。程序最后将生成的回复打印出来,实现了从用户提问到模型生成回答的完整过程。
相关文章:
使用本地部署的 LLaMA 3 模型进行中文对话生成
以下程序调用本地部署的 LLaMA3 模型进行多轮对话生成,通过 Hugging Face Transformers API 加载、预处理、生成并输出最终回答。 程序用的是 Chat 模型格式(如 LLaMA3 Instruct 模型),遵循 ChatML 模板,并使用 apply…...
C++编程练习,认识面向对象权限,如何进行封装
#include <iostream> #include <string> using namespace std; /* 银行的账户是一个模板,是一个类,有存款人信息和账户额度,而具体的存款人视为一个对象, 一个对象不能私自修改账户额度,需要通过一个操作流…...
A Survey of Learning from Rewards:从训练到应用的全面剖析
A Survey of Learning from Rewards:从训练到应用的全面剖析 你知道大语言模型(LLMs)如何通过奖励学习变得更智能吗?这篇论文将带你深入探索。从克服预训练局限的新范式,到训练、推理各阶段的策略,再到广泛…...
电脑端音乐播放器推荐:提升你的听歌体验!
在快节奏的职场环境中,许多上班族都喜欢用音乐为工作时光增添色彩。今天要分享的这款音乐工具,或许能为你的办公时光带来意想不到的惊喜。 一、软件介绍-澎湃 澎湃音乐看似是个普通的播放器,实则藏着强大的资源整合能力。左侧功能栏清晰陈列着…...
小刚说C语言刷题—1149 - 回文数个数
1.题目描述 一个正整数,正读和反读都相同的数为回文数。 例如 22, 131, 2442 , 37073, 66,…… 所有 11位数都是回文数。 给出一个正整数 n ( 1≤n≤10000 ),求出 1,2…...
基于SpringBoot的博客系统测试报告
一、编写目的 本报告为博客系统测试报告,本项目模拟了csdn,实现了包括了用户登录,发布博客文章,查看博客等功能。 二、项目背景 博客系统采用前后端分离的方法来实现,同时使用了数据库来存储相关的数据,…...
Koa知识框架
一、核心概念 1. 基本特点 由 Express 原班人马开发的下一代 Node.js Web 框架 基于中间件的洋葱圈模型 轻量级核心(仅约 600 行代码) 完全使用 async/await 异步流程控制 没有内置任何中间件,高度可定制 2. 核心对象 Application (Ko…...
React Native踩坑实录:解决NativeBase Radio组件在Android上的兼容性问题
React Native踩坑实录:解决NativeBase Radio组件在Android上的兼容性问题 问题背景 在最近的React Native项目开发中,我们的应用在iOS设备上运行良好,但当部署到Android设备时,进入语言设置和隐私设置页面后应用崩溃。我们遇到了…...
RCE联系
过滤 绕过空格 ● 进制绕过 题目练习 数字rce 使用$0执行bash,<<<将后面的字符串传递给左边的命令。 例如: <?php highlight_file(__FILE__); function waf($cmd) { $whiteList [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, \\, \, $, <]; $cmd_ch…...
区块链大纲笔记
中心化出现的原因是由于网络的形成(不然就孤立了,这显然不符合现实,如,社会,计算机网路),接着由于网络中结点能力一般不对等同时为了便于管理等一系列问题,导致中心化网络的出现。&a…...
SQL:JOIN 进阶
目录 JOIN 是什么? 🔹OUTER JOIN(外连接) 外连接的分类 外连接与内连接的区别 🔹USING 子句 语法结构 和 ON 的对比 📘USING 的内部逻辑 🧩 多个字段的 USING USING 的 SELECT 特性&a…...
SATA—Link层状态机
一、概述 Link层的状态机大致可以分为五类: 链路层空闲状态机通信异常处理状态机链路层发送状态机链路层接收状态机链路层电源管理下的状态机 二、链路层空闲状态机 链路层空闲状态机共包含两个状态L_IDLE、L_SyncEscape,每个状态下的处理机制与条状…...
12.2.2 allocator类
allocator类将分配内存空间、调用构造函数、调用析构函数、释放内存空间这4部分操作分开,全部交给程序员来执行,不像new和delete #include <iostream> #include <string>int main() {const int n 10;std::allocator<std::string> al…...
Qwen:Qwen3,R1 在 Text2SQL 效果评估
【对比模型】 Qwen3 235B-A22B(2350亿总参数,220亿激活参数),32B,30B-A3B;QwQ 32B(推理模型)DeepSeek-R1 671B(满血版)(推理模型) 1&a…...
Egg.js知识框架
一、Egg.js 核心概念 1. Egg.js 简介 基于 Koa 的企业级 Node.js 框架(阿里开源) 约定优于配置(Convention over Configuration) 插件化架构,内置多进程管理、日志、安全等能力 适合中大型企业应用,提供…...
latex控制表格宽度,不要超出页面
字体控制 控制表格的字体,一般使用 footnotesize ,neurips 使用的就是这个大小 列宽距控制 默认列宽距是 6pt ,可以人工调节成为 5pt,不影响字体,比较不影响可读性 % 对于 table* 环境, [htbp] 通常比 [h] 或 [h!]…...
Linux进程管理
程序、进程、服务 程序 program 安装包,未运行的代码,APP 存放在磁盘上 进程 process 已运行程序、命令、服务,一个程序可以运行多个进程、父进程启动子进程 运行在内存中 服务 service 一直运行的进程,也叫做守护进程&…...
[springboot]SSM日期数据转换易见问题
日期数据的形式有多种,如2025-05-12 14:46:50、2025.05.12 14:46,可以没有年只有月日...等等。 在SSM项目中,前后端传递日期数据时往往需要统一格式,不然会报数据类型转换异常。 在controller层中用实体类实例对象接收前端服务器传…...
数字IC后端培训教程之数字后端项目典型案例分析
今天给大家分享下最近小编帮助学员解决的几个经典数字IC后端项目问题。希望能够对大家的学习和工作有所帮助。 数字IC后端项目典型问题之后端实战项目问题记录(2025.04.24) 数字IC后端设计实现培训教程(整理版) Q1: 老师好&…...
数字ic后端设计从入门到精通4(含fusion compiler, tcl教学)CMOS VLSI Design
Layout Design Rules 一、什么是 Layout Design Rules? 布局设计规则是一套用于指导芯片物理设计的几何约束条件,确保设计可以在特定制造工艺下被正确制造。这些规则通常由代工厂(foundry)提供,规定了最小线宽、间距、…...
服务器带宽基础知识
服务器带宽基础知识详解 一、带宽的定义与基本概念 服务器带宽(Bandwidth)是指服务器与互联网之间在单位时间内传输数据的能力,通常以 Mbps(兆比特每秒) 或 Gbps(吉比特每秒) 为单位衡量。它决…...
算法-单调栈
739. 每日温度 - 力扣(LeetCode) 原理:739. 每日温度 - 力扣(LeetCode) class Solution { public:vector<int> dailyTemperatures(vector<int>& temperatures) {stack<int>sta;int ntemperatu…...
大核极坐标码
大核极性码(ℓ>2)的SC解码操作与原始极性码相似。迭代地,解码方程可以表示为: 这是给定信道输出的路径的概率。 虽然这些操作类似于传统的极坐标码,但迭代计算概率的复杂性相对于ℓ 作为,这使得它对于非…...
如何避免 JavaScript 中常见的闭包陷阱?
文章目录 1. 引言2. 什么是闭包?3. 常见的闭包陷阱及解决方案3.1 循环中的闭包陷阱3.2 内存泄漏3.3 意外的全局变量3.4 React 中的闭包陷阱 4. 总结 1. 引言 闭包(Closure)是 JavaScript 中一个强大而常用的特性,它允许函数访问其…...
免费多线程下载工具
先放下载链接:https://tool.nineya.com/s/1ir25buco Free Download Manager,简称“FDM”,是一款多线程下载工具,支持多端使用哦,像Windows、mac Os、Linux、浏览器插件以及安卓端都涵盖在内,这些版本这里都…...
Aware和InitializingBean接口以及@Autowired注解失效分析
Aware 接口用于注入一些与容器相关信息,例如: a. BeanNameAware 注入 Bean 的名字 b. BeanFactoryAware 注入 BeanFactory 容器 c. ApplicationContextAware 注入 ApplicationContext 容器 d. EmbeddedValueResolverAware 注入 解析器&a…...
【NextPilot日志移植】日志写入流程
📝 文件后端日志写入流程详解 当后端选择文件时,日志写入过程主要涉及 LogWriter 和 LogWriterFile 类的协作。以下是详细的日志写入过程解释及涉及的代码: 1. LogWriter 类初始化 在 LogWriter 类的构造函数中,如果配置的后端…...
OpenCV直方图与直方图均衡化
一、图像直方图基础 1. 什么是图像直方图? 图像直方图是图像处理中最基本且重要的统计工具之一,它用图形化的方式表示图像中像素强度的分布情况。对于数字图像,直方图描述了每个可能的像素强度值(0-255)在图像中出现…...
Babel进阶:如何自定义插件?
Babel 是一个非常流行的 JavaScript 编译器,下面我们将从零到一编写一个 babel 箭头函数语法转换插件,掌握 babel 插件设计思路与编写规范,需求很简单就是将箭头函数转换为普通函数。 const test ()>{console.log("Hello World!&qu…...
C++中类中const知识应用详解
下面将从**const 成员**、const 成员函数、const 对象、mutable、constexpr 等方面,逐一详解 C 类中常见的 const 用法及注意事项,并配合示例。 一、const 数据成员 必须在初始化列表中初始化 class A {const int x; // const 成员 public:A(int v) :…...
LeetCode 513 找树左下角的值 LeetCode 112 路径总和 LeetCode106 从中序与后序遍历序列构造二叉树
LeetCode 513 找树左下角的值 迭代法——层序遍历 思路:对树进行层序遍历操作,层序遍历完后,输出树最后一层的第一个节点。 # Definition for a binary tree node. # class TreeNode(object): # def __init__(self, val0, leftNone, r…...
电脑端实用软件合集:土拨鼠+Rufus+实时网速监控工具
朋友们好,我是李师傅!今天带来三款让人直呼"真香"的电脑工具,它们就像武林高手各怀绝技,保证让你工作效率翻倍! 1Tuboshu(电脑) 最近发现一款神奇工具——Tuboshu(发音类…...
杨校老师项目之基于SSM与JSP的鲜花销售系统-【成品设计含文档】
基于SSMJSP鲜花商城系统 随着电子商务的快速发展,鲜花在线销售已成为一种重要的消费模式。本文设计并实现了一个基于JSP技术的鲜花销售管理系统,采用B/S架构,使用SSM框架进行开发,并结合Maven进行项目依赖管理。系统分为前台用户模…...
linux服务器免密脚本分享
#!/bin/bash set -euo pipefail# 基础环境配置 setenforce 0 >/dev/null 2>&1 || true sed -i "s/SELINUXenforcing/SELINUXdisabled/" /etc/selinux/config systemctl stop firewalld >/dev/null 2>&1 || true systemctl disable firewalld >…...
STM32实现循环队列
1. 循环队列的核心结构设计 数据结构定义:通常使用结构体封装队列的指针、长度及缓冲区。例如: typedef struct {u16 Head; // 队头指针u16 Tail; // 队尾指针u16 Length; // 当前队列长度u8 Rsv_DAT[50]; // 缓冲区数组 } ringbuff_t; 其中…...
matlab simulink双边反激式变压器锂离子电池均衡系统,双目标均衡策略,仿真模型,提高均衡速度38%
双边反激式变压器锂离子电池均衡系统,双目标均衡策略 锂离子电池均衡系统综述 引言 电池均衡管理系统(Battery Balancing Management System, BBMS)是电池管理系统(BMS)的核心组成部分,主要用于解决电池组中单体电池间的不一致性问题。随着电动汽车、储能…...
数据库笔记(1)
文章目录 1.SQL的通用语法2.四类SQL语句2.1DDL语句2.2.1数据库操作2.1.2表操作 2.2DML语句2.2.1添加数据(INSERT)2.2.2修改数据(UPDATE)2.2.3删除数据(DELETE) 2.3DQL语句2.3.1DQL语法2.3.2基本查询2.3.3条件查询2.3.4分组查询2.3.5排序查询2.3.6分页查询2.3.7DQL语句的执行顺序…...
深入掌握CSS定位:构建精密布局的核心技术
一、定位的定义 定位(Positioning)是CSS中用于控制元素在网页中的具体位置的一种机制。通过定位,可以将元素放置在页面的任意位置,并控制其与其他元素的层叠关系。 二、定位的特点与作用 自由摆放位置: 允许元素摆放…...
使用达梦数据库官方管理工具SQLark导入与导出数据库表
SQLark 是达梦数据官方自主研发的、一款面向信创应用开发者的数据库开发和管理工具。只需简单注册,即可永久免费使用其客户端功能。该工具支持连接达梦、Oracle、MySQL 等多种数据库,为开发者提供了便捷的跨平台操作体验。通过访问官网 www.sqlark.com&a…...
Linux系统管理与编程19:自动部署dns
兰生幽谷,不为莫服而不芳; 君子行义,不为莫知而止休。 #!/bin/bash #----------------------------------------------------------- #前提条件:准备好虚拟机,①外网内网畅通,②yum源搭建好 # File Name: …...
JavaScript高级进阶(七)
this对象 想知道this对象是什么,我们先来看一段简单的小代码: <style> div{ width: 200px; height: 200px; background-color: skyblue; } </style> </head> <body> <div…...
前端面试每日三题 - Day 32
这是我为准备前端/全栈开发工程师面试整理的第32天每日三题练习: ✅ 题目1:Electron主流架构模式深度解析 核心架构模式对比 模式优点缺点适用场景单一窗口模式开发简单、资源占用低功能扩展受限小型工具类应用多窗口模式模块解耦、独立运行进程管理复…...
MySQL全量,增量备份与恢复
目录 一.MySQL数据库备份概述 1.数据备份的重要性 2.数据库备份类型 3.常见的备份方法 二:数据库完全备份操作 1.物理冷备份与恢复 2.mysqldump 备份与恢复 3.MySQL增量备份与恢复 3.1MySQL增量恢复 3.2MySQL备份案例 三:定制企业备份策略思路…...
摆脱拖延症的详细计划示例
以下是一个以一周为周期,帮助你摆脱拖延症的详细计划示例,你可以根据自己的实际情况进行调整和完善。 --- # 摆脱拖延症一周计划 ## 一、计划目标 通过一系列有针对性的方法和行动,逐步克服拖延习惯,提高任务执行效率和自我管理…...
Linux512 ssh免密登录 ssh配置回顾
下载MX 官网 参考 OK 登个tom试试 然后再计划登个RealServer 计划再用仅主机网卡试试 连不上 看来要通过JumpServer再联 通过网卡访问 被踢掉了 成功通过跳板机JumpServer登入到RealServer 方法一免密登录 现计划尝试方法二 只有1个tom 我连了两个tom 看来是根据IP划…...
批量重命名bat
作为一名程序员,怎么可以自己一个个改文件名呢! Windows的批量重命名会自动加上括号和空格,看着很不爽,写一个bat处理吧!❥(ゝω・✿ฺ) 功能:将当前目录下的所有文件名里面当括号和空格都去掉。 用法&…...
Unity动画系统使用整理 --- Playable
Playable API 是一个强大的工具,用于更灵活地控制动画、音频、脚本等时间轴内容的播放和混合。它提供了比传统 Animator 更底层、更可控的方式管理时间轴行为,尤其适合复杂动画逻辑或动态内容组合的场景。 优点: 1.Playables API 支…...
用C语言实现的——一个完整的AVL树的交互式系统
一、知识要点 AVL树(Adelson-Velsky and Landis Tree)是一种自平衡二叉搜索树,由俄罗斯计算机科学家 Georgy Adelson-Velsky 和 Evgenii Landis 在 1962 年提出。它具备以下特点: AVL树的性质 二叉搜索树(排序树&am…...
洛谷B3648 [语言月赛202208] 你几岁了
#include<bits/stdc.h> using namespace std; int main(){int n;cin>>n;cout<<"I am "<<n<<" years old.";return 0; }...
智能指针入门:深入理解 C++ 的 shared_ptr
文章目录 前言一、什么是 shared_ptr?二、创建share_ptr三、使用share_ptr1.输出结果2.结果分析 四、工作原理五、注意事项六、使用场景总结 前言 提示:这里可以添加本文要记录的大概内容: 在 C 的开发中,手动管理内存一直是一项…...