术语表

下列释义为本站阅读语境下的工作定义；严格定义以学术论文或厂商技术文档为准。

LLM（大语言模型）

以自回归或前缀语言建模为主的大规模神经网络，常用于对话、代码、推理与工具调用等任务；行为受规模与后训练方式显著影响。

在给定环境中感知状态、规划步骤并调用工具以完成目标的系统；可为单智能体或多智能体协作，评价维度常包括成功率、步数与成本。

自数据、训练、评测至部署与监控的一整套软件与流程；本语境下强调可重复、可观测与可交付。

用于比较模型或系统能力的一组标准化任务与指标；版本更迭与数据污染会影响可比性。

在构建阶段将内容与模板编译为静态文件，部署后无需按请求进行服务端渲染；有利于性能与成本。

在生成前从知识库或文档中检索相关片段作为上下文，以降低幻觉并接入私有知识；效果依赖检索质量与切分策略。

在预训练模型基础上以较小数据集继续训练，以对齐任务、风格或安全偏好；须注意灾难性遗忘与数据偏差。

使模型行为符合人类意图与安全约束的技术集合，常见方法包括 RLHF、DPO 与规则过滤等。

降低权重或激活数值精度以换取推理加速与显存节约；可能带来精度损失，须按任务验证。

将模型部署为在线 API 或批处理作业以响应请求；须关注吞吐、延迟、批大小与硬件利用率。

星标表示关注与背书信号，Fork 表示复制仓库以便修改或分发；二者易受营销影响，应结合提交与 Issue 活跃度阅读。

将多个指标按权重合并后的标量分数，用于总览对比；解读须结合子指标与任务设定，避免将单一排名绝对化。