术语表

下列释义为本站阅读语境下的工作定义;严格定义以学术论文或厂商技术文档为准。

LLM(大语言模型)

以自回归或前缀语言建模为主的大规模神经网络,常用于对话、代码、推理与工具调用等任务;行为受规模与后训练方式显著影响。

Agent(智能体)

在给定环境中感知状态、规划步骤并调用工具以完成目标的系统;可为单智能体或多智能体协作,评价维度常包括成功率、步数与成本。

Toolchain(工具链)

自数据、训练、评测至部署与监控的一整套软件与流程;本语境下强调可重复、可观测与可交付。

Benchmark(基准)

用于比较模型或系统能力的一组标准化任务与指标;版本更迭与数据污染会影响可比性。

SSG(静态站点生成)

在构建阶段将内容与模板编译为静态文件,部署后无需按请求进行服务端渲染;有利于性能与成本。

RAG(检索增强生成)

在生成前从知识库或文档中检索相关片段作为上下文,以降低幻觉并接入私有知识;效果依赖检索质量与切分策略。

Fine-tuning(微调)

在预训练模型基础上以较小数据集继续训练,以对齐任务、风格或安全偏好;须注意灾难性遗忘与数据偏差。

Alignment(对齐)

使模型行为符合人类意图与安全约束的技术集合,常见方法包括 RLHF、DPO 与规则过滤等。

量化(Quantization)

降低权重或激活数值精度以换取推理加速与显存节约;可能带来精度损失,须按任务验证。

推理服务(Inference Serving)

将模型部署为在线 API 或批处理作业以响应请求;须关注吞吐、延迟、批大小与硬件利用率。

Stars / Forks(GitHub)

星标表示关注与背书信号,Fork 表示复制仓库以便修改或分发;二者易受营销影响,应结合提交与 Issue 活跃度阅读。

综合分

将多个指标按权重合并后的标量分数,用于总览对比;解读须结合子指标与任务设定,避免将单一排名绝对化。