用語集
以下は本サイト上の読解のための作業定義です。厳密な定義は論文やベンダー技術文書を参照してください。
Term-linked models
Linked models from this week: Meta: Llama 4 Scout, xAI: Grok 4.20, OpenAI: GPT-5.4
LLM
大規模言語モデル—対話、コード、推論、ツール利用向けに大規模学習された自己回帰または接頭言語モデルが一般的。挙動は規模と事後学習に強く依存する。
Agent
状態を観測し、ステップを計画してツールを呼び出し、目的を達成するシステム。単一/マルチエージェントがあり、成功率・ステップ数・コストなどで評価される。
Toolchain
データ、学習、評価、デプロイ、可観測性にまたがる一連のソフトウェアとプロセス。本サイトでは再現性とデリバリーに焦点を当てる。
Benchmark
モデルやシステムを比較するための標準タスク郡と指標。版のずれやデータ汚染は比較可能性に影響する。
SSG
静的サイト生成—ビルド時にテンプレートとデータをファイルへコンパイルし、リクエスト毎のサーバ描画を要しない。
RAG
検索拡張生成—回答前に関連文書や断片を検索して取り込む手法。品質は検索とチャンク設計に依存する。
Fine-tuning
ベースモデルを小規模データで継続学習し、タスク・文体・安全性に適応させること。壊滅的忘却とバイアスに注意。
Alignment
人間の意図と安全制約にモデル行動を合わせるための手法群(RLHF、DPO、フィルタ等)。
Quantization
重みや活性の数値精度を下げて推論を高速化しメモリを節約する手法。タスク別のトレードオフを確認すること。
Inference serving
モデルをオンライン API やバッチジョブとして公開すること。スループット・遅延・バッチング・ハードウェア利用率を最適化する。
Stars / Forks (GitHub)
スターは関心や支持のシグナル、Fork は改変用コピーの指標。マーケティングの影響を受けやすく、コミットや Issue と併せて読む。
Composite score
複数指標を重み付けしてまとめたスカラー。俯瞰には便利だが、サブスコアとタスク定義を必ず確認すること。
ベンダー(モデル開発元)
モデル系譜やブランドの名義(例: Anthropic、Meta)。本サイトでは OpenRouter 形式の id(例: anthropic/claude-3)の先頭セグメントを vendor_id とする。
サービスプロバイダー(API ホスト)
推論 API を提供する基盤。OpenRouter のような集約事業者や、Azure OpenAI、AWS Bedrock などのクラウド。ランキングの見積行に service_provider_id を付与できる。