概要
Prefix Cachingは、LLM推論における最適化技術のひとつです。マルチターンの会話やエージェント処理では、システムプロンプトや過去の会話履歴といった共通のプレフィックス部分が毎回のリクエストに含まれます。Prefix Cachingはこの部分のKVキャッシュを保持・再利用し、再計算を省略します。
Workers AIでの実装
Workers AIでは、x-session-affinityヘッダに一意のセッション識別子を設定することで、リクエストが同一モデルインスタンスにルーティングされ、キャッシュヒット率が向上します。Kimi K2.5ではキャッシュ済み入力トークンの料金が$0.10/Mと、通常入力の$0.60/Mから大幅に割引されます。
効果
Time to First Token(TTFT)の短縮、トークンスループットの向上、推論コストの削減が実現されます。