概要

Infireは、Cloudflareが開発したプロプライエタリなAI推論エンジンです。Workers AIプラットフォーム上でオープンソースモデルを効率的に実行するために設計されています。

主な最適化技術

InfireにはKVキャッシュ圧縮(8x〜64x)、Speculative Decoding(Llama-3.1-8Bで40%高速化)、Prefix Caching、Disaggregated Prefillなどの技術が組み込まれています。Kimi K2.5向けにはカスタムカーネルが開発され、データ・テンソル・エキスパート並列化によりMoEモデルを効率的に処理します。

実測パフォーマンス

8Bモデルで80 TPS以上、TTFT 300msの実測値が報告されています。