私たちは3つのサービスティアを提供しています:

  • プライオリティティア: 時間、可用性、予測可能な価格設定が重要な本番環境にデプロイされたワークフローに最適
  • スタンダード: バースト的なトラフィックや、新しいアイデアを試す場合に最適
  • バッチ: 待機できる、または通常のキャパシティ外にあることでメリットを得られる非同期ワークフローに最適

スタンダードティア

スタンダードティアは、すべてのAPIリクエストのデフォルトのサービスティアです。このティアのリクエストは他のすべてのリクエストと共に優先順位付けされ、ベストエフォートの可用性を提供します。

プライオリティティア

このティアのリクエストはAnthropicへの他のすべてのリクエストよりも優先されます。この優先順位付けにより、ピーク時でも「サーバー過負荷」エラーの発生頻度が低いことを保証できます。

詳細については、プライオリティティアの開始方法をご覧ください。

リクエストがティアに割り当てられる方法

リクエストを処理する際、Anthropicは以下のシナリオでプライオリティティアにリクエストを割り当てることを決定します:

  • 組織が十分なプライオリティティアの入力トークン/分のキャパシティを持っている
  • 組織が十分なプライオリティティアの出力トークン/分のキャパシティを持っている

Anthropicはプライオリティティアのキャパシティに対して使用量を以下のようにカウントします:

入力トークン

  • キャッシュ読み取りはキャッシュから読み取られるトークンあたり0.1トークン
  • 5分のTTLでキャッシュに書き込まれるトークンあたり1.25トークンのキャッシュ書き込み
  • 1時間のTTLでキャッシュに書き込まれるトークンあたり2.00トークンのキャッシュ書き込み
  • その他のすべての入力トークンはトークンあたり1トークン

出力トークン

  • トークンあたり1トークン

それ以外の場合、リクエストはスタンダードティアで処理されます。

プライオリティティアに割り当てられたリクエストは、プライオリティティアのキャパシティと通常のレート制限の両方から引き出されます。 リクエストを処理するとレート制限を超える場合、リクエストは拒否されます。

サービスティアの使用

service_tierパラメータを設定することで、リクエストに使用できるサービスティアを制御できます:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # 利用可能な場合はプライオリティティアを自動的に使用し、スタンダードにフォールバック
)

service_tierパラメータは以下の値を受け付けます:

  • "auto" (デフォルト) - 利用可能な場合はプライオリティティアのキャパシティを使用し、利用できない場合は他のキャパシティにフォールバック
  • "standard_only" - スタンダードティアのキャパシティのみを使用。プライオリティティアのキャパシティを使用したくない場合に便利

レスポンスのusageオブジェクトには、リクエストに割り当てられたサービスティアも含まれています:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

これにより、リクエストにどのサービスティアが割り当てられたかを判断できます。

プライオリティティアのコミットメントがあるモデルでservice_tier="auto"をリクエストする場合、これらのレスポンスヘッダーが洞察を提供します:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

プライオリティティアの開始方法

以下に興味がある場合、プライオリティティアのキャパシティにコミットすることをお勧めします:

  • 高い可用性:優先的な計算リソースによる99.9%のアップタイムSLA
  • コスト管理:予測可能な支出と長期コミットメントによる割引
  • 柔軟なオーバーフロー:コミットしたキャパシティを超えた場合、自動的にスタンダードティアにフォールバック

プライオリティティアへのコミットには、以下の決定が必要です:

  • 1分あたりの入力トークン数
  • 1分あたりの出力トークン数
  • コミットメント期間(1、3、6、または12ヶ月)
  • 特定のモデルバージョン

購入する入力トークンと出力トークンの比率は重要です。実際のトラフィックパターンに合わせてプライオリティティアのキャパシティをサイジングすることで、購入したすべてのトークンを最大限に活用できます。

サポートされているモデル

プライオリティティアは以下のモデルでサポートされています:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5(両バージョン)
  • Claude Haiku 3.5

モデルの詳細については、モデル概要ページをご覧ください。

プライオリティティアへのアクセス方法

プライオリティティアの使用を開始するには:

  1. Anthropic Consoleからセールスに連絡してプロビジョニングを完了します
  2. (オプション)APIリクエストを更新して、service_tierパラメータをautoに設定します
  3. レスポンスヘッダーとAnthropic Consoleを通じて使用状況をモニタリングします