私たちには2種類の制限があります:

  1. 支出制限は、組織がAPI使用に対して発生させることができる月間コストの上限を設定します。
  2. レート制限は、組織が一定期間内に行うことができるAPI要求の最大数を設定します。

私たちはサービス設定の制限を組織レベルで適用していますが、組織のワークスペースにユーザー設定可能な制限を設定することもできます。

これらの制限は、Standard TierとPriority Tierの両方の使用に適用されます。コミットメント支出と引き換えに強化されたサービスレベルを提供するPriority Tierの詳細については、サービスティアをご覧ください。

制限について

  • 制限は、一般的な顧客の使用パターンへの影響を最小限に抑えながら、APIの悪用を防ぐように設計されています。
  • 制限は使用ティアによって定義され、各ティアには異なる支出制限とレート制限のセットが関連付けられています。
  • APIを使用する際に特定のしきい値に達すると、組織は自動的にティアが上がります。 制限は組織レベルで設定されます。Anthropic Console制限ページで組織の制限を確認できます。
  • 短い時間間隔でレート制限に達する場合があります。例えば、1分あたり60リクエスト(RPM)のレートは、1秒あたり1リクエストとして適用される場合があります。短時間に大量のリクエストを行うと、レート制限を超えてレート制限エラーが発生する可能性があります。
  • 以下に概説する制限は、標準ティアの制限です。より高いカスタム制限や、強化されたサービスレベルのためのPriority Tierを求める場合は、Anthropic Consoleからセールスにお問い合わせください。
  • レート制限にはトークンバケットアルゴリズムを使用しています。これは、固定間隔でリセットされるのではなく、容量が最大制限まで継続的に補充されることを意味します。
  • ここで説明するすべての制限は、保証された最小値ではなく、許可される最大使用量を表しています。これらの制限は、意図しない過剰支出を減らし、ユーザー間でリソースを公平に分配することを目的としています。

支出制限

各使用ティアには、毎月のAPIに使用できる金額に制限があります。ティアの支出制限に達すると、次のティアの資格を得るまで、次の月までAPIを使用することはできません。

次のティアの資格を得るには、デポジット要件を満たす必要があります。アカウントへの過剰な資金提供のリスクを最小限に抑えるため、月間支出制限以上の金額をデポジットすることはできません。

ティア昇格の要件

使用ティアクレジット購入月間最大使用量
ティア1$5$100
ティア2$40$500
ティア3$200$1,000
ティア4$400$5,000
月次請求該当なし該当なし

レート制限

Messages APIのレート制限は、各モデルクラスに対して、1分あたりのリクエスト数(RPM)、1分あたりの入力トークン数(ITPM)、および1分あたりの出力トークン数(OTPM)で測定されます。 いずれかのレート制限を超えると、どのレート制限を超えたかを説明する429エラーが発生し、待機すべき時間を示すretry-afterヘッダーが付与されます。

ITPMレート制限は各リクエストの開始時に見積もられ、実際に使用された入力トークン数を反映するようにリクエスト中に調整されます。 最終調整では、input_tokenscache_creation_input_tokensがITPMレート制限にカウントされますが、cache_read_input_tokensはカウントされません(ただし、請求は発生します)。 場合によっては、cache_read_input_tokensがITPMレート制限にカウントされることがあります。

OTPMレート制限は各リクエストの開始時にmax_tokensに基づいて見積もられ、リクエストの終了時に実際に使用された出力トークン数を反映するように調整されます。 予想よりも早くOTPM制限に達する場合は、max_tokensを減らして完了のサイズをより適切に近似してみてください。

レート制限は各モデルに対して個別に適用されるため、異なるモデルをそれぞれの制限まで同時に使用できます。 現在のレート制限と動作はAnthropic Consoleで確認できます。

モデル1分あたりの最大リクエスト数(RPM)1分あたりの最大入力トークン数(ITPM)1分あたりの最大出力トークン数(OTPM)
Claude Opus 45020,0008,000
Claude Sonnet 45020,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22
5040,000*8,000
Claude Sonnet 3.5
2024-06-20
5040,000*8,000
Claude Haiku 3.55050,000*10,000
Claude Opus 35020,000*4,000
Claude Sonnet 35040,000*8,000
Claude Haiku 35050,000*10,000

アスタリスク(*)が付いている制限は、cache_read_input_tokensをITPM使用量にカウントします。

Message Batches API

Message Batches APIには、すべてのモデルで共有される独自のレート制限セットがあります。これには、すべてのAPIエンドポイントへの1分あたりのリクエスト数(RPM)制限と、同時に処理キューに入れることができるバッチリクエストの数の制限が含まれます。ここでの「バッチリクエスト」とは、Message Batchの一部を指します。数千のバッチリクエストを含むMessage Batchを作成することができ、それぞれがこの制限にカウントされます。バッチリクエストは、モデルによって正常に処理されていない場合、処理キューの一部とみなされます。

1分あたりの最大リクエスト数(RPM)処理キュー内の最大バッチリクエスト数バッチあたりの最大バッチリクエスト数
50100,000100,000

ワークスペースの低い制限の設定

組織内のワークスペースを過剰使用から保護するために、ワークスペースごとにカスタムの支出制限とレート制限を設定できます。

例:組織の制限が1分あたり40,000入力トークンと8,000出力トークンの場合、あるワークスペースを1分あたり30,000トークン合計に制限することができます。これにより、他のワークスペースが潜在的な過剰使用から保護され、組織全体でリソースのより公平な分配が確保されます。残りの未使用のトークン(またはそのワークスペースが制限を使用しない場合はそれ以上)は、他のワークスペースが使用できるようになります。

注意:

  • デフォルトのワークスペースには制限を設定できません。
  • 設定されていない場合、ワークスペースの制限は組織の制限と一致します。
  • ワークスペースの制限の合計がより多くなっても、組織全体の制限は常に適用されます。
  • 入力トークンと出力トークンの制限のサポートは、将来ワークスペースに追加される予定です。

レスポンスヘッダー

APIレスポンスには、適用されるレート制限、現在の使用状況、および制限がリセットされる時期を示すヘッダーが含まれています。

以下のヘッダーが返されます:

ヘッダー説明
retry-afterリクエストを再試行できるまで待機する秒数。それより早い再試行は失敗します。
anthropic-ratelimit-requests-limitレート制限期間内に許可されるリクエストの最大数。
anthropic-ratelimit-requests-remainingレート制限に達する前に残っているリクエスト数。
anthropic-ratelimit-requests-resetリクエストレート制限が完全に補充される時間(RFC 3339形式で提供)。
anthropic-ratelimit-tokens-limitレート制限期間内に許可されるトークンの最大数。
anthropic-ratelimit-tokens-remainingレート制限に達する前に残っているトークン数(千単位で四捨五入)。
anthropic-ratelimit-tokens-resetトークンレート制限が完全に補充される時間(RFC 3339形式で提供)。
anthropic-ratelimit-input-tokens-limitレート制限期間内に許可される入力トークンの最大数。
anthropic-ratelimit-input-tokens-remainingレート制限に達する前に残っている入力トークン数(千単位で四捨五入)。
anthropic-ratelimit-input-tokens-reset入力トークンレート制限が完全に補充される時間(RFC 3339形式で提供)。
anthropic-ratelimit-output-tokens-limitレート制限期間内に許可される出力トークンの最大数。
anthropic-ratelimit-output-tokens-remainingレート制限に達する前に残っている出力トークン数(千単位で四捨五入)。
anthropic-ratelimit-output-tokens-reset出力トークンレート制限が完全に補充される時間(RFC 3339形式で提供)。
anthropic-priority-input-tokens-limitレート制限期間内に許可されるPriority Tier入力トークンの最大数。(Priority Tierのみ)
anthropic-priority-input-tokens-remainingレート制限に達する前に残っているPriority Tier入力トークン数(千単位で四捨五入)。(Priority Tierのみ)
anthropic-priority-input-tokens-resetPriority Tier入力トークンレート制限が完全に補充される時間(RFC 3339形式で提供)。(Priority Tierのみ)
anthropic-priority-output-tokens-limitレート制限期間内に許可されるPriority Tier出力トークンの最大数。(Priority Tierのみ)
anthropic-priority-output-tokens-remainingレート制限に達する前に残っているPriority Tier出力トークン数(千単位で四捨五入)。(Priority Tierのみ)
anthropic-priority-output-tokens-resetPriority Tier出力トークンレート制限が完全に補充される時間(RFC 3339形式で提供)。(Priority Tierのみ)

anthropic-ratelimit-tokens-*ヘッダーは、現在有効な最も制限的な制限の値を表示します。例えば、ワークスペースの1分あたりのトークン制限を超えた場合、ヘッダーにはワークスペースの1分あたりのトークンレート制限値が含まれます。ワークスペース制限が適用されない場合、ヘッダーは残りの合計トークン数を返します。ここで合計とは、入力トークンと出力トークンの合計です。このアプローチにより、現在のAPI使用に対する最も関連性の高い制約が可視化されます。