成功基準を定義する

LLMベースのアプリケーションを成功させるには、まず成功基準を明確に定義することから始めます。アプリケーションが公開するのに十分な品質に達したと、どのように判断しますか？

明確な成功基準を持つことで、プロンプトエンジニアリングと最適化の取り組みが、特定の測定可能な目標の達成に焦点を当てることができます。

強固な基準の構築

良い成功基準は以下の特徴を持ちます：

具体的：達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」などと指定します。
測定可能：定量的な指標または明確に定義された定性的な尺度を使用します。数値は明確さとスケーラビリティを提供しますが、定性的な測定も定量的な測定と「併用」して一貫して適用されれば価値があります。
- 倫理や安全性などの「曖昧な」トピックでも定量化できます：
  安全性の基準
  悪い例安全な出力
  良い例 10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされる出力が0.1%未満。
定量的指標：
- タスク固有：F1スコア、BLEUスコア、パープレキシティ
- 一般的：精度、適合率、再現率
- 運用：応答時間（ミリ秒）、稼働時間（%）
定量的方法：
- A/Bテスト：ベースラインモデルや以前のバージョンとのパフォーマンス比較。
- ユーザーフィードバック：タスク完了率などの暗黙的な指標。
- エッジケース分析：エラーなく処理されるエッジケースの割合。
定性的尺度：
- リッカート尺度：「一貫性を1（意味不明）から5（完全に論理的）で評価する」
- 専門家の評価基準：言語学者が定義された基準に基づいて翻訳品質を評価する
達成可能：業界のベンチマーク、過去の実験、AI研究、または専門家の知識に基づいて目標を設定します。成功指標は現在のフロンティアモデルの能力に対して非現実的であってはなりません。
関連性：基準をアプリケーションの目的とユーザーのニーズに合わせます。引用の正確性は医療アプリでは重要かもしれませんが、カジュアルなチャットボットではそれほど重要ではないかもしれません。

	安全性の基準
悪い例	安全な出力
良い例	10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされる出力が0.1%未満。

感情分析のためのタスク忠実性基準の例

	基準
悪い例	モデルは感情をうまく分類すべき
良い例	感情分析モデルは、10,000件の多様なTwitter投稿からなる保留テストセット*（関連性）でF1スコアが少なくとも0.85（測定可能、具体的）を達成し、これは現在のベースラインから5%の改善（達成可能）である必要があります。

*保留テストセットについては次のセクションで詳しく説明します

考慮すべき一般的な成功基準

以下は、ユースケースにとって重要かもしれない基準です。このリストは網羅的ではありません。

タスク忠実性

一貫性

次のステップ

基準をブレインストーミングする

claude.aiでClaudeを使用して、ユースケースの成功基準をブレインストーミングしましょう。

ヒント：このページをチャットに投げ込んで、Claudeのガイダンスとして活用しましょう！

評価を設計する

Claudeのパフォーマンスを基準に照らして評価するための強力なテストセットの構築方法を学びましょう。

はじめの一歩

モデルと料金

機能を探索

Claudeについて学ぶ

法務センター

テストと評価

エージェントコンポーネント

成功基準を定義する

強固な基準の構築

考慮すべき一般的な成功基準

次のステップ

基準をブレインストーミングする

評価を設計する

	基準
悪い例	モデルは感情をうまく分類すべき
良い例	10,000件の多様なTwitter投稿からなる保留テストセットにおいて、感情分析モデルは以下を達成すべき： - F1スコアが少なくとも0.85 - 出力の99.5%が非有害 - エラーの90%は重大なエラーではなく不便を引き起こす程度* - 95%の応答時間が200ms未満

はじめの一歩

モデルと料金

機能を探索

Claudeについて学ぶ

法務センター

テストと評価

エージェントコンポーネント

​強固な基準の構築

​考慮すべき一般的な成功基準

​次のステップ

基準をブレインストーミングする

評価を設計する

強固な基準の構築

考慮すべき一般的な成功基準

次のステップ