2024年3月OpenAI元幹部たちが設立したAnthropic社が新たなAIモデル「Claude3」を発表。このモデルは、多くの専門家や業界関係者から「GPT-4の対抗馬」と見なされています。
Claude3とは
Claudeの特徴としては、他の文書生成AIより扱えるトークン数が多いことが挙げられ、旧世代の時点で対話内の文章量は最大100,000トークンとなっている。これは、GPT-4が扱える約32,000トークンの3倍ほどの数字となり、一般的な書籍200ページほどは一度に読み込めることになります。 また、Claudeはマルチモーダル対応のため、テキストの入力だけでなく画像や動画、音声データといったファイルをアップロードすることができるうえ上に、その内容を読み込んだうえで会話ができるため、より複合的な会話が可能となります。
ChatGPT4・Claude3比較
ChatGPT4 (OpenAI)
- 開発者: OpenAIによって開発されました。
- 多目的性: ChatGPT4は幅広いタスクや質問に答えるよう設計されており、会話型AIとしての役割に特化しています。
- トレーニングデータとアップデート: OpenAIは、ChatGPT4のトレーニングに広範囲のインターネットデータを使用していますが、特定の時点でのカットオフがあり、それ以降の情報は含まれません。定期的なアップデートが行われ、パフォーマンスや安全性が向上しています。
- 安全性と倫理: OpenAIは、使用時の安全性や倫理的な側面に重点を置き、不適切な出力を制限するためのフィルタリングシステムを実装しています。
Claude 3 (Anthropic)
- 開発者: Anthropicによって開発されました。
- モデルファミリー: Claude 3は、さまざまな性能レベルを持つモデルファミリーであり、Haiku、Sonnet、Opusといった異なるバージョンがあります。
- 特化した能力: Claude 3は、一般的な言語理解や生成タスクに加えて、特に高度な分析、予測、コード生成、非英語言語の会話能力において強化されています。
- 長いコンテキストと高いリコール: Claude 3は、特に長いコンテキストの処理と情報のリコールにおいて優れているとされています。これは、より長い会話や複雑な情報処理タスクでの性能を意味します。
- 責任あるAI設計: Anthropicは、Claude 3の開発において、責任あるAI設計の原則に従っており、安全性と倫理性に重点を置いています。
現状では、ChatGPTがまだまだ一強に映るので、ぜひ活躍を期待したいですね。コスト面で安くなるとありがたいです。以下は公式サイトの記事の翻訳となります。
ANTHROPIC社 Claude 3 公式翻訳記事
参照元:Introducing the next generation of Claude
本日、業界のベンチマークを新たに定めるClaude 3モデルファミリーを発表します。このファミリーには、能力の順にClaude 3 Haiku、Claude 3 Sonnet、Claude 3 Opusの3つの最先端モデルが含まれています。後継のモデルごとに、より強力な性能を提供し、ユーザーが特定のアプリケーションに最適なインテリジェンス、スピード、コストのバランスを選択できるようになります。
OpusとSonnetは現在、claude.aiおよび159カ国で一般に利用可能になったClaude APIで使用できます。Haikuは近日中に利用可能になります。
新しいインテリジェンスの標準
最もインテリジェントなモデルであるOpusは、AIシステムの一般的な評価ベンチマークのほとんどで同業者を上回っています。これには、大学レベルの専門知識(MMLU)、大学院レベルの専門的推論(GPQA)、基本的な数学(GSM8K)などが含まれます。また、複雑なタスクに対するほぼ人間レベルの理解と流暢さを示し、一般的なインテリジェンスの最前線をリードしています。
すべてのClaude 3モデルは、分析と予測、ニュアンスのあるコンテンツ作成、コード生成、スペイン語、日本語、フランス語などの非英語での会話において、能力が向上しています。
下記は、複数のベンチマークにおけるClaude 3モデルと競合他社のモデルとの比較です。
即時結果 Claude 3モデルは、ライブカスタマーチャット、自動補完、データ抽出タスクなど、応答が即時でリアルタイムでなければならない場合に力を発揮します。
Haikuは、そのインテリジェンスカテゴリーで市場で最も高速かつコスト効率の良いモデルです。チャートやグラフが含まれた情報密度の高いarXivの研究論文(約10kトークン)を3秒未満で読むことができます。ローンチ後、さらにパフォーマンスを向上させる予定です。
ほとんどのワークロードにおいて、SonnetはClaude 2およびClaude 2.1よりも2倍高速で、より高いレベルのインテリジェンスを持っています。知識の取得や販売の自動化など、迅速な応答を要求するタスクに優れています。OpusはClaude 2および2.1と同様の速度を提供しますが、はるかに高いレベルのインテリジェンスを持っています。
強力な視覚能力
Claude 3モデルは、他の先導モデルと同等の洗練された視覚能力を持っています。写真、チャート、グラフ、技術的な図面など、さまざまな視覚フォーマットを処理できます。特に、PDF、フローチャート、プレゼンテーションスライドなどさまざまな形式でエンコードされた知識ベースを持つ企業顧客にこの新しいモダリティを提供できることに興奮しています。
拒否の減少
以前のClaudeモデルは、コンテキストの理解が不足していることを示唆する不必要な拒否をしばしば行っていました。この分野では意味のある進歩を遂げており、Opus、Sonnet、Haikuは、システムのガードレールに近いプロンプトに対する回答を拒否する可能性が、前世代のモデルよりも大幅に低くなっています。以下に示すように、Claude 3モデルは、リクエストに対するより繊細な理解を示し、実際の害を認識し、無害なプロンプトに対する回答をずっと少なく拒否します。
正確性の向上
あらゆる規模の企業がお客様にサービスを提供するために私たちのモデルに依存しているため、モデル出力がスケールで高い正確性を維持することが不可欠です。これを評価するために、現在のモデルの既知の弱点をターゲットにした複雑な実際の質問の大規模なセットを使用しています。回答を正しい回答、間違った回答(または幻覚)、そしてモデルが間違った情報を提供する代わりに答えを知らないと言う不確実性の申し出に分類します。Claude 2.1と比較して、Opusはこれらの挑戦的なオープンエンドの質問に対する正確性(または正しい回答)で2倍の改善を示し、間違った回答のレベルも減少しています。信頼できる回答をより多く生み出すだけでなく、私たちは近々、Claude 3モデルで引用を有効にし、回答を検証するために参照資料の正確な文に指摘できるようにします。
長いコンテキストとほぼ完璧なリコール
Claude 3ファミリーのモデルは、ローンチ時に当初は200Kのコンテキストウィンドウを提供します。しかし、3つのモデルすべてが100万トークンを超える入力を受け入れる能力があり、強化された処理能力を必要とする選択した顧客にこれを利用可能にするかもしれません。
長いコンテキストのプロンプトを効果的に処理するためには、モデルには堅牢なリコール能力が必要です。’Needle In A Haystack’(NIAH)評価は、モデルが広大なデータコーパスから情報を正確にリコールできる能力を測定します。我々は、プロンプトごとに30のランダムな針/質問ペアの1つ
を使用し、多様なクラウドソーシングされた文書コーパスでテストすることで、このベンチマークの堅牢性を高めました。Claude 3 Opusは、99%を超える精度でほぼ完璧なリコールを達成しただけでなく、評価自体の限界をいくつかのケースで特定することもできました。それは、「針」の文が人間によって元のテキストに人工的に挿入されたように見えることを認識しました。
責任ある設計
私たちはClaude 3モデルファミリーを、信頼できるだけでなく能力も高いものとして開発しました。誤情報、CSAM、生物学的乱用、選挙干渉、自律的な複製スキルに至るまで、幅広いリスクを追跡し緩和する専門チームを複数持っています。私たちは、モデルの安全性と透明性を向上させるための方法、例えばConstitutional AIを開発し続けており、新しいモダリティによって生じる可能性のあるプライバシー問題に対してモデルをチューニングしています。
ますます洗練されたモデルでのバイアスの対処は継続的な努力であり、この新しいリリースで進展を遂げました。モデルカードに示されているように、Claude 3は、Question AnsweringのためのBias Benchmark(BBQ)によると、以前のモデルよりもバイアスが少ないことを示しています。私たちは、バイアスを減らし、モデルが特定の偏った立場に偏ることなく、より大きな中立性を促進する技術の進歩に向けて努力を続けており、確実にしています。
Claude 3モデルファミリーは、生物学的知識、サイバー関連知識、自律性に関する主要な指標で以前のモデルを上回っていますが、私たちのResponsible Scaling Policyに従って、現時点でAI Safety Level 2(ASL-2)にとどまっています。私たちのレッドチームの評価(ホワイトハウスのコミットメントおよび2023年の米国大統領令に沿って実施)は、モデルが現時点で壊滅的なリスクの可能性が無視できると結論付けています。私たちは、将来のモデルがASL-3の閾値に近づくことを慎重に監視し続ける予定です。さらなる安全性の詳細は、Claude 3モデルカードで利用可能です。
使いやすさの向上 Claude 3モデルは、複雑な複数ステップの指示に従うのが得意です。特に、ブランドの声と応答ガイドラインを遵守し、ユーザーが信頼できる顧客向け体験を開発するのに適しています。さらに、Claude 3モデルは、JSONのような人気のある構造化された出力を生成するのが得意であり、自然言語分類や感情分析のようなユースケースにClaudeを指示することをよりシンプルにします。
モデルの詳細
Claude 3 Opusは、非常に複雑なタスクにおいて市場最高のパフォーマンスを持つ、私たちの最もインテリジェントなモデルです。オープンエンドのプロンプトや未見のシナリオを、顕著な流暢さと人間らしい理解でナビゲートできます。Opusは、生成AIで可能なことの外限を示しています。
Claude 3 Sonnetは、インテリジェンスとスピードの間で理想的なバランスを提供します—特に企業のワークロードにとって。同等のインテリジェンスを持つ他のモデルと比較して低コストで強力なパフォーマンスを提供し、大規模なAI展開での高耐久性に向けて設計されています。
Claude 3 Haikuは、即座の応答性を求める場合に最適な、最も高速でコンパクトなモデルです。シンプルなクエリやリクエストに対して、比類のない速度で回答します。ユーザーは、人間の相互作用を模倣するシームレスなAI体験を構築できるようになります。
モデルの利用可能性
OpusとSonnetは今日から私たちのAPIで使用可能で、開発者は登録してすぐにこれらのモデルを使用開始できます。Haikuは間もなく利用可能になります。Sonnetはclaude.aiの無料体験版で稼働中で、OpusはClaude Pro加入者向けに利用可能です。
Sonnetは今日からAmazon Bedrockで利用可能で、Google CloudのVertex AI Model Gardenではプライベートプレビューで提供されています。OpusとHaikuも両方に近々登場予定です。
より賢く、より速く、より安全に 私たちは、モデルのインテリジェンスがその限界に近づいているとは考えておらず、今後数ヶ月間にわたってClaude 3モデルファミリーへの頻繁なアップデートをリリースする予定です。また、企業ユースケースや大規模展開のためのモデル機能を向上させる一連の機能をリリースすることにも興奮しています。これらの新機能には、Tool Use(機能呼び出し)、対話型コーディング(REPL)、およびより高度な自律的能力が含まれます。
AI能力の境界を押し広げるにつれて、私たちは、これらのパフォーマンスの飛躍に合わせて私たちの安全ガードレールを維持することに同じくらいコミットしています。AI開発の最前線にいることが、その軌道を積極的な社会的結果に向けて操縦する最も効果的な方法であるというのが私たちの仮説です。
Claude 3で何を作るかを見ることを楽しみにしており、Claudeをさらに有用なアシスタント兼創造的なコンパニオンにするためのフィードバックをいただけることを願っています。Claudeを使って構築を始めるには、anthropic.com/claudeにアクセスしてください。
脚注 この表は、評価をリリースした現在商用で利用可能なモデルとの比較を示しています。私たちのモデルカードは、まだリリースされていないモデル、たとえばGemini 1.5 Proなどとの比較を示しています。さらに、エンジニアが評価のためにプロンプトと数ショットのサンプルを最適化し、新しいGPT-4Tモデルに対してより高いスコアを報告したことに言及したいと思います。