木曜日, 5月 2, 2024
ホームNEWSAIチャットボット性能を比較:Chatbot Arenaリーダーボード

AIチャットボット性能を比較:Chatbot Arenaリーダーボード

AIチャットボットの世界は急速に拡大しており、新しいボットが次々と登場しているため、最適な選択をするのが難しくなっています。そんな時、”Chatbot Arenaリーダーボード”が非常に役立ちます。

カリフォルニア大学バークレー校の学生と教授陣らが設立したLarge Model Systems Organization(LMSYS Org)は「Chatbot Arena」(チャットボット競技場)を作りました。

このリーダーボードは、様々なAIチャットボットの性能、ユーザーフィードバック、応答の質など、多角的な評価基準に基づいてランキングされています。ユーザーはこの情報を参考にして、自分のニーズに最適なチャットボットを簡単に見つけることができます。

AIチャットボットとは

AIチャットボットは、自然言語処理(NLP)技術を駆使して、人間の言葉を理解し、適切な応答を生成するシステムです。顧客サービス、教育、エンターテイメントなど、さまざまな分野で活用されています。AIチャットボットは24時間365日対応可能であり、多くの場合、人間の介入なしに自動で運用されます。

Chatbot Arenaリーダーボードのルール

以下翻訳となりますが、https://chat.lmsys.org/
こちらで、

「🏆 Arena Elo Leaderboard」は、500,000以上の人間の投票を集め、それを基にEloレーティングシステムを用いて、言語モデル(LLM)のリーダーボードを作成しています。このリーダーボードでは、参加したAIモデルの中で最も優れた性能を持つ「🥇LLMチャンピオン」を決定します。Eloレーティングシステムは、プレイヤー(この場合はAIモデル)の相対的なスキルレベルを評価するために広く使用されている方法です。

とのことで、対決したランキングが以下となります。

こちらで見ると、Claude 3 Opusが最も評価が高いようですね。また、ChatGPT4よりもコストが安いClaude 3 Haikuなども比較的上位に食い込んでおり、Claude 3 の品質の高さがうかがえます。また、Geminiもはいっているものの、やはり、ChatGPT4には及ばないようです。

今後も新サービス・アップデートは続きますが、都度こちらを確認してみるのは参考になるかもしれません。

RankModelArena Elo95% CIVotesOrganizationLicenseKnowledge Cutoff
1Claude 3 Opus1255-0.7537663AnthropicProprietary2023/8
1GPT-4-1106-preview1252-156936OpenAIProprietary2023/4
1GPT-4-0125-preview1249-0.7538105OpenAIProprietary2023/12
4Bard (Gemini Pro)1204-112468GoogleProprietaryOnline
4Claude 3 Sonnet1200-0.7540389AnthropicProprietary2023/8
6GPT-4-03141185-135803OpenAIProprietary2021/9
7Claude 3 Haiku1177-0.7526773AnthropicProprietary2023/8
8GPT-4-06131160-0.654509OpenAIProprietary2021/9
8Mistral-Large-24021157-1.2528356MistralProprietaryUnknown
9Qwen1.5-72B-Chat1149-0.821981AlibabaQianwen LICENSE2024/2
10Claude-11146-0.821868AnthropicProprietaryUnknown
10Mistral Medium1146-0.827059MistralProprietaryUnknown
10Command R1146-0.833333333312739Cohere AICC-BY-NC-4.02024/3
14Gemini Pro (Dev API)1127-116041GoogleProprietary2023/4
14Claude-2.01127-113484AnthropicProprietaryUnknown
14Mistral-Next1123-1.213113MistralProprietaryUnknown
14Starling-LM-7B-beta1118-1.1428571437888NexusflowApache-2.02024/3
nobuhiro
nobuhirohttp://ai.krgo.jp
AI LABのなかの人です。 様々な生成系AIを中心しつつ、データや気になった情報を更新していきます。
RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

Most Popular

Recent Comments