AIチャットボットの世界は急速に拡大しており、新しいボットが次々と登場しているため、最適な選択をするのが難しくなっています。そんな時、”Chatbot Arenaリーダーボード”が非常に役立ちます。カリフォルニア大学バークレー校の学生と教授陣らが設立したLarge Model Systems Organization(LMSYS Org)は「Chatbot Arena」(チャットボット競技場)を作りました。
このリーダーボードは、様々なAIチャットボットの性能、ユーザーフィードバック、応答の質など、多角的な評価基準に基づいてランキングされています。ユーザーはこの情報を参考にして、自分のニーズに最適なチャットボットを簡単に見つけることができます。
AIチャットボットとは
AIチャットボットは、自然言語処理(NLP)技術を駆使して、人間の言葉を理解し、適切な応答を生成するシステムです。顧客サービス、教育、エンターテイメントなど、さまざまな分野で活用されています。AIチャットボットは24時間365日対応可能であり、多くの場合、人間の介入なしに自動で運用されます。
Chatbot Arenaリーダーボードのルール
以下翻訳となりますが、https://chat.lmsys.org/
こちらで、
「🏆 Arena Elo Leaderboard」は、500,000以上の人間の投票を集め、それを基にEloレーティングシステムを用いて、言語モデル(LLM)のリーダーボードを作成しています。このリーダーボードでは、参加したAIモデルの中で最も優れた性能を持つ「🥇LLMチャンピオン」を決定します。Eloレーティングシステムは、プレイヤー(この場合はAIモデル)の相対的なスキルレベルを評価するために広く使用されている方法です。とのことで、対決したランキングが以下となります。
こちらで見ると、Claude 3 Opusが最も評価が高いようですね。また、ChatGPT4よりもコストが安いClaude 3 Haikuなども比較的上位に食い込んでおり、Claude 3 の品質の高さがうかがえます。
また、Geminiもはいっているものの、やはり、ChatGPT4には及ばないようです。今後も新サービス・アップデートは続きますが、都度こちらを確認してみるのは参考になるかもしれません。
Rank | Model | Arena Elo | 95% CI | Votes | Organization | License | Knowledge Cutoff |
1 | Claude 3 Opus | 1255 | -0.75 | 37663 | Anthropic | Proprietary | 2023/8 |
1 | GPT-4-1106-preview | 1252 | -1 | 56936 | OpenAI | Proprietary | 2023/4 |
1 | GPT-4-0125-preview | 1249 | -0.75 | 38105 | OpenAI | Proprietary | 2023/12 |
4 | Bard (Gemini Pro) | 1204 | -1 | 12468 | Proprietary | Online | |
4 | Claude 3 Sonnet | 1200 | -0.75 | 40389 | Anthropic | Proprietary | 2023/8 |
6 | GPT-4-0314 | 1185 | -1 | 35803 | OpenAI | Proprietary | 2021/9 |
7 | Claude 3 Haiku | 1177 | -0.75 | 26773 | Anthropic | Proprietary | 2023/8 |
8 | GPT-4-0613 | 1160 | -0.6 | 54509 | OpenAI | Proprietary | 2021/9 |
8 | Mistral-Large-2402 | 1157 | -1.25 | 28356 | Mistral | Proprietary | Unknown |
9 | Qwen1.5-72B-Chat | 1149 | -0.8 | 21981 | Alibaba | Qianwen LICENSE | 2024/2 |
10 | Claude-1 | 1146 | -0.8 | 21868 | Anthropic | Proprietary | Unknown |
10 | Mistral Medium | 1146 | -0.8 | 27059 | Mistral | Proprietary | Unknown |
10 | Command R | 1146 | -0.8333333333 | 12739 | Cohere AI | CC-BY-NC-4.0 | 2024/3 |
14 | Gemini Pro (Dev API) | 1127 | -1 | 16041 | Proprietary | 2023/4 | |
14 | Claude-2.0 | 1127 | -1 | 13484 | Anthropic | Proprietary | Unknown |
14 | Mistral-Next | 1123 | -1.2 | 13113 | Mistral | Proprietary | Unknown |
14 | Starling-LM-7B-beta | 1118 | -1.142857143 | 7888 | Nexusflow | Apache-2.0 | 2024/3 |