AIチャットボット性能を比較：Chatbot Arenaリーダーボード

2024年4月4日

AIチャットボットの世界は急速に拡大しており、新しいボットが次々と登場しているため、最適な選択をするのが難しくなっています。そんな時、”Chatbot Arenaリーダーボード”が非常に役立ちます。カリフォルニア大学バークレー校の学生と教授陣らが設立したLarge Model Systems Organization（LMSYS Org）は「Chatbot Arena」（チャットボット競技場）を作りました。

このリーダーボードは、様々なAIチャットボットの性能、ユーザーフィードバック、応答の質など、多角的な評価基準に基づいてランキングされています。ユーザーはこの情報を参考にして、自分のニーズに最適なチャットボットを簡単に見つけることができます。

AIチャットボットとは

AIチャットボットは、自然言語処理（NLP）技術を駆使して、人間の言葉を理解し、適切な応答を生成するシステムです。顧客サービス、教育、エンターテイメントなど、さまざまな分野で活用されています。AIチャットボットは24時間365日対応可能であり、多くの場合、人間の介入なしに自動で運用されます。

Chatbot Arenaリーダーボードのルール

以下翻訳となりますが、https://chat.lmsys.org/
こちらで、

「🏆 Arena Elo Leaderboard」は、500,000以上の人間の投票を集め、それを基にEloレーティングシステムを用いて、言語モデル（LLM）のリーダーボードを作成しています。このリーダーボードでは、参加したAIモデルの中で最も優れた性能を持つ「🥇LLMチャンピオン」を決定します。Eloレーティングシステムは、プレイヤー（この場合はAIモデル）の相対的なスキルレベルを評価するために広く使用されている方法です。とのことで、対決したランキングが以下となります。

こちらで見ると、Claude 3 Opusが最も評価が高いようですね。また、ChatGPT4よりもコストが安いClaude 3 Haikuなども比較的上位に食い込んでおり、Claude 3 の品質の高さがうかがえます。

また、Geminiもはいっているものの、やはり、ChatGPT4には及ばないようです。今後も新サービス・アップデートは続きますが、都度こちらを確認してみるのは参考になるかもしれません。

Rank	Model	Arena Elo	95% CI	Votes	Organization	License	Knowledge Cutoff
1	Claude 3 Opus	1255	-0.75	37663	Anthropic	Proprietary	2023/8
1	GPT-4-1106-preview	1252	-1	56936	OpenAI	Proprietary	2023/4
1	GPT-4-0125-preview	1249	-0.75	38105	OpenAI	Proprietary	2023/12
4	Bard (Gemini Pro)	1204	-1	12468	Google	Proprietary	Online
4	Claude 3 Sonnet	1200	-0.75	40389	Anthropic	Proprietary	2023/8
6	GPT-4-0314	1185	-1	35803	OpenAI	Proprietary	2021/9
7	Claude 3 Haiku	1177	-0.75	26773	Anthropic	Proprietary	2023/8
8	GPT-4-0613	1160	-0.6	54509	OpenAI	Proprietary	2021/9
8	Mistral-Large-2402	1157	-1.25	28356	Mistral	Proprietary	Unknown
9	Qwen1.5-72B-Chat	1149	-0.8	21981	Alibaba	Qianwen LICENSE	2024/2
10	Claude-1	1146	-0.8	21868	Anthropic	Proprietary	Unknown
10	Mistral Medium	1146	-0.8	27059	Mistral	Proprietary	Unknown
10	Command R	1146	-0.8333333333	12739	Cohere AI	CC-BY-NC-4.0	2024/3
14	Gemini Pro (Dev API)	1127	-1	16041	Google	Proprietary	2023/4
14	Claude-2.0	1127	-1	13484	Anthropic	Proprietary	Unknown
14	Mistral-Next	1123	-1.2	13113	Mistral	Proprietary	Unknown
14	Starling-LM-7B-beta	1118	-1.142857143	7888	Nexusflow	Apache-2.0	2024/3

AIチャットボット性能を比較：Chatbot Arenaリーダーボード

AIチャットボットとは

Chatbot Arenaリーダーボードのルール

プライバシー問題の共通プール：大規模ウェブスクレイピングデータセットから得られる法律的・技術的教訓

GPT-5とは何か？進化の全貌と競合比較を徹底解説

ChatGPTを活用した求人票プロンプト作成ガイド（上級編）

Most Popular

2024年音楽生成AIツールランキング10選：未来の音楽制作を先取りしよう

ChatGPTを最大限活用する方法　7Rプロンプト解説

デジタル庁プロンプトテンプレート＆行政における生成AIの適切な利活用に向けた技術検証

【Midjourney】画像生成～編集で必ず知っておくべき基礎編

EDITOR PICKS

プライバシー問題の共通プール：大規模ウェブスクレイピングデータセットから得られる法律的・技術的教訓

GPT-5とは何か？進化の全貌と競合比較を徹底解説

【2025年最新版】用途別×AIツール厳選20選！

POPULAR CATEGORY

ABOUT US

FOLLOW US