MIT Technology Reviewとは?
1899年に設立された、技術の新しいトレンドやイノベーションに特化したメディアです。マサチューセッツ工科大学(MIT)によって創立されたこのレビューは、技術的な深い知識と広範なコンテキストの理解を提供し、革新的で影響力のあるジャーナリズムを通じて、より良い情報に基づく意思決定を促進することをミッションとしています。What’s next for AI in 2024 という記事を翻訳しました。
参照元:https://www.technologyreview.com/2024/01/04/1086046/whats-next-for-ai-in-2024/
What’s next for AI in 2024 翻訳
結果はどうだっただろうか?2023年に対する我々の4つの大きな賭けは、チャットボットの次の大きなものはマルチモーダルであること(チェック:OpenAIのGPT-4とGoogle DeepMindのGeminiという最も強力な大規模言語モデルは、テキスト、画像、音声を扱う)、政策立案者が厳しい新しい規制を策定すること(チェック: バイデンの大統領令は10月に発表され、欧州連合のAI法は12月に最終合意された)、ビッグテックはオープンソース・スタートアップからの圧力を感じるだろう(半分は正しい:オープンソースのブームは続いているが、OpenAIやGoogle DeepMindのようなAI企業は依然として脚光を浴びている)、そしてAIは大手製薬会社を良い方向に変えるだろう(判断するには時期尚早:創薬におけるAI革命は本格化しているが、AIを使って開発された最初の医薬品は、市場投入までまだ数年かかる)。
そして今、私たちは再びそれを行おうとしている。
1.カスタマイズされたチャットボット
チャットボット!チャットボットを手に入れよう 2024年、ジェネレーティブAIに多額の投資をしたテック企業は、自社製品で収益を上げられることを証明する必要に迫られるだろう。そのために、AI大手のグーグルとオープンAIは、小さくなることに大きく賭けている。両社とも、人々が強力な言語モデルをカスタマイズし、特定のニーズに応える独自のミニ・チャットボットを作ることができるユーザーフレンドリーなプラットフォームを開発している。両社とも、誰でもジェネレーティブAIのアプリ開発者になれるウェブベースのツールを発表している。
2024年、ジェネレーティブAIは、技術者でない一般の人々にとって実際に有用なものになるかもしれない。GPT-4やGeminiのような最先端のAIモデルはマルチモーダルであり、テキストだけでなく画像や動画さえも処理できる。この新しい能力は、新しいアプリの数々を解き放つ可能性がある。例えば、不動産業者は過去の物件からテキストをアップロードし、ボタンをクリックするだけで同様のテキストを生成するように強力なモデルを微調整し、新しい物件のビデオや写真をアップロードし、カスタマイズされたAIに物件の説明を生成するよう依頼するだけでよい。
しかしもちろん、この計画が成功するかどうかは、これらのモデルが確実に機能するかどうかにかかっている。言語モデルはしばしば作り話をするし、生成モデルはバイアスに満ちている。また、ハッキングも容易で、特にウェブの閲覧が許可されていればなおさらだ。テック企業はこれらの問題を何一つ解決していない。目新しさがなくなったら、これらの問題に対処する方法を顧客に提供しなければならないだろう。
-メリッサ・ヘイッキラ
2.ジェネレーティブAIの第二波はビデオになる
幻想的なものが身近なものになる速さには驚かされる。フォトリアリスティックな画像を生成する最初のジェネレーティブ・モデルは、2022年にメインストリームに登場し、すぐに一般的なものになった。OpenAIの「DALL-E」、Stability AIの「Stable Diffusion」、Adobeの「Firefly」などのツールは、バレンシアガを着たローマ法王から賞を受賞したアートまで、あらゆるものの衝撃的な画像でインターネットを氾濫させた。しかし、楽しいことばかりではない。パグがポンポンを振るたびに、模造品のようなファンタジー・アートや性差別的なセクシュアル・ステレオタイピングがある。
新しいフロンティアは、テキストからビデオへの変換だ。テキストから画像への変換の良いところ、悪いところ、醜いところをすべて取り込んで、超大型化することを期待したい。
1年前、複数の静止画を数秒のクリップにつなぎ合わせるようジェネレイティブ・モデルを学習させたとき、私たちはジェネレイティブ・モデルに何ができるかを初めて垣間見た。その結果は、歪んでぎこちないものだった。しかし、この技術は急速に進歩している。
ジェネレイティブ・ビデオ・モデルを製造する新興企業(Stable Diffusionを共同開発した企業でもある)Runwayは、数カ月ごとにツールの新バージョンをリリースしている。Gen-2」と呼ばれる最新モデルは、まだ数秒の動画を生成するだけだが、そのクオリティは目を見張るものがある。最高のクリップは、ピクサーが出すようなものには遠く及ばない。
ランウェイは毎年AI映画祭を開催し、さまざまなAIツールで作られた実験的な映画を紹介している。今年の映画祭には6万ドルの賞金がかけられ、ベスト10作品はニューヨークとロサンゼルスで上映される。
一流スタジオが注目するのは当然だ。パラマウントやディズニーを含む映画大手は現在、制作パイプライン全体でジェネレーティブAIの使用を模索している。この技術は、複数の外国語のオーバーダビングに俳優の演技をリップシンクするために使われている。そして、特殊効果で可能なことを再発明している。2023年、『インディ・ジョーンズと運命のダイヤル』では、ハリソン・フォードのディープフェイクが登場した。これは始まりにすぎない。
大スクリーンを離れ、マーケティングやトレーニング目的のディープフェイク技術も飛躍しつつある。例えば、英国を拠点とするSynthesia社は、俳優の一回限りの演技を、ボタンを押すだけでどんな台本でも朗読するディープフェイクアバターの無限の流れに変えることができるツールを製造している。同社によると、同社の技術は現在、フォーチュン100社の44%で使われているという。
これほど少ないコストでこれだけのことができるということは、俳優にとって深刻な問題を提起する。昨年のSAG-AFTRAストライキの核心は、スタジオによるAIの利用と誤用に対する懸念だった。しかし、この技術の真の影響は、まだ明らかになり始めたばかりだ。「映画制作の技術は根本的に変わりつつある」と、インディペンデント映画監督であり、クリエイティブ・テクノロジーを専門とするコンサルタント会社Bell & Whistleの共同設立者であるスーキ・メダウイは言う。
-ウィル・ダグラス・ヘブン
3.AIが生成する選挙偽情報はどこにでもある
最近の選挙を見る限り、AIが生成する選挙偽情報やディープフェイクは、2024年に記録的な数の人々が投票に向かう中、大きな問題となるだろう。すでに政治家たちがこうしたツールを武器にしているのを目にしている。アルゼンチンでは、2人の大統領候補が対立候補を攻撃するためにAIが生成した画像や動画を作成した。スロバキアでは、リベラルな親ヨーロッパ政党の党首がビールの値段を上げると脅したり、児童ポルノについてジョークを言ったりするディープフェイクが、同国の選挙中に野火のように広がった。また米国では、ドナルド・トランプがAIを使って人種差別や性差別をテーマにしたミームを生成するグループを応援している。
これらの事例が選挙結果にどれほど影響を与えたかはわからないが、これらの拡散は憂慮すべき傾向である。ネット上で何が真実なのかを認識することは、これまで以上に難しくなるだろう。すでに政治情勢が煽動され、二極化している中で、これは深刻な結果をもたらす可能性がある。
ほんの数年前までは、ディープフェイクを作るには高度な技術的スキルが必要だったが、ジェネレーティブAIによってバカバカしいほど簡単に、しかもアクセスしやすくなり、その出力はますます現実味を帯びてきている。評判の良い情報源でさえ、AIが生成したコンテンツに騙されるかもしれない。例えば、イスラエル・ガザ危機を描いたと称するユーザー投稿のAI生成画像は、アドビのようなストックイメージマーケットプレイスに溢れている。
このようなコンテンツの拡散と闘う人々にとって、来年は極めて重要な年になるだろう。このようなコンテンツを追跡し、軽減する技術は、まだ開発の初期段階にある。Google DeepMindのSynthIDのような透かしは、まだほとんどが自主的なものであり、完全には信頼できるものではない。また、ソーシャルメディア・プラットフォームは、誤った情報を取り上げるのに時間がかかることで有名だ。AIが生成したフェイクニュースを取り締まる大規模なリアルタイム実験に備えよう。
-メリッサ・ヘイッキラ
4.マルチタスクをこなすロボット
現在のジェネレーティブAIのブームを支える中核技術のいくつかに触発され、ロボット工学者たちは、より幅広いタスクをこなせる汎用ロボットを作り始めている。
ここ数年のAI分野では、画像を識別したり、描画したり、キャプションを付けたりといった異なるタスクをこなすように訓練された、複数の小さなモデルを使用することから、これらすべてをこなすように訓練された単一のモノリシックなモデルを使用することへとシフトしている。OpenAIのGPT-3にいくつかの追加例を示す(微調整と呼ばれる)ことで、研究者はコーディングの問題を解いたり、映画のスクリプトを書いたり、高校の生物学の試験に合格したりするように訓練することができる。GPT-4やグーグル・ディープマインドのジェミニのようなマルチモーダルモデルは、言語的なタスクだけでなく視覚的なタスクも解くことができる。
同じアプローチがロボットにも使えるので、パンケーキをひっくり返すように訓練したロボットとドアを開けるように訓練したロボットを使い分ける必要はない。2023年には、この分野の研究例がいくつか登場した。
6月、ディープマインドはRobocat(昨年のGatoのアップデート版)を発表した。このロボットは試行錯誤から独自のデータを生成し、(一般的な1つの特定のアームではなく)多くの異なるロボットアームの制御方法を学習する。
同社は10月、33の大学研究室と共同で、RT-Xと呼ばれる別のロボット用汎用モデルと、大規模な新しい汎用トレーニングデータセットを発表した。カリフォルニア大学バークレー校のRAIL(Robotic Artificial Intelligence and Learning)など、他のトップ研究チームも同様の技術に注目している。
問題はデータ不足だ。ジェネレーティブAIは、テキストや画像といったインターネット規模のデータセットを利用する。それに比べ、ロボットは、私たちがロボットにさせたいと考えている産業や家事の多くのやり方を学習するのに役立つ、優れたデータ源をほとんど持っていない。
ニューヨーク大学のレレル・ピントは、この問題に取り組んでいるチームを率いている。彼と彼の同僚たちは、ロボットに試行錯誤をさせながら学習させる技術を開発している。さらに地味なプロジェクトとして、ピントはボランティアを募り、ゴミ拾い機に取り付けたiPhoneカメラを使って自宅周辺のビデオデータを収集している。メタ社のEgo4Dのように、大企業もここ数年、ロボットのトレーニング用に大規模なデータセットを公開し始めている。
このアプローチは、すでにドライバーレス自動車で有望視されている。Wayve、Waabi、Ghostなどの新興企業は、特定の運転タスクを制御する複数の小さなモデルではなく、車両を制御する単一の大きなモデルを使用する自動運転AIの新しい波を開拓している。これにより、小規模企業はクルーズやウェイモのような大企業に追いつくことができた。ウェイヴは現在、ロンドンの狭く交通量の多い道路で無人運転車のテストを行っている。あらゆる場所でロボットが同じような後押しを受けることになるだろう。
-ウィル・ダグラス・ヘブン