カメレオンの紹介: プラグ | 吉林省パッチケーブルグループ

多様な NLP タスクのための最近の大規模言語モデル (LLM) は目覚ましい進歩を遂げており、注目すべき例には GPT-3、PaLM、LLaMA、ChatGPT、そして最近提案された GPT-4 があります。これらのモデルは、ゼロショットの状況で、または少数のインスタンスの助けを借りてさまざまなタスクを解決できるため、人間と同様に計画を立て、意思決定を行うことができるという大きな可能性を秘めています。状況に応じた学習、数学的推論、常識的思考などの創発的なスキルは、LLM によって示されます。ただし、LLM には、外部ツールを使用できない、現在の情報にアクセスできない、数学的に正確に推論できないなどの制約が組み込まれています。

現在進行中の研究分野は、外部のツールやリソースにアクセスして言語モデルを強化し、LLM のこれらの制約を解決するための屋外ツールとプラグアンドプレイのモジュラー戦略の統合を調査することに焦点を当てています。最近の研究では、LLM を使用して、論理的推論の問題をより効率的に完了し、強力なコンピュータリソースを活用して数学的推論能力を向上させる複雑なプログラムを構築しています。たとえば、外部の知識ソースとオンライン検索エンジンの助けを借りて、LLM はリアルタイムの情報を取得し、ドメイン固有の知識を使用できます。 ViperGPT、Visual ChatGPT、VisProg、HuggingGPT などの現在の研究分野では、いくつかの基本的なコンピュータービジョンモデルを統合して、視覚的推論の問題を処理するために必要なスキルを LLM に提供します。

大幅な進歩にもかかわらず、今日のツールで拡張された LLM は、現実世界の問い合わせに応答する際に依然として大きな障害に遭遇しています。現在の技術のほとんどは、狭い一連のツールに限定されているか、特定のドメインの特定のデバイスに依存しているため、さまざまな問い合わせに一般化することが困難です。図 1 はこれを示しています。「この広告で使用されている主な説得力のあるアピールはどれですか?」 1) 広告画像にテキストコンテキストがあると仮定し、テキストデコーダを呼び出してセマンティクスを理解してこのクエリに応答するとします。 2) 「説得力のある魅力」とは何か、そしてさまざまなタイプがどのように異なるかを説明する背景情報を見つけます。 3) 入力された質問からのヒントと以前のフェーズからの中間結果を使用して解決策を考え出します。 4) 最後に、タスク固有の方法で応答を提示します。

一方、「どの動物の皮膚が寒い場所での生存に適しているか」という質問に答える際には、画像情報を解析する画像キャプショナや、領域知識を収集する Web 検索エンジンなどの追加モジュールに連絡する必要があるかもしれません。科学用語を理解する。 UCLA と Microsoft Research の研究者は、これらの問題を解決するために巨大な言語モデルを使用するプラグアンドプレイの構成推論フレームワークである Chameleon を提供しています。 Chameleon はプログラムを合成して、複数の質問に答えるさまざまなツールを作成できます。

Chameleon は、LLM に基づいて構築された自然言語プランナーです。従来の方法とは異なり、LLM、事前構築されたコンピュータービジョンモデル、オンライン検索エンジン、Python 関数、特定の目的のために設計されたルールベースのモジュールなど、さまざまなツールが使用されます。 Chameleon は、LLM のインコンテキスト学習機能を使用してこれらのプログラムを生成するため、トレーニングは必要ありません。プランナーは、各ツールの説明とツールの使用例に基づいて、ユーザーの問い合わせに対する最終的な応答を提供するために、ツールを作成および実行する適切な順序を推測できます。

Chameleon は、ドメイン固有のプログラムを作成する以前の取り組みとは異なり、自然言語に似たプログラムを作成します。これらのプログラムはエラーが発生しにくく、デバッグが簡単で、プログラミングの知識がほとんどない人にとっても使いやすく、新しいモジュールを含めて拡張可能です。プログラム内の各モジュールは、クエリとコンテキストを実行、処理、キャッシュし、モジュールによって選択された応答を返し、今後のモジュール実行のためにクエリと保存されたコンテキストを変更します。モジュールを逐次プログラムとして構成することにより、更新されたクエリと以前にキャッシュされたコンテキストを次のモジュールの実行中に使用できます。 ScienceQA と TabMWP の 2 つのタスクで、Chameleon の柔軟性と能力を実証しています。

TabMWP は多数の表形式のコンテキストを含む数学ベンチマークであるのに対し、ScienceQA は多くのコンテキスト形式と科学的テーマを含むマルチモーダルな質問応答ベンチマークです。さまざまなタイプやドメインにわたってさまざまなツールを調整する Chameleon の機能の有効性は、これら 2 つのベンチマークを使用してテストできます。特に、GPT-4 を搭載した Chameleon は、ScienceQA で 86.54% の精度を獲得しており、最もよく報告されている少数ショットモデルを 11.37% 上回っています。 Chameleon は、CoT GPT-4 と比較して 7.97% の向上を実現し、基礎となる LLM として GPT-4 を使用する TabMWP の最先端モデルと比較して 17.8% 向上し、その結果、合計精度は 98.78% になります。

ChatGPT などの以前の LLM と比較して、さらなる研究により、GPT-4 をプランナーとして採用すると、より一貫性のある論理的なツール選択が実証され、指示が与えられた場合に考えられる制限を推定できることが示唆されています。彼らの貢献の概要は次のとおりです。 (1) 彼らはプラグアンドプレイの構成推論フレームワークである Chameleon を作成し、巨大な言語モデルの固有の制限を解決し、さまざまな推論タスクを引き受けます。 (2) LLM、商用ビジョンモデル、オンライン検索エンジン、Python 関数、ルールベースのモジュールなどのいくつかのテクノロジーを効果的に組み合わせて、現実世界の問い合わせに応答する柔軟で適応性のある AI システムを作成します。 (3) 彼らは、ScienceQA と TabMWP という 2 つのベンチマークでフレームワークの柔軟性と有効性を実証することにより、最先端技術を大幅に進歩させています。コードベースは GitHub で公開されています。

をチェックしてください紙、プロジェクト、そしてギットハブ 。忘れずに参加してください19,000 以上の ML SubReddit、Discordチャンネル、そしてメールニュースレターでは、最新の AI 研究ニュースやクールな AI プロジェクトなどを共有します。上記の記事に関してご質問がある場合、または何か見逃した場合は、お気軽にメールでお問い合わせください。[email protected]

🚀 AI Tools Club で 100 年代の AI ツールをチェックしてください

Aneesh Tickoo は、MarktechPost のコンサルティングインターンです。彼は現在、ビライのインド工科大学 (IIT) でデータサイエンスと人工知能の学士号を取得中です。彼はほとんどの時間を、機械学習の力を活用することを目的としたプロジェクトに取り組んでいます。彼の研究対象は画像処理であり、それを中心としたソリューションの構築に熱心に取り組んでいます。彼は人々とつながり、興味深いプロジェクトに協力することが大好きです。

図 1: Paper プロジェクト、Github の 19,000 以上の ML SubReddit Discord チャネルの電子メールニュースレター [email protected] 🚀 AI Tools Club で 100 の AI ツールをチェックしてください