国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目次
目次
LLMベンチマークとは何ですか?
LLMベンチマークの主要な機(jī)能
LLMベンチマークの必要性は何ですか?
LLMベンチマークの動(dòng)作
推論ベンチマーク
1。アーク:抽象化と推論の課題
2。大規(guī)模なマルチディシップラインマルチモーダル理解(MMMU)
3。GPQA:高度な推論のための挑戦的なベンチマーク
4。大規(guī)模なマルチタスク言語理解(MMLU)の測(cè)定
ベンチマークのコーディング
5。HumanVal:言語モデルからのコード生成の評(píng)価
6。SWEベンチ
7。SWE-LAN??CER
8。ライブコードベンチ
9。CodeForces
ツール使用(エージェント)ベンチマーク
10。タウベンチ
言語の理解と質(zhì)問応答ベンチマーク
11。スーパーグルー
12。Helloswag
數(shù)學(xué)ベンチマーク
13。數(shù)學(xué)データセット
14。AIME2025
結(jié)論
ホームページ テクノロジー周辺機(jī)器 AI 2025年に知っておくべき14の人気のLLMベンチマーク

2025年に知っておくべき14の人気のLLMベンチマーク

Mar 21, 2025 am 11:08 AM

大規(guī)模な言語モデル(LLMS)は、人間の言語を模倣するテキストの解釈と作成の両方に優(yōu)れている、恐るべきツールとして自分自身を証明しています。それにもかかわらず、これらのモデルの広範(fàn)な可用性により、パフォーマンスを正確に評(píng)価するという複雑なタスクが導(dǎo)入されます。ここでは、LLMベンチマークがセンターステージに上がり、言語理解や高度な推論などのタスクにおけるモデルのスキルを測(cè)定するための體系的な評(píng)価を提供します。この記事では、それらの重要な役割を調(diào)査し、有名な例を強(qiáng)調(diào)し、その制限を調(diào)べ、言語技術(shù)への影響の全體像を提供します。

ベンチマークは、パフォーマンスを測(cè)定および比較するための標(biāo)準(zhǔn)として機(jī)能する大規(guī)模な言語モデル(LLM)を評(píng)価するために不可欠です。彼らは、基本的な言語の理解から高度な推論やプログラミングまで、スキルを評(píng)価するための一貫した方法を提供します。

目次

  • LLMベンチマークとは何ですか?
  • LLMベンチマークの必要性は何ですか?
  • LLMベンチマークの動(dòng)作
  • 推論ベンチマーク
    • アーク:抽象化と推論の課題
    • 大規(guī)模なマルチディシップラインマルチモーダル理解(MMMU)
    • GPQA:高度な推論のための挑戦的なベンチマーク
    • 大規(guī)模なマルチタスク言語理解(MMLU)の測(cè)定
  • ベンチマークのコーディング
    • HumanVal:言語モデルからのコード生成の評(píng)価
    • swe-bench
    • Swe-Lancer
    • ライブコードベンチ
    • codeforces
  • ツール使用(エージェント)ベンチマーク
    • タウベンチ
  • 言語の理解と質(zhì)問応答ベンチマーク
    • スーパーグルー
    • Helloswag
  • 數(shù)學(xué)ベンチマーク
    • 數(shù)學(xué)データセット
    • AIME 2025
  • 結(jié)論

LLMベンチマークとは何ですか?

LLMベンチマークは、特定のタスク上の言語モデルのパフォーマンスを評(píng)価するために設(shè)計(jì)された構(gòu)造化されたテストです。彼らは次のような重要な質(zhì)問に答えるのに役立ちます:

  • このLLMはコーディングタスクを効果的に処理できますか?
  • 會(huì)話で関連する答えをどれだけうまく提供しますか?
  • 複雑な推論の問題を解決することができますか?

LLMベンチマークの主要な機(jī)能

  • 標(biāo)準(zhǔn)化されたテスト:各ベンチマークは、既知の正解を備えた一連のタスクで構(gòu)成され、一貫した評(píng)価が可能です。
  • 多様な評(píng)価領(lǐng)域:ベンチマークは、次のようなさまざまなスキルに焦點(diǎn)を當(dāng)てることができます。
    • 言語理解
    • 數(shù)學(xué)の問題解決
    • コーディング能力
    • 會(huì)話の品質(zhì)
    • 安全性と倫理的考慮事項(xiàng)

LLMベンチマークの必要性は何ですか?

評(píng)価における標(biāo)準(zhǔn)化と透明性

  • 比較一貫性:ベンチマークはLLM間の直接的な比較を促進(jìn)し、評(píng)価が透明で再現(xiàn)可能であることを確認(rèn)します。
  • パフォーマンススナップショット:確立されたモデルに関連する新しいLLMの機(jī)能の迅速な評(píng)価を提供します。

進(jìn)捗追跡と改良

  • 監(jiān)視の進(jìn)捗狀況:ベンチマークは、時(shí)間の経過に伴うモデルのパフォーマンスの改善を観察するのに役立ち、研究者がモデルの改良を支援します。
  • 制限の明らかな:これらのツールは、モデルが不足している領(lǐng)域を特定することができ、將來の研究開発の取り組みを?qū)Г蓼埂?/li>

モデル選択

  • 情報(bào)に基づいた選択:開業(yè)醫(yī)にとって、特定のタスクのモデルを選択する際にベンチマークが重要な參照になり、チャットボットやカスタマーサポートシステムなどのアプリケーションの十分な情報(bào)の決定を確保します。

LLMベンチマークの動(dòng)作

段階的なプロセスは次のとおりです。

  • データセットの入力とテスト
    • ベンチマークは、質(zhì)問への回答やコードの生成など、LLMが完了するためのさまざまなタスクを提供します。
    • 各ベンチマークには、テキスト入力のデータセットと、評(píng)価のために対応する「グラウンドトゥルース」回答が含まれています。
  • パフォーマンス評(píng)価とスコアリング:タスクを完了した後、タスクの種類に応じて、精度やBLEUスコアなどの標(biāo)準(zhǔn)化されたメトリックを使用して、モデルの応答が評(píng)価されます。
  • LLMのランキングとリーダーボード:モデルはスコアに基づいてランク付けされており、複數(shù)のベンチマークから結(jié)果を集めているリーダーボードに表示されることがよくあります。

推論ベンチマーク

1。アーク:抽象化と推論の課題

Ravenのプログレッシブマトリックスからインスピレーションを引き出すことにより、抽象化と推論コーパス(ARC)ベンチマークマシンインテリジェンス。 AIシステムに挑戦して、いくつかの例に基づいて次の畫像をシーケンスで識(shí)別し、人間の認(rèn)知能力を反映する少數(shù)の學(xué)習(xí)を促進(jìn)します。一般化を強(qiáng)調(diào)し、「priors」 - 世界に関する內(nèi)因性の知識(shí)を活用することにより、ARCは人間のような推論に向けてAIを前進(jìn)させることを目指しています。データセットは、構(gòu)造化されたカリキュラムに従い、予測(cè)の精度を通じてパフォーマンスを測(cè)定しながら、ますます複雑なタスクを通じてシステムを體系的にガイドします。進(jìn)歩にもかかわらず、AIは依然として人間レベルのパフォーマンスに到達(dá)するのに苦労しており、AI研究の進(jìn)歩の継続的な必要性を強(qiáng)調(diào)しています。

2025年に知っておくべき14の人気のLLMベンチマーク

抽象化と推論コーパスには、人間と人工知能システムの両方が解決できる多様なタスクセットが含まれています。 Ravenのプログレッシブマトリックスに觸発されたこのタスク形式では、參加者が次の畫像をシーケンスで識(shí)別し、認(rèn)知能力をテストする必要があります。

2。大規(guī)模なマルチディシップラインマルチモーダル理解(MMMU)

大規(guī)模なマルチディシップラインのマルチモーダル理解と推論(MMMU)ベンチマークは、大學(xué)レベルの知識(shí)と推論タスクに関するマルチモーダルモデルを評(píng)価します。これには、アート&デザイン、ビジネス、科學(xué)、健康&醫(yī)學(xué)、人文科學(xué)、技術(shù)&エンジニアリングの6つの分野にわたる試験、クイズ、教科書からの115kの質(zhì)問が含まれています。

これらの質(zhì)問には、30の被験者と183のサブフィールドに及び、チャート、図、マップ、化學(xué)構(gòu)造などの30の不均一な畫像タイプが組み込まれています。 MMMUは、ドメイン固有の知識(shí)、専門家レベルのタスクを?qū)g行するための挑戦的なモデルを備えた高度な認(rèn)識(shí)と推論に焦點(diǎn)を當(dāng)てており、大規(guī)模なマルチモーダルモデル(LMM)の知覚、知識(shí)、推論スキルを測(cè)定することを目的としています。 GPT-4Vを含む現(xiàn)在のモデルの評(píng)価により、高度なモデルが約56%の精度しか達(dá)成されていない場(chǎng)合でも、実質(zhì)的な改善の余地があります。ベンチマークのより堅(jiān)牢なバージョンであるMmmu-Proが、評(píng)価の強(qiáng)化のために導(dǎo)入されました。

2025年に知っておくべき14の人気のLLMベンチマーク

各分野からのMMMUの例をサンプリングしました。質(zhì)問と畫像には、理解し、推論するために専門家レベルの知識(shí)が必要です。

3。GPQA:高度な推論のための挑戦的なベンチマーク

GPQAは、生物學(xué)、物理學(xué)、化學(xué)における448の複數(shù)選択質(zhì)問のデータセットであり、専門家と高度なAIに挑戦するように設(shè)計(jì)されています。博士號(hào)を持つドメインの専門家は、高品質(zhì)と困難を確保するために質(zhì)問を作成および検証します。専門家は65%の精度を達(dá)成し(遡及的に特定された間違いで74%)、他のフィールドの博士號(hào)を持つ非専門家は、無制限のインターネットアクセスにもかかわらず、34%しか獲得できません。 GPT-4のような主要なAIモデルは、わずか39%の精度に達(dá)します。 GPQAは、人間の能力を超えるAIのスケーラブルな監(jiān)視に関する研究をサポートし、人間が専門知識(shí)を超えたトピックに関する真実の情報(bào)を抽出するのを支援します。

2025年に知っておくべき14の人気のLLMベンチマーク

當(dāng)初、質(zhì)問が作成され、その後、同じドメインの専門家が答えとフィードバックを提供します。これには、質(zhì)問の提案された改訂が含まれる場(chǎng)合があります。その後、質(zhì)問ライターは、専門家のフィードバックに基づいて質(zhì)問を修正します。この改訂された質(zhì)問は、同じドメインの別の専門家と他の分野の専門知識(shí)を持つ3つの非専門家の有効化者に送られます。専門家のバリッターの合意(*)は、最初に正しく答えるか、正しい答えを見た後、最初の間違いの明確な説明を提供するか、質(zhì)問ライターの説明を完全に理解していることを検討します。

4。大規(guī)模なマルチタスク言語理解(MMLU)の測(cè)定

巨大なマルチタスク言語理解(MMLU)ベンチマーク。前登録中に取得したテキストモデルの知識(shí)を測(cè)定するように設(shè)計(jì)されています。 MMLUは、初等數(shù)學(xué)、米國(guó)の歴史、コンピューターサイエンス、法律などを含む57の多様なタスクのモデルを評(píng)価します。複數(shù)の選択の質(zhì)問としてフォーマットされており、評(píng)価を簡(jiǎn)単にします。

ベンチマークの目的は、以前のベンチマークよりも言語理解のより包括的で挑戦的なテストであり、知識(shí)と推論の組み合わせを必要とすることです。この論文は、いくつかのモデルの結(jié)果を提示し、大規(guī)模な事前に守られたモデルでさえMMLUで苦労しており、言語理解能力の改善の余地を示唆していることを示しています。さらに、この論文では、MMLUのパフォーマンスに対するスケールと微調(diào)整の影響を調(diào)査します。

2025年に知っておくべき14の人気のLLMベンチマーク

このタスクでは、適切な適用を適用する詳細(xì)で不協(xié)和音のシナリオを理解する必要があります

法的先例、および正しい説明を選択します。緑のチェックマークはグラウンドトゥルースです。

ベンチマークのコーディング

5。HumanVal:言語モデルからのコード生成の評(píng)価

Humanvalは、言語モデルによって生成されたコードの機(jī)能的正しさを評(píng)価するために設(shè)計(jì)されたベンチマークです。これは、関數(shù)の署名、Docstring、およびいくつかの単體テストで164のプログラミング問題で構(gòu)成されています。これらの問題は、言語理解、推論、アルゴリズム、および単純な數(shù)學(xué)のスキルを評(píng)価します。構(gòu)文的な類似性に依存していた以前のベンチマークとは異なり、Humanevalは、生成されたコードが実際に提供された単體テストに渡すかどうかを評(píng)価し、機(jī)能的正しさを測(cè)定します。ベンチマークは、現(xiàn)在の言語モデルと人間レベルのコード生成のギャップを強(qiáng)調(diào)しており、大規(guī)模なモデルでさえ、正しいコードを一貫して作成するのに苦労していることを明らかにしています。これは、コード生成言語モデルの能力を評(píng)価するための挑戦的で実用的なテストとして機(jī)能します。

2025年に知っておくべき14の人気のLLMベンチマーク

以下は、Codex-12Bの単一サンプルが単位テストに合格する確率を伴うHumaneval Datasetからの3つの例示的な問題です:0.9、0.17、および0.005。モデルに提示されたプロンプトは白い背景に表示されますが、モデルが生成した完成が成功し、黃色の背景で強(qiáng)調(diào)表示されます。問題の斬新を保証するものではありませんが、すべての問題は細(xì)心の注意を払って手で作成され、既存のソースからプログラム的にコピーされていないため、ユニークで挑戦的なデータセットが確保されました。

6。SWEベンチ

SWEベンチは、GitHubで見つかった実際のソフトウェアの問題を解決する能力について、大規(guī)模な言語モデル(LLMS)を評(píng)価するために設(shè)計(jì)されたベンチマークです。これは、12の一般的なPythonリポジトリにわたる実際のGithubの問題と対応するプル要求に由來する2,294のソフトウェアエンジニアリングの問題で構(gòu)成されています。タスクには、コードベースと問題の説明を含む言語モデルを提供することが含まれ、問題を解決するパッチを生成するように挑戦します。モデルの提案されたソリューションは、リポジトリのテストフレームワークに対して評(píng)価されます。 SWEベンチは、AIモデルと、プロンプトの生成、出力の解析、およびインタラクションループ2の管理を擔(dān)當(dāng)する周囲のソフトウェア足場(chǎng)を含む「エージェント」システム全體の評(píng)価に焦點(diǎn)を當(dāng)てています。 500のサンプルで構(gòu)成されるSWEベンチ検証と呼ばれるヒト検証されたサブセットは、タスクが解決可能であり、コーディングエージェントのパフォーマンスのより明確な尺度を提供することを保証します

2025年に知っておくべき14の人気のLLMベンチマーク

SWEベンチソースGitHubの問題を接続して関連するテストを解決するプル要求ソリューションをマージすることにより、現(xiàn)実世界のPythonリポジトリからタスクインスタンスをソースします。問題テキストとコードベーススナップショットが付屬しているため、モデルは実際のテストに対して評(píng)価されるパッチを生成します

7。SWE-LAN??CER

Swe-Lancerは、フロンティア言語モデル(LLMS)の機(jī)能を評(píng)価するために開発されたベンチマークであり、Upworkから供給された現(xiàn)実世界のフリーランスソフトウェアエンジニアリングタスクを完了し、合計(jì)100萬ドルです。これには、50ドル相當(dāng)の単純なバグ修正から、最大32,000ドル相當(dāng)の複雑な機(jī)能実裝まで、1,400を超えるタスクが含まれています。ベンチマークでは、2つのタイプのタスクを評(píng)価します。個(gè)々の貢獻(xiàn)者(IC)タスク。モデルがプロのエンジニアによるエンドツーエンドテストを通じて検証されたコードパッチを生成し、Modelsが複數(shù)のオプションから最適な実裝提案を選択するSWEマネージャータスクです。調(diào)査結(jié)果は、高度なモデルでさえほとんどのタスクを解決するのに苦労しており、現(xiàn)在のAI機(jī)能と実際のソフトウェアエンジニアリングのニーズとのギャップを強(qiáng)調(diào)していることを示しています。モデルのパフォーマンスを金銭的価値にリンクすることにより、SWE-Lancerは、ソフトウェア開発におけるAIの経済的影響に関する研究を促進(jìn)することを目指しています。

2025年に知っておくべき14の人気のLLMベンチマーク

IC SWEタスクの評(píng)価プロセスには、モデルのパフォーマンスが徹底的にテストされる?yún)椄瘠试u(píng)価が含まれます。このモデルには一連のタスクが表示され、適用されるすべてのテストを満たすために支払いを獲得するソリューションを生成する必要があります。この評(píng)価フローにより、モデルの出力が正しいだけでなく包括的であることが保証され、実際のソフトウェアエンジニアリングタスクに必要な高い基準(zhǔn)を満たします。

8。ライブコードベンチ

LiveCodebenchは、既存のベンチマークの制限に対処することにより、コード関連のタスクに関する大規(guī)模な言語モデル(LLM)の全體的かつ汚染のない評(píng)価を提供するように設(shè)計(jì)された新しいベンチマークです。 LeetCode、Atcoder、Codeforcesなどのプラットフォームでの毎週のコーディングコンテストから供給された問題を使用し、リリース日でタグ付けされて汚染を防止し、コード生成に加えて、自己修復(fù)、コード実行、テスト出力予測(cè)に関するLLMを評(píng)価します。 2023年5月から2024年5月の間に500を超えるコーディングの問題が発表されているため、LiveCodebenchは高品質(zhì)の問題とテスト、バランスの取れた問題の難易度を備えており、一部のモデルの間でヒューマヴァルに潛在的に過剰に適合していることを明らかにし、さまざまなコーディングタスク全體の異なるモデルのさまざまな強(qiáng)度を強(qiáng)調(diào)しています。

2025年に知っておくべき14の人気のLLMベンチマーク

LiveCodebenchは、さまざまなコーディングシナリオを提示することにより、包括的な評(píng)価アプローチを提供します。コーディングは複雑なタスクであり、コーディング関連のスキルの範(fàn)囲をキャプチャする一連の評(píng)価セットアップを通じて、大規(guī)模な言語モデル(LLM)を評(píng)価することを提案します。典型的なコード生成設(shè)定を超えて、3つの追加シナリオを紹介します:自己修復(fù)、コード実行、および新しいテスト出力予測(cè)タスクを紹介します。

9。CodeForces

CodeForcesは、CodeForcesプラットフォームと直接インターフェースすることにより、大規(guī)模な言語モデル(LLM)の競(jìng)合レベルのコード生成能力を評(píng)価するために設(shè)計(jì)された新しいベンチマークです。このアプローチは、隠されたテストケースへのアクセス、特別審査員のサポート、および一貫した実行環(huán)境を通じて正確な評(píng)価を保証します。 CodeForcesは、CodeForces獨(dú)自の評(píng)価システムに合わせて標(biāo)準(zhǔn)化されたELOレーティングシステムを?qū)毪筏蓼工?、分散が減少し、LLMSと人間の競(jìng)合他社の直接的な比較が可能になります。 33のLLMの評(píng)価により、OpenaiのO1-Miniが1578年の最高の速度評(píng)価を達(dá)成し、人間の參加者の上位90パーセンタイルに配置したという大きなパフォーマンスの違いが明らかになりました。このベンチマークは、高度なモデルによる進(jìn)捗狀況と、ほとんどの現(xiàn)在のLLMSの競(jìng)爭(zhēng)力のあるプログラミング機(jī)能の改善のかなりの余地を明らかにしています。 CodeForcesベンチマークとそのELO計(jì)算ロジックは公開されています。

2025年に知っておくべき14の人気のLLMベンチマーク

Codeforcesは幅広いプログラミングの課題を提示し、各問題は必須コンポーネントを含むように慎重に構(gòu)成されています。これらのコンポーネントには通常、次のものが含まれます。1)記述タイトル、2)ソリューションの時(shí)間制限、3)プログラムのメモリ制限、4)詳細(xì)な問題の説明、5)入力形式、6)予想される出力形式、7)プログラマーをガイドするテストケースの例、8)追加のコンテキストまたはヒントを提供するオプションのメモ。 「CodeForces問題E」というタイトルのそのような問題の1つは、URL(https://codeforces.com/contest/2034/problem/e)でアクセスできます。この問題は、競(jìng)爭(zhēng)力のあるコーディング環(huán)境でプログラマーのスキルをテストするために慎重に作成されており、特定の時(shí)間とメモリの制約內(nèi)で効率的かつ効果的なソリューションを作成するように挑戦します。

ツール使用(エージェント)ベンチマーク

10。タウベンチ

τベンチは、ドメイン固有のポリシーを順守しながら、人間のユーザーとプログラムAPIと相互作用する能力について言語エージェントを積極的に評(píng)価します。多くの場(chǎng)合、単純化された命令に応えるセットアップを備えた既存のベンチマークとは異なり、τベンチは、ユーザー(言語モデルでシミュレートされた)とドメイン固有のAPIツールとポリシーガイドラインを備えた言語エージェントとの間の動(dòng)的な會(huì)話をエミュレートします。このベンチマークは、現(xiàn)実的なデータベースとAPI、ドメイン固有のポリシードキュメント、および対応するグラウンドトゥルースアノテーションを備えた多様なユーザーシナリオの指示を含むモジュラーフレームワークを採用しています。 τベンチの重要な機(jī)能は、評(píng)価プロセスであり、會(huì)話の最後にある注釈付きゴール狀態(tài)を比較し、エージェントの意思決定の客観的な測(cè)定を可能にします。

このベンチマークは、複數(shù)の試行に対するエージェントの行動(dòng)の信頼性を評(píng)価するために、新しいメトリックであるパス^kも導(dǎo)入し、一貫して行動(dòng)し、現(xiàn)実世界のアプリケーションで定期的にルールに従うことができるエージェントの必要性を強(qiáng)調(diào)します。初期実験では、最先端の関數(shù)呼び出しエージェントでさえ、複雑な推論、政策の順守、および複合要求の取り扱いに苦労していることが示されています。

2025年に知っておくべき14の人気のLLMベンチマーク

τベンチは、エージェントがデータベースAPIツールとLMシミュレーションユーザーに関與してタスクを達(dá)成する革新的なベンチマークです。複數(shù)のインタラクションを通じてユーザーとの間で関連情報(bào)を収集および伝達(dá)するエージェントの能力を評(píng)価すると同時(shí)に、複雑な問題をリアルタイムで解決する能力をテストし、ドメイン固有のポリシー文書に概説されているガイドラインの順守を確保します。 τiarlineタスクでは、エージェントはドメインポリシーに基づいて基本エコノミーフライトを変更するというユーザーの要求を拒否し、代替ソリューション、つまりキャンセリングと再予約を提案する必要があります。このタスクでは、エージェントがデータベース、ルール、およびユーザーの意図を含む複雑な環(huán)境でゼロショット推論を適用する必要があります。

言語の理解と質(zhì)問応答ベンチマーク

11。スーパーグルー

SuperGlueは、高度なベンチマークを通じて自然言語理解(NLU)モデルの能力を評(píng)価し、前任者である接著剤よりも厳しい評(píng)価を提供します。 Glueの最も挑戦的な2つのタスクを保持している間、Superglueは、より深い推論、常識(shí)的な知識(shí)、文脈的理解を必要とする新しいより複雑なタスクを紹介します。接著剤の文と文章の分類を超えて拡大して、質(zhì)問に応答したり、コルファレンス解決などのタスクを含めたりします。スーパーグルーデザイナーは、大學(xué)教育を受けた英語の話者が管理できるタスクを作成しますが、これらのタスクは現(xiàn)在の最先端のシステムの機(jī)能を超えています。このベンチマークは、比較のための包括的な人間のベースラインを提供し、モデル評(píng)価のためのツールキットを提供します。 Superglueは、汎用言語理解技術(shù)の開発に向けて進(jìn)歩を測(cè)定および促進(jìn)することを目指しています。

2025年に知っておくべき14の人気のLLMベンチマーク

Superglueタスクの開発セットは、それぞれが獨(dú)自の形式で提示される多様な例を提供します。これらの例には、通常、各タスクの特定の形式を示す太字のテキストが含まれます。モデル入力は、イタリック化されたテキストを統(tǒng)合して、本質(zhì)的なコンテキストまたは情報(bào)を提供します。それは、入力內(nèi)の下線付きのテキストを特にマークし、多くの場(chǎng)合、特定の焦點(diǎn)または要件を強(qiáng)調(diào)します。最後に、予想される出力を表すためにモノスパース化されたフォントを使用して、予想される応答またはソリューションを紹介します。

12。Helloswag

Hellaswagは、常識(shí)的な自然言語推論(NLI)を評(píng)価するためのベンチマークデータセットです。特定のコンテキストに基づいて文を完成させるために機(jī)械に挑戦します。 Zellers et al。によって開発され、70,000の問題が含まれています。人間は95%以上の精度を達(dá)成し、トップモデルは50%未満のスコアを達(dá)成します。データセットでは、敵対的なフィルタリング(AF)を使用して、誤解を招くがもっともらしい誤った回答を生成し、モデルが適切な完了を見つけるのが難しくなります。これは、Commonsense ReasoningのBertのような深い學(xué)習(xí)モデルの限界を強(qiáng)調(diào)しています。 Hellaswagは、人間のようなシナリオを理解することに挑戦するAIシステムを維持する進(jìn)化するベンチマークの必要性を強(qiáng)調(diào)しています。

2025年に知っておくべき14の人気のLLMベンチマーク

Bertのようなモデルは、トレーニングデータと同じ分布から來たとしても、Hellaswagで文章を完成させるのに苦労することがよくあります。誤ったエンディングは、文脈的には関連性がありますが、人間の正確性と妥當(dāng)性の基準(zhǔn)を満たすことができません。たとえば、WikiHowパッセージでは、オプションAはドライバーに2秒間しか赤色光で停止するようにアドバイスします。これは明らかに間違っており、非現(xiàn)実的です。

數(shù)學(xué)ベンチマーク

13。數(shù)學(xué)データセット

記事で導(dǎo)入された數(shù)學(xué)データセットには、12,500の挑戦的な數(shù)學(xué)競(jìng)爭(zhēng)の問題が含まれています。機(jī)械學(xué)習(xí)モデルの問題解決能力を評(píng)価します。これらの問題は、AMC 10、AMC 12、AIMEなどの競(jìng)技から、さまざまな難易度と、代數(shù)、代數(shù)、數(shù)の理論、幾何學(xué)などの被験者をカバーしています。既知の式で解決可能な典型的な數(shù)學(xué)の問題とは異なり、數(shù)學(xué)の問題には問題解決技術(shù)とヒューリスティックが必要です。各問題には、段階的なソリューションが含まれており、モデルが回答派生の生成と、より解釈可能な出力の説明を生成するのに役立ちます。

2025年に知っておくべき14の人気のLLMベンチマーク

この例には、生成されたソリューションと対応するグラウンドトゥルースソリューションに関する多様な數(shù)學(xué)的問題が含まれています。 2月6日に開催された最新のAIMEは、數(shù)學(xué)コミュニティにすぐに関心を集めました。 YouTube、オンラインフォーラム、および試験の直後にブログで問題やソリューションを共有しました。この迅速な議論は、これらの課題に対するコミュニティの熱意を強(qiáng)調(diào)しています。たとえば、最初の問題の生成されたソリューションは正しく、明確に説明されており、モデル出力が成功しています。対照的に、組み合わせと図を含む2番目の問題は、モデルに挑戦し、誤ったソリューションにつながります。

14。AIME2025

American Invitational Mathematics Examination(AIME)は、名譽(yù)ある數(shù)學(xué)コンペティションであり、國(guó)際數(shù)學(xué)オリンピアードの米國(guó)チームを選択する第2段階です。ほとんどの參加者は高校生ですが、才能のある中學(xué)生の一部は毎年資格があります。アメリカ數(shù)學(xué)協(xié)會(huì)はこの試験を?qū)g施しています。

數(shù)學(xué)コミュニティは、2月6日の最近のAIMEにすぐに興味を持ち、試験の直後にYouTube、フォーラム、ブログ全體で問題やソリューションを共有および議論しました。この迅速な分析は、これらの挑戦的な競(jìng)爭(zhēng)に対するコミュニティの熱意を反映しています。

2025年に知っておくべき14の人気のLLMベンチマーク

この畫像は、AIME 2025ペーパーの問題と解決策を示しています。このベンチマークは、LLMの數(shù)學(xué)的推論能力に焦點(diǎn)を當(dāng)てています。

結(jié)論

開発者は、大規(guī)模なデータセットでほぼ毎日新しいモデルを作成およびトレーニングし、さまざまな機(jī)能を裝備しています。 LLMベンチマークは、これらのモデルを比較する上で重要な役割を果たします。これは、どのモデルがコードを作成するのに最適で、推論に優(yōu)れているか、どのモデルがNLPタスクを最も効果的に処理しますか。したがって、これらのベンチマークでモデルを評(píng)価することが必須のステップになります。 AGIに向かって急速に進(jìn)歩するにつれて、研究者は進(jìn)歩に追いつくための新しいベンチマークも作成しています。

以上が2025年に知っておくべき14の人気のLLMベンチマークの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國(guó)語版

SublimeText3 中國(guó)語版

中國(guó)語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Jul 12, 2025 am 09:16 AM

今年初めにゲナイ産業(yè)を混亂させたオープンソースの中國(guó)モデルの洪水を覚えていますか? Deepseekはほとんどの見出しを取りましたが、Kimi K1.5はリストの著名な名前の1つでした。そして、モデルはとてもクールでした。

Grok 4 vs Claude 4:どちらが良いですか? Grok 4 vs Claude 4:どちらが良いですか? Jul 12, 2025 am 09:37 AM

2025年半ばまでに、AIの「武器競(jìng)爭(zhēng)」は熱くなり、Xaiと人類は両方ともフラッグシップモデルであるGrok 4とClaude 4をリリースしました。これら2つのモデルは、設(shè)計(jì)哲學(xué)と展開プラットフォームの反対側(cè)にありますが、

今日、今日私たちの間を歩いている10の驚くべきヒューマノイドロボット 今日、今日私たちの間を歩いている10の驚くべきヒューマノイドロボット Jul 16, 2025 am 11:12 AM

しかし、おそらく1つを見るのに10年も待つ必要はありません。実際、本當(dāng)に有用で人間のような機(jī)械の最初の波と考えられるものは、すでにここにあります。 近年、多くのプロトタイプと生産モデルがTから抜け出しています

LeiaのImmersityモバイルアプリは、毎日の寫真に3D深さをもたらします LeiaのImmersityモバイルアプリは、毎日の寫真に3D深さをもたらします Jul 09, 2025 am 11:17 AM

レイア獨(dú)自のニューラル深度エンジンの上に構(gòu)築されたアプリは、靜止畫像を処理し、シミュレートされた動(dòng)き(パン、ズーム、視差効果など)とともに自然な深さを追加し、SCEに踏み込む印象を與える短いビデオリールを作成します。

コンテキストエンジニアリングは' new'迅速なエンジニアリング コンテキストエンジニアリングは' new'迅速なエンジニアリング Jul 12, 2025 am 09:33 AM

前年まで、迅速なエンジニアリングは、大規(guī)模な言語モデル(LLMS)と対話するための重要なスキルと見なされていました。しかし、最近、LLMは推論と理解能力を大幅に進(jìn)めています。當(dāng)然、私たちの期待

7種類のAIエージェントは何ですか? 7種類のAIエージェントは何ですか? Jul 11, 2025 am 11:08 AM

AIエンジンなど、ミラノからの新しい衣料品コレクションに関する詳細(xì)なフィードバックや、世界中で事業(yè)を展開しているビジネスの自動(dòng)市場(chǎng)分析、または大規(guī)模な車両艦隊(duì)を管理するインテリジェントシステムなど、洗練されたものを想像してください。

これらのAIモデルは言語を?qū)Wぶことができず、戦略を?qū)Wびました これらのAIモデルは言語を?qū)Wぶことができず、戦略を?qū)Wびました Jul 09, 2025 am 11:16 AM

キングスカレッジロンドンとオックスフォード大學(xué)の研究者からの新しい研究は、Openai、Google、および人類が反復(fù)囚のジレンマに基づいた激しい鳴き聲競(jìng)爭(zhēng)で一緒に投げ込まれたときに起こったことの結(jié)果を共有しています。これはノーでした

隠されたコマンド危機(jī):研究者はAIを公開します 隠されたコマンド危機(jī):研究者はAIを公開します Jul 13, 2025 am 11:08 AM

科學(xué)者は、システムをバイパスするための賢いが驚くべき方法を発見しました。 2025年7月は、研究者がアカデミックな提出物に目に見えない指示を挿入した精巧な戦略の発見をマークしました。これらの秘密の指示は尾でした

See all articles