赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
最新ニュース
すべてのニュースを見る →ローカルAIエージェントとオフラインコーディング:Claude Codeの実践についてデベロッパーコミュニティで活発な議論
Xプラットフォームでは複数のテック系インフルエンサーがClaude Codeなどのツールを用いたローカルAIエージェントの構築経験を共有し、オフライン環境でのコーディングとエージェント協調モデルの実現について活発な議論が巻き起こっている。ロ
アクセンチュアの株価18%急落:AIはコンサルティング業界の未来をどう塗り替えるか
グローバル大手コンサルティング企業のアクセンチュアが決算発表後に株価が18%急落し、上場来最大の一日下落幅を記録した。生成AIが従来のITコンサルティング・アウトソーシングサービスを急速に代替しつつあることが主な要因として挙げられている。
オープンソースGLM-5.2がクローズドソースの覇者に挑戦:コーディング能力がトップモデルに迫りAIコミュニティに衝撃
智谱AIが発表したオープンソース大規模モデルGLM-5.2が、そのコーディング能力で一部のトップクラスのクローズドソースモデルに肉薄し、グローバルAIコミュニティで大きな注目を集めている。オープンソース技術の可能性を示すこのモデルは、AIの
トランプ政権の禁令が波紋:AnthropicのFable 5モデルが公開停止リスクに直面
トランプ政権がAnthropicの最新AIモデルFable 5およびMythosに対して禁令または制限措置を課す可能性があり、国家安全保障上の理由からリリース停止や公開中止が求められているとして、テクノロジー業界に大きな波紋を呼んでいる。
暗号化とスパイウェアの次はMythos——サイバー輸出規制はなぜ繰り返し失敗するのか
米国スタートアップAnthropicが発表したサイバーセキュリティモデル「Mythos」が輸出規制をめぐる論争を引き起こしている。暗号化ソフトウェア戦争やスパイウェア規制の失敗など歴史的事例を踏まえ、技術の拡散を封じ込めようとする単独規制の
Claude Fable 5とMythos 5が6月12日に世界同時配信停止——安全認証要件とプライバシー問題が共存
AnthropicのClaude Fable 5およびMythos 5が2026年6月12日にジェイルブレイクの脆弱性への懸念から世界規模で配信停止となり、現在も復旧していない。生体認証ID収集ポリシーがプライバシー問題を引き起こし、API
Anthropicはユーザーの反対を受け、Claude Agent SDKのトークン課金変更を一時停止
Anthropicは2025年6月15日より予定していたClaude Agent SDKのAPI従量課金への移行を一時停止した。重度利用の開発者からの強い反発を受けたためであり、同社は現在より良い方式を再検討中としている。
文心一言4.5 Smokeメイン評価ランキングが1日で22.2点急落、コード実行スコアは半減して50点に
YZ Indexの2026年6月における11モデルの実測評価で、文心一言4.5 Smokeのメインランキングスコアが93.25点から71.02点へと1日で22.2点下落した。特にコード実行ディメンションが44.1点の大幅下落を記録した。
GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落
GPT-5.5が本日のSmokeテストで主榜スコアが93.03点から72.50点へと20.5点下落した。コード実行ディメンションが100点から50点へと急落したことが主な要因だが、ランダムな出題による変動である可能性が高い。
GPT-5.5の実行スコアが50に急落、Gemini 3.1 Proは総合ランキングで28.3点減
2026年6月20日のSmoke軽量評価において、GPT-5.5の総合スコアが93点から72.5点に急落し、実行スコアが100点から50点へと半減した。Gemini 3.1 ProやGemini 2.5 Pro、文心一言4.5も同様に実行ス
アンバニのAIビジョン:すべての通話、アプリ、家庭をカバーする
インドの富豪でリライアンス・インダストリーズ会長のムケシュ・アンバニが、傘下の通信キャリアJioのすべての通話・アプリ・家庭にAIを深く統合する野心的な計画を発表した。これにより、JioはAI駆動のテクノロジープラットフォームへの転換を目指
米国がAnthropicのFable 5公開を禁止、しかし市場データは動じず
米国政府がセキュリティ上の懸念を理由にAnthropicの最新AIモデルFable 5とMythos 5の公開を強制撤回させたが、株価への影響は軽微にとどまり、市場の反応は異様なほど落ち着いている。この出来事はAI規制と技術発展のバランスを
レビュー
すべて見る →文心一言4.5 Smokeメイン評価ランキングが1日で22.2点急落、コード実行スコアは半減して50点に
YZ Indexの2026年6月における11モデルの実測評価で、文心一言4.5 Smokeのメインランキングスコアが93.25点から71.02点へと1日で22.2点下落した。特にコード実行ディメンションが44.1点の大幅下落を記録した。
GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落
GPT-5.5が本日のSmokeテストで主榜スコアが93.03点から72.50点へと20.5点下落した。コード実行ディメンションが100点から50点へと急落したことが主な要因だが、ランダムな出題による変動である可能性が高い。
GPT-5.5の実行スコアが50に急落、Gemini 3.1 Proは総合ランキングで28.3点減
2026年6月20日のSmoke軽量評価において、GPT-5.5の総合スコアが93点から72.5点に急落し、実行スコアが100点から50点へと半減した。Gemini 3.1 ProやGemini 2.5 Pro、文心一言4.5も同様に実行ス
WDCD コンプライアンス
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
守約ランキング全体を見る →
Research Lab
WDCD Run #185:11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ
5大モデル翻訳対決:第25週品質評価、passthroughが9点でトップ
今週443件の翻訳タスクを5つのモデルが担当。3件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀はpassthrough(平均点9/10)となった。
WDCD Run #171:11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-3