Appwright AI

Building with AI — tools, frameworks, and practical insights for AI-powered development. Daily articles on the cutting edge of AI engineering.

Claude Managed Agents入門:Anthropicが提供するAIエージェントの完全マネージド実行環境

はじめに:Managed Agentsが解決する課題 AIエージェントをプロトタイプから本番運用に移行するには、通常3〜6ヶ月のインフラ構築が必要だった。サンドボックス実行環境、状態管理、認証情報の安全な取り扱い、エラーリカバリ、コンテキスト管理、ツールオーケストレーション——これらをすべて自前で実装するのは、大企業のチームでも容易ではない。 2026年4月8日、Anthropicはこの課題を根本的に解決するClaude Managed Agentsを公開ベータとしてリリースした。発表から2時間で200万ビューを記録し、Xでは「これでYCバッチ一個分の仕事が消えた」と話題になった。 Brain / Hands / Session アーキテクチャ Managed Agentsの設計思想は「頭脳と手足の分離」だ。アーキテクチャは3つの独立したコンポーネントで構成される。 Brain(頭脳) Claudeモデルが意思決定を行う。ツール呼び出し、次のアクションの判断、終了条件の評価を担当する。利用可能なモデルはOpus 4.6、Sonnet 4.6、Haiku 4.5から選択できる。 Hands(手足) 使い捨てのLinuxコンテナで、コード実行やファイル操作を担当する。エラーが発生した場合、新しいコンテナが自動的に生成される。永続状態を持たないため、セキュリティ上のリスクが低い。 Session(永続セッション) BrainとHandsの外部に存在するイベントログ。すべてのツール呼び出し、その結果、エージェントの意思決定を記録する。セッションは切断後も持続し、再開時にその場から続行できる。 この分離設計により、各コンポーネントは独立してスケールする。複数のBrainが単一のSessionを介してHandsと通信することも可能だ。 料金体系:ランタイム+トークンの二軸課金 Managed Agentsの課金は2次元で構成される。従来のCode Executionのコンテナ時間課金はSession Runtimeに統合された。 課金項目 料金 セッションランタイム $0.08/時間(アクティブ時のみミリ秒単位で課金) 入力トークン(Opus 4.6) $5/100万トークン 出力トークン(Opus 4.6) $25/100万トークン Web検索 $10/1,000回 実際のコスト例:1時間のコーディングセッション(Opus 4.6、入力50K・出力15Kトークン)の場合: # コスト計算 input_cost = 50_000 * 5.0 / 1_000_000 # $0.25 output_cost = 15_000 * 25.0 / 1_000_000 # $0.38 runtime_cost = 1.0 * 0.08 # $0.08 total = input_cost + output_cost + runtime_cost # $0.71 プロンプトキャッシングを活用すれば、入力コストを最大90%削減でき、同じセッションで $0.53 まで抑えられる。 重要なのは、アイドル時間は課金されないという点だ。ユーザーの入力を待っている間やツールの確認待ちの状態は"running"ステータスにならないため、コストは発生しない。 APIの基本的な使い方 Managed AgentsのAPIはシンプルだ。以下の手順でエージェントを作成し、セッションを開始できる。 import requests API_KEY = "sk-ant-..." headers = {"x-api-key": API_KEY, "Content-Type": "application/json"} BETA_HEADER = "managed-agents-2026-04-01" # 1. エージェントの作成 agent = requests.post( "https://api.anthropic.com/v1/managed_agents", headers={**headers, "managed-agents-version": BETA_HEADER}, json={ "name": "code-reviewer", "model": "claude-sonnet-4-6", "system_prompt": "あなたはコードレビューを行うエージェントです。" "PRの差分を分析し、バグの可能性、パフォーマンス問題、" "セキュリティ脆弱性を報告してください。", "tools": [ {"type": "code_execution"}, {"type": "web_search"} ] } ) # 2. セッションの開始 session = requests.post( f"https://api.anthropic.com/v1/managed_agents/{agent['id']}/sessions", headers={**headers, "managed-agents-version": BETA_HEADER}, json={"input": "PR #42の差分を確認してレビューコメントを作成してください"} ) 主要ユースケースと導入事例 すでに複数の大手企業が本番導入を進めている。 ...

May 13, 2026 · 11 min · 2114 words · Appwright

Xiaomi MiMo-V2.5-Pro完全解説:1.02TパラメータのオープンウェイトMoEモデルが切り拓くエージェントAIの新時代

はじめに 2026年4月22日、Xiaomiはオープンウェイトモデル「MiMo-V2.5-Pro」をリリースした。1.02T総パラメータ(アクティブ42B)のMoE(Mixture-of-Experts)モデルで、SWE-bench Proで57.2%、Artificial Analysis Intelligence Indexで54を記録し、Kimi K2.6と並んでオープンモデル最上位に位置する。 注目すべきはそのコスト効率だ。入力$1/100万トークン、出力$3/100万トークンと、Claude Opus 4.6(入力$5、出力$15)と比較して約1/5の価格で、エージェントタスクでは同等以上の性能を発揮する。さらにMITライセンスで公開されているため、商用利用も自由である。 本記事では、MiMo-V2.5-Proのアーキテクチャ、ベンチマーク性能、実際の使い方までを詳しく解説する。 アーキテクチャの特徴 MiMo-V2.5-Proは前世代のMiMo-V2-Proから大幅に進化した。コア技術は以下の3つに集約される。 Hybrid Attention Sliding Window Attention(SWA)とGlobal Attention(GA)を6:1の比率でインターリーブした構造を採用。128トークンのウィンドウサイズにより、KVキャッシュを約7倍削減しながら、100万トークンのコンテキスト全体にわたる理解を維持する。この設計はMiMo-V2-Flashで実証済みだ。 Multi-Token Prediction(MTP) 軽量なDense FFNモジュールを用いて、1ステップで複数のトークンを予測する。これにより出力スループットが約3倍向上し、RLトレーニングの高速化にも寄与する。 3段階ポストトレーニング Xiaomiは「Supervised Fine-Tuning → Domain-Specialized RL → Multi-Teacher On-Policy Distillation(MOPD)」という3段階のポストトレーニングパイプラインを採用している。各ドメイン(数学、安全性、エージェントツール使用等)で最適化された個別の教師モデルが、1つの学生モデルに知識を蒸留する。これにより、単一モデルで幅広いタスクをカバーできる。 ベンチマーク性能 各ベンチマークにおけるMiMo-V2.5-Proのスコアは以下の通りである。 ベンチマーク スコア 比較対象 SWE-bench Pro 57.2% クローズドモデルに迫る ClawEval 63.8% Claude Opus 4.6、GPT-5.4と同等 τ3-Bench 72.9% Claude Opus 4.6、GPT-5.4と同等 Artificial Analysis Intelligence Index 54 Kimi K2.6と同点、オープンモデル最上位 ClawEvalにおいて、MiMo-V2.5-Proは64%のPass³を達成しながら、1トレジェクトリあたりわずか約70Kトークンで動作する。これはClaude Opus 4.6やGPT-5.4と比較して40〜60%少ないトークン消費であり、実質的なコストパフォーマンスは際立っている。 実世界のエージェント性能 MiMo-V2.5-Proの真価は、実世界の複雑なタスクを自律的に実行する能力にある。Xiaomiの公開したデモから3つを紹介する。 事例1:SysYコンパイラの完全実装(Rust) 北京大学のコンパイラ設計講座をベースに、RustでSysYコンパイラをゼロから実装。レキサー、パーサー、AST、Koopa IR、RISC-Vバックエンド、最適化パスの全てを、4.3時間・672回のツール呼び出しで完成させた。隠されたテストスイート233問すべてに合格。初回コンパイル時は59%(137/233)の合格率だったが、以降の反復で自己修正しながら100%に到達している。 事例2:デスクトップ動画編集アプリの開発 マルチトラックタイムライン、クリップトリミング、クロスフェード、オーディオミキシング、エクスポートパイプラインを備えた8,192行のアプリケーションを11.5時間・1,868回のツール呼び出しで構築した。 事例3:アナログEDA回路設計 TSMC 180nm CMOSプロセスでのFVF-LDO設計。ngspiceシミュレーションループと連携し、約1時間で全6指標(位相余裕、ラインレギュレーション、負荷レギュレーション、消費電流、PSRR、過渡応答)を満たした。初期試行から4つの主要指標が10倍以上改善された。 ...

May 13, 2026 · 12 min · 2367 words · Appwright

2026年、AIエージェントフレームワーク徹底比較:LangGraph vs Claude Agent SDK vs CrewAI

AIエージェントを本番運用するには、フレームワークの選択がプロジェクトの成否を左右する。2026年現在、実戦で使えるフレームワークは乱立しているが、実際のプロダクション導入実績とコミュニティの規模を考慮すると、LangGraph、Claude Agent SDK、CrewAI の3つが最重要候補となる。 本稿では、これら3つのフレームワークをアーキテクチャ、学習曲線、本番運用の観点から比較し、それぞれが適したユースケースを具体的なコード例とともに解説する。 3大フレームワークの哲学 LangGraph:ステートマシンで制御する LangGraphはLangChainエコシステムの中核をなすグラフベースのフレームワークだ。エージェントのワークフローを有向グラフとしてモデリングし、ノード(処理ステップ)とエッジ(遷移条件)で制御フローを明示的に記述する。 2026年5月時点で月間検索ボリューム27,100件(Langfuse調べ)と、マルチエージェントフレームワークの中で最も広く採用されている。状態管理が明示的で、ループ・条件分岐・Human-in-the-Loop(HITL)が第一級の機能として組み込まれているのが最大の強みだ。 以下のコードは、調査→執筆→レビューのサイクルをグラフで表現した例である: from langgraph.graph import StateGraph, END from typing import TypedDict, List class ArticleState(TypedDict): topic: str research: str draft: str feedback: str revision_count: int def research_node(state: ArticleState) -> dict: # トピックに関する情報を収集 return {"research": f"Research on {state['topic']}..."} def write_node(state: ArticleState) -> dict: return {"draft": f"Draft based on: {state['research']}"} def review_node(state: ArticleState) -> dict: # レビューの結果、修正が必要かどうかを返す needs_revision = state["revision_count"] < 2 return { "feedback": "Needs more examples" if needs_revision else "Approved", "revision_count": state["revision_count"] + 1 } def should_revise(state: ArticleState) -> str: return "revise" if state["revision_count"] < 2 else "end" graph = StateGraph(ArticleState) graph.add_node("research", research_node) graph.add_node("write", write_node) graph.add_node("review", review_node) graph.set_entry_point("research") graph.add_edge("research", "write") graph.add_edge("write", "review") graph.add_conditional_edges("review", should_revise, { "revise": "write", "end": END }) app = graph.compile() result = app.invoke({"topic": "MCP Servers", "revision_count": 0}) HITLや途中再開(time-travel debugging)が必要なプロダクション用途では、現時点で最も完成度の高い選択肢と言える。 ...

May 12, 2026 · 12 min · 2253 words · Appwright

2026年、AIコーディングエージェント徹底比較:Claude Code vs Cursor vs GitHub Copilot

私はこの1年半、プロダクションアプリをAIコーディングツールだけで作ってきた。認証、決済、API、デプロイパイプラインまで含めた本番アプリだ。Cursorから始まり、Claude Codeを経て、今はハイブリッド構成に落ち着いている。 この記事では、実際に使い倒した立場から各ツールの本当の実力を伝える。 2026年のAIコーディングツール情勢 Stack Overflow 2026年の開発者調査によると、開発者の85%がAIコーディングツールを日常的に使用している。しかし、生成されたコードを「完全に信頼する」と答えたのはわずか29%だ。この「使うけど信用しない」ギャップこそが、各ツールの差別化ポイントを理解する鍵になる。 現在の3大競合は以下の通り。 ツール アプローチ 得意分野 価格 Claude Code ターミナル型自律エージェント 複数ファイルの大規模リファクタリング $20/月 (Pro) Cursor AIファーストIDE(VS Codeフォーク) 日々の対話的コーディング $20/月 (Pro) GitHub Copilot エディタ統合アシスタント クイック補完、エンタープライズ導入 $10/月〜 Claude Code:自律型アーキテクト Claude Codeの決定的な違いは、IDEプラグインではなくターミナルエージェントであることだ。リポジトリ全体を理解した上で自律的にタスクを実行する。 強いところ: 複数ファイルにまたがるリファクタリング: 「決済ロジックをスタンドアロンサービスに抽出して」と指示すると、ファイル作成→import更新→テスト修正まで一貫してやってくれる。この領域では他を圧倒している。 自律的デバッグ: 失敗するテストを渡すと、スタックトレースを読み、コードベースを辿り、修正し、再実行するループを自動で回す。 コンテキストの広さ: 200Kトークンのコンテキストウィンドウにより、大規模なコードベース全体をタスク中に保持できる。 弱いところ: GUIがない: 変更を視覚的に確認したい場合は結局エディタに戻る必要がある。Claude Codeは直接ファイルに書き込む。 ヘビーユーザーにはコスト課題: $20/月のProプランでは使用制限にすぐ達する。$200/月のMaxプランは個人ではやや重い。 実戦での使い方: 私はClaude Codeを「アーキテクト要員」として使っている。プロジェクトの初期スキャフォールディング、フレームワーク間の移行、一括リファクタリングといった構造的な作業に最適だ。 Cursor:日常の相棒 Cursorは単なる「AIが付いたエディタ」ではない。「AIファーストのエディタ」として設計されている。この違いは地味に大きい。 強いところ: Tab補完の速さ: Cursorの予測Tab補完は現時点で最速レベル。タイプする前に複数行のブロックを補完してくれる。 インライン編集: コードを選択してCmd+K、変更内容を説明するだけで適用される。この操作モデルが最も自然だと感じる。 コードベース認識: @-記号で特定のファイルやフォルダをコンテキストとして参照できる。狙った箇所を正確に修正したいときに強力。 弱いところ: 大規模リファクタが苦手: ディレクトリ構成の変更を依頼すると、3-4ファイルを超えると一貫性が失われる。外科的な編集に最適化されている。 VS Codeフォークの制約: 一部のVS Code拡張が遅れて対応したり、挙動が変わることがある。チームがVS Code標準化している場合は導入に摩擦が生じる。 実戦での使い方: コーディング時間の80%はCursorで過ごしている。関数の作成、バグ修正、コードベースの探索 — いわゆる「ペアプログラマー」として使う。 ...

May 12, 2026 · 14 min · 2658 words · Appwright

AIがコードを書く時代に、なぜPythonなのか? — HNで150コメントを集めた議論を分析する

2026年4月、Noah Mitchem が Medium に投稿した「If AI Writes Your Code, Why Use Python?」という記事が Hacker News で話題になった。150近いコメントが寄せられ、現在も議論が続いている。 この記事では、その議論をベースに「AI時代のプログラミング言語選択」を考察する。 問題の整理:なぜPythonなのかという問い 従来のプログラミング言語選択において、Python と TypeScript は「人間の生産性」という軸で優位に立ってきた。書きやすく、ライブラリが豊富で、チームの生産性を最大化できる。C++ や Rust のような「ハードな言語」は実行性能は高いが、開発速度が犠牲になる——これが長年のトレードオフだった。 しかし、AI コーディングエージェントがこのトレードオフを根本から変えつつある。AI は Rust や Go のような強力な型システムを持つ言語で、むしろ高い品質のコードを生成する。そして、そのコードはコンパイル時に多くのバグを検出できる。 つまり、「書く」コストがAIによって劇的に下がった今、「実行する」コストが再び重視されている。 2026年前半に実際に起きたこと 抽象論ではなく、具体的なプロジェクトを見てみよう。 プロジェクト 言語移行 成果 TypeScript 7.0 beta(Microsoft) TSコンパイラを Go に移植 TypeScript 6.0比で約10倍の高速化 Rue(Steve Klabnik) Claudeで新言語を開発 7万行のRustを2週間で実装 Ladybird JSエンジン(Andreas Kling) C++ → Rust(Claude/Codex) 2.5万行、バイト単位の互換性、ゼロリグレッション Cコンパイラ in Rust(Nicholas Carlini/Anthropic) 16並列のClaudeエージェント 10万行のRust、Linux 6.9をx86/ARM/RISC-Vでブート PyTorch 依然Python優勢 深層学習研究の約85%を占有 Anthropic の Nicholas Carlini による C コンパイラの事例は特に衝撃的だ。16の Claude エージェントを並列動作させ、10万行の Rust コードを生成。x86、ARM、RISC-V の3アーキテクチャで Linux 6.9 をブートし、QEMU、FFmpeg、SQLite、PostgreSQL、Redis のコンパイルに成功。総コストは約2万ドル、約2,000セッションだった。 ...

May 12, 2026 · 13 min · 2590 words · Appwright