はじめに
TalentXの岸本です。昨今AIの発展が著しい中、弊社でもAI駆動開発という観点で効率的な運用を模索しています。
そうした開発を行っている中、Devinの運用を通じて得た他エージェントとの棲み分けやDevinならではの使い方をまとめてみました。
想定読者
- Devinの導入を検討しているが利用イメージがわかないという方
- Devinを導入したものの効果的な利用ができていない方
※ Devinの情報をある程度知っている方向けの記事になります。概要や使い方等は省かせてもらいます。
AIエージェントを利用した開発スタイル
TalentXで主に利用されているのは、Devinの他にClaude Code, GitHub CopilotなどのAIエージェントです。
Devinは自律型AIエンジニアといった位置付けになりますが、CLI・対話型のエージェントと概ね似た開発スタイルをとることが可能です。
弊社ではタスク管理にJira、レポジトリ管理にGithubを利用しているため、
- Jiraにチケット起票、初期プロンプトの記載
- AIエージェントへJiraのチケット番号の実装計画を依頼
- AIエージェントによる作業、GithubへのPR作成
という開発フローをとることが多いです。
Jiraとの接続に関しては、Devinではインテグレーションが用意されていますし、他エージェントに関しても Atlassian Rovo MCP Server などを利用すれば実現できます。 Githubに関しても同様です。
タスクの性質に関する使い分け
エンジニアと度々話しているとよくDevinと他エージェントの使い分けがわからない、という相談を受けることがありました。
精度などの違いはあれど、特にCLI型に関してはほぼ同じような開発フローを踏むことができるため、使い分けは必要なのでしょうか。
ここではDevin・AIエージェントができること、ではなくDevinの特性や依頼するタスク内容にフォーカスした使い分け例を紹介します。
まず公式ガイドラインにDevinの特性やプラクティスが掲載されており以下が大雑把な要約になります。詳細はガイドラインをご確認してみてください。
Instructing Devin Effectively - Devin Docs
得意なこと
- ジュニアエンジニアやインターンができそうな規模のタスク
- 明確な完了基準がある(CIの成功、自動デプロイのテスト)
- 検証しやすい(客観的に成功/失敗を判定可能)
- スコープが限定的(小規模タスク)
- テストカバレッジが明確に測定可能
苦手なこと
- 曖昧な成功基準(「完了しているように見えるが実は違う」状況)
- 高度な判断が必要(複雑なドメイン知識、難しい意思決定)
- 長時間セッション(10ACUを超える実行はパフォーマンス低下)
- 曖昧または開放的な指示(「パフォーマンスを改善して」など)
- 主観的・ビジュアル作業
使い分け基準
上記の特性を踏まえ、弊社での運用知見を鑑みた結果、使い分け基準の指標として以下の項目として挙げたいと思います。
- 自分がアウトプットを想定できるタスク
- 具体的には自分がほぼ調査等なし・あるいは少しの調査でコーディングでき、レビューがスムーズに通るレベル感が目安だと思います。
- アウトプットが想定できていない = Devinを利用しないということではなく、既存設計への理解や技術調査にDevinを役立て、アウトプットの具体的なイメージができた段階で依頼するということもできます。
- 自分のレベル感以上のものはアウトプットが上がってきても自身でレビューすることが不可なため、そういったタスクはエディタ型やCLI型のエージェントでコーディングや検証を行いながら実装すると良いでしょう。
- 定型作業・運用作業
- 自身の環境に左右されずに動く自律型という利点を活かした作業にはDevinに向いています。
- 定型化されたコマンド実行処理、依存モジュールのアップデート、Slackに通知されたエラーの調査といった作業などがおすすめです。
また、このようなタスクは非同期的な依頼が容易であるDevinの特性を活かし、並列で依頼し迅速なタスク消化を実現できます。簡単なタスクが一定数ある場合は一気にDevinに消化してもらいましょう。
チーム育成観点でのDevin活用
上の項目では実際にタスクを行う上でのDevin・他エージェントの使い分けという観点を記載しました。
この項目ではチームマネジメントといった観点からAI駆動開発マネジメントへのアプローチに関するものになります。
AI駆動開発マネジメントの課題
AI駆動開発において、メンバーの育成観点で、各メンバーのAIエージェントの利用効率は重要な要素になります。
同じレベル感のメンバーでもパフォーマンスが増加してるメンバーとそうでないメンバーがいた時に、どういったAIエージェントの使い方をしているのかを可視化することはフィードバックにおいて重要ですが、CLI型やエディタ型といったエージェントではその情報を収集するのが困難です。
AIツールによっては、個人の消化クレジットとパフォーマンスを比較したり、生産性を可視化するためのツールを用いPR提出までの時間を計測することで検知は可能ですが、集計が面倒であったり、具体的な使い方まで踏み込むことは難しいかもしれません。
Devinならでは解決例
Devinではセッションという単位で作業を依頼するのですが、全てDevinのWebアプリケーションで一覧化されており、確認可能です。これにより個別の指示内容やDevinの稼働状況の把握が可能になります。
またセッションの一覧をcsvエクスポートすることが可能です。 (※ APIによる取得も可能)

セッション一覧の他、エクスポートしたデータではセッションごとの依頼者、消費ACU、初回メッセージ、PRステータス等を確認することができるため、csvをスプレッドシートなどに取り込みDevinの利用に関する集計をすることが容易です。

こういった豊富な利用データを用い
- 各メンバーのDevinの利用効率を可視化
- レトロスペクティブ(振り返り)で開発効率の良いメンバーのプロンプトの粒度・内容を振り返り、ナレッジ化、共有知化していく
- 利用につまづいているメンバーを早期発見し、サポート体制を構築
といったAIの使い方に関するメンバーの育成に役立てることができます。
またAIエージェントに慣れていない・パフォーマンスを発揮できていないメンバーに関しては、Devinでメインタスクを進めてもらい、利用効率を担保した状態での他エージェントの利用を促す、といった運用も考えられます。
まとめ
上記の内容のまとめになります。
- DevinもCLI型AIエージェントも基本的なタスク消化のスタイルは可能
- 自分のレベル感以下のタスク・作業系はDevin、チャレンジングなタスクは他エージェントといった形で使い分ける
- Devinは利用履歴が全て可視化されエクスポートも可能。チームへの効率的な育成に役立てることができる
Devinの活用方法があまり明確になっていない方への参考になれば幸いです。
最後に
現在、TalentXでは一緒に働く仲間を募集しております。
talentx.brandmedia.i-myrefer.jp
カジュアル面談も行っておりますので、ぜひご応募ください!