「AIコーディングアシスタントを使いたいけれど、月額料金がかかるのはちょっと…」
「会社のコードや個人のプロジェクトを外部のサーバーに送信したくない」
そんな悩みを解決するのが、自分のPC内で完結する「ローカルLLM」を活用した開発環境です。
今回は、NVIDIA GeForce RTX 40系などの高性能GPUを搭載している方向けに、**完全無料かつプライバシー万全なAIコーディング環境(Ollama + Roo Code)**の構築手順を解説します。
特に RTX 4070 Ti (VRAM 12GB) と メモリ 64GB を搭載しているPCであれば、有料のクラウドAIにも引けを取らない「爆速」で「賢い」環境が手に入ります。
必要なPCスペック
ローカルでAIを動かすには、PCのスペック(特にGPU)が重要です。
今回は以下のスペックを推奨環境として解説します。
- OS: Windows 10 / 11
- CPU: Core i7 / i9 クラス (13世代以降推奨)
- GPU: NVIDIA GeForce RTX 3060 (12GB) 以上推奨
- ※今回の構成は RTX 4070 Ti (12GB) に最適化しています。
- メモリ (RAM): 32GB以上推奨 (64GBあるとさらに選択肢が広がります)
なぜGPUメモリ (VRAM) が重要?
AIモデルをGPUのメモリに載せきることで、爆速のレスポンスが得られるからです。
RTX 4070 Tiの12GB VRAMがあれば、非常に高性能な「14B(140億パラメータ)」クラスのモデルを快適に動かせます。
Ollamaのインストール
まずは、AIモデルを動かすための土台となる「Ollama」をインストールします。
手順
- Ollama公式サイト にアクセスします。
- 「Download」 ボタンをクリックし、Windows版のインストーラーをダウンロードします。
OllamaSetup.exeを実行し、画面の指示に従ってインストールします(特に設定不要で完了します)。
インストールが終わったら、正しく入ったか確認しましょう。
「PowerShell」または「コマンドプロンプト」を開き、以下のコマンドを入力してください。
PowerShell
ollama --version
バージョン番号が表示されれば準備OKです。
3. どのモデルを選ぶべき?(Ollamaモデル徹底比較)
Ollamaでは世界中の開発者が公開している多種多様なAIモデルをワンコマンドで切り替えて試すことができます。
しかし、モデルの進化は非常に速く、選択肢が多すぎて「結局どれが良いの?」と迷ってしまうのも事実です。
ここでは、RTX 4070 Ti (12GB VRAM) + メモリ64GB という環境で動かす場合の、2026年時点での最強の布陣を紹介します。
比較表:RTX 4070 Ti での動作目安
| モデル名 | パラメータ | VRAM使用 | 速度 | 特徴 |
|---|---|---|---|---|
| Qwen 3 Coder Next | Unknown (軽量) | ◎ 余裕 | ◎ 爆速 | 【大本命】Roo Codeのようなエージェント操作に特化した最新モデル。 |
| DeepSeek R1 | 14B | ◎ ジャスト | ◯ 高速 | 【思考型】推論(Reasoning)を行うAI。バグの原因究明や設計相談に強い。 |
| Qwen 3 Coder | 30B | △ RAM使用 | △ 普通 | 【重量級】VRAMから溢れるが、64GBメモリを活かして動かせる高精度モデル。 |
| Phi-4 | 14B | ◎ ジャスト | ◯ 高速 | Microsoft製。C#や.NET周りの知識が深く、論理性能が高い。 |
- Qなぜ「14B」がおすすめなのか?
- A
RTX 4070 Tiのビデオメモリは12GBです。
AIモデルのサイズがこの12GB以内に収まれば、GPUだけで処理が完結するため「爆速」で動きます。
14B(約9GB)は、この12GBに収まるギリギリのサイズであり、「速度」と「賢さ」のトレードオフが最も良いスイートスポットなのです。
各モデルの詳しい解説
Qwen 3 Coder Next (最新・エージェント用)
Alibaba CloudのQwenチームがリリースした最新モデルです。
最大の特徴「Agentic coding workflows(自律的なコーディング)」に最適化されている点です。Roo Codeのように、AIが自分でファイルを読み書きしてタスクをこなすツールを使う場合、最もミスが少なく、的確に動いてくれます。
- インストールコマンド:
ollama pull qwen3-coder-next - おすすめ: Roo Codeのメイン設定はこれ一択です。
DeepSeek R1 (推論・デバッグ用)
AI界隈に革命を起こした「思考(Thinking)」するモデルです。
最大の特徴は、回答を出す前に <think> ... </think> というタグを出力することです。
このタグの中で、AIはまるで人間のように「うーん、ユーザーの意図はこうかな? いや、この条件なら別の方法が良いかも…」とブツブツ悩みながら試行錯誤します。
即答せずに一度深く熟考するプロセスを挟むため、「複雑なバグの原因がわからない」「設計の相談に乗ってほしい」といった、論理的な深さが求められる場面で真価を発揮します。
- インストールカスタム:
ollama pull deepseek-r1:14b - おすすめ: エラー解決の相談役や、セカンドオピニオンとして最強です。
Qwen 3 Coder 30B (ハイスペックPCの特権)
64GBのメインメモリがある場合、12GBのVRAMには入り切らない「30B」のような巨大モデルも、メインメモリを使えば動作させることが可能です(CPUとGPUを併用します)。
速度は秒間数トークン程度まで落ちますが、14Bモデルでは解けないような複雑で長いコードを書かせたい場合は、この「頭の良さ」が頼りになります。
- インストールコマンド:
ollama pull qwen3-coder:30b - おすすめ: 14Bで解決できない難しいタスクに直面した時の「切り札」として。
Roo Codeでの使い分けテクニック
Roo Codeの設定画面では、モデルを簡単に切り替えられます。
基本はサクサク動く「Qwen 3 Coder Next」を使い、行き詰まった時だけ思考型の「DeepSeek R1」や重量級の「30B」に切り替える運用が最も効率的です。
【番外編】もっと軽快に!「軽量・爆速」モデルの選択肢
「RTX 4070 Tiの性能をフルに使わず、YouTubeを見たりゲームをしたりしながら裏でAIを使いたい」
「とにかく待ち時間ゼロで、打てば響くようなレスポンスが欲しい」
そんな方には、サイズを少し落とした「7B〜8B(70億〜80億パラメータ)」クラスのモデルがおすすめです。
14Bに比べて賢さは少し下がりますが、コード補完や簡単なバグ修正なら十分実用的で、何より「負荷が軽い」のが最大のメリットです。
おすすめの軽量モデル
| モデル名 | パラメータ | 特徴 |
|---|---|---|
| Qwen 3 | 8B | 【バランス良】14Bの弟分。VRAM消費は5GB程度なので、重い3Dゲームを起動しながらでも余裕で動きます。 |
| DeepSeek R1 | 8B (Llama Distill) | 【思考する軽量版】 推論能力を持ちながら、驚くほど軽いです。サクッと相談したい時に最適。 |
| Phi-4 Mini | 3.8B | 【超軽量】 Microsoft製。Webブラウザを立ち上げる感覚で使える軽さ。ノートPCでも動くレベルです。 |
導入コマンド
以下のコマンドでインストールできます。気分に合わせて切り替えてみてください。
バランスのQwen 3 (8B)
ollama pull qwen3:8b
思考するDeepSeek (8B)
ollama pull deepseek-r1:8b
超軽量なPhi-4 Mini
ollama pull phi4-mini
使いどころのヒント
Roo Codeのようなエージェント操作(ファイル作成など)をさせる場合は「14B」以上推奨ですが、「ちょっとコードの書き方を質問したい」「エラーログを貼り付けて解説してほしい」といったチャット用途なら、この「8B」クラスの方がレスポンスが速く快適な場合が多いです。
エディタ (VS Code + Roo Code) の設定
AIを操作するためのインターフェースとして、VS Codeの拡張機能 「Roo Code」 を使います。
これは、以前「Cline」と呼ばれていたツールの派生版で、ローカルLLMとの親和性が非常に高いのが特徴です。
手順
- VS Code を起動します。
- 左側の拡張機能アイコンをクリックし、検索バーに「Roo Code」と入力します。
- 「Roo Code (Roo Cline)」 をインストールします。
[ここにRoo Codeのアイコンやインストール画面の画像を貼る]
Roo CodeとOllamaを接続する(最重要)
インストールしただけでは動かないので、設定を行います。
ここがパフォーマンスを出すための最大のポイントです。
- VS Codeのサイドバーにある Roo Codeのアイコン をクリックします。
- 上部にある 歯車アイコン (Settings) をクリックします。
- 以下の通りに設定を入力してください。
| 設定項目 | 入力値 | 備考 |
| API Provider | Ollama | リストから選択 |
| Base URL | http://localhost:11434 | デフォルトのまま |
| Model ID | qwen3-coder-next | プルダウンからしてください |
| Context Window | 16384 | ここが重要! |
Context Windowの設定について
デフォルトのままだと記憶容量が少なく、長いコードを読ませるとエラーになることがあります。 RTX 4070 Ti + RAM 64GBの環境であれば、16384(または32768)程度まで広げても快適に動作します。まずは16384から試すのがおすすめです。
日本語化のカスタマイズ (Custom Instructions)
最後に、AIが自然な日本語で応答してくれるように「カスタム指示」を設定します。
Modesタブ設定画面下部の Custom Instructions for All Modes 欄に以下をコピペしてください。
あなたは優秀な日本語のAIエンジニアです。
ユーザーからの指示には、原則として日本語で回答してください。
コードの修正を行う際は、必ず修正箇所の意図を簡潔に説明してから実行してください。
設定が完了したら、最下部の 「Done」 ボタンを押して保存します。
動作テスト
設定お疲れ様でした!実際に動かしてみましょう。
Roo Codeのチャット欄に、以下のような指示を出してみてください。
「Pythonで、1から100までの素数を計算して表示するスクリプトを作成し、main.pyとして保存してください。」
[ここにAIがコードを生成している様子のスクリーンショットを貼る]
AIが思考を開始し、コードを提案し、あなたの許可(Approveボタン)を得てファイルを実際に作成してくれれば成功です。
まとめ
これで、あなたのPCは月額費用の掛からない、最強のAIペアプログラミング環境に生まれ変わりました。
- プライバシー: コードが外部に漏れる心配なし
- コスト: 完全無料
- オフライン: ネットがなくても開発可能
特にRTX 4070 TiクラスのGPUをお持ちであれば、有料のAIサービスと比較しても遜色のないスピードで開発を進められるはずです。ぜひ活用してみてください。
今からAI開発PCを組むなら、VRAM 16GBを搭載した RTX 5080 が新たなスタンダード。高速なGDDR7メモリのおかげで、AIの回答速度が劇的に向上します。12GBの壁を超えたい開発者に。

コメント