ローカルLLMで小説を感情付き台本に！RTX 4060 Tiで作る最強AI演出家

「小説をオーディオブック（ボイスドラマ）化したい。でも、ただ読み上げるだけじゃつまらない…」

そんなふうに思ったことはありませんか？
「怒り」や「悲しみ」といった感情を込めて、キャラクターごとに声を使い分けられたら最高ですよね。

そこで今回は、自宅のPCに「AI演出家」を構築し、小説のテキストから全自動で感情分析を行い、台本化するシステムを作り上げました。

BERTモデルでの挫折から、最新のQwen3モデルにたどり着くまでの試行錯誤、そして難解な小説『ドグラ・マグラ』さえも完璧に解釈させた全記録を公開します！

開発環境：「個人の最強スペック」を目指して

まずは、今回のシステムの土台となる環境紹介です。
クラウド（OpenAI APIなど）は一切使わず、完全ローカル（無料・プライバシー保護）にこだわりました。

GPU: NVIDIA GeForce RTX 4060 Ti (16GB)
- ポイント: 最近のLLMを動かすには、VRAM容量が生命線です。16GBあれば、かなり高性能なモデルも動かせます。
メモリ: 96GB
ソフトウェア: LM Studio (サーバー機能として使用), Python
使用モデル: Qwen3-VL-30B (4bit量子化)

挑戦の軌跡：モデル選びの戦い

「AI演出家」への道は平坦ではありませんでした。最適なモデルを見つけるまでの試行錯誤をご紹介します。

1. 初期の挫折（BERTモデル）

最初は軽量で扱いやすい「BERT」モデルで学習させました。しかし、結果は惨敗…。

原文: 「反逆罪で幽閉する！」
AI判定: 【喜び】（！？）

おそらく「！」の勢いに引っ張られたのでしょう。文脈や意味を深く理解できるLLM（大規模言語モデル）の必要性を痛感しました。

2. 速度と質のジレンマ（20B vs 120B）

次に、話題のローカルLLMを片っ端からベンチマークしました。

GPT-OSS 20B: 爆速（30 token/s超え）ですが、深い感情の機微（「憂い」など）を拾いきれませんでした。
Llama 4 Scout (109B): 非常に賢いですが、重すぎて家庭用PCでは実用的ではありません。
GPT-OSS 120B: 賢さは最高ですが、生成に時間がかかりすぎます。

3. 到達した「最適解」：Qwen3-VL-30B

最終的に選んだパートナーは、Qwen3-VL-30B です。

速度: 20Bモデル並みの爆速（約30 t/s）
賢さ: 120Bクラスに匹敵する読解力
特徴: 「悲しみ」や「信頼」といった複雑な感情も正確に読み取り、地の文はしっかり「淡々」と判定してくれる安定感が抜群でした。

技術的な工夫：Pythonスクリプトによる自動化

長編小説を一気に読ませるとAIがパンクしてしまうため、以下のロジックでPythonスクリプトを組みました。

ブロック分割: 小説を30行ずつのブロックに分割してAIに渡す。
JSON出力: AIに「話者」「感情」「セリフ」をJSON形式で出力させることで、後処理を楽にする。
文脈維持: 前の行の流れをプロンプトに含めることで、主語がないセリフでも「誰の発言か」を特定させる。

# 30行ごとにAIに投げて、感情タグ付きの台本を作らせる
CHUNK_SIZE = 30

system_instruction = """
あなたは優秀な演出家AIです。
文脈を読み、以下の感情タグから最適なものを選んでください。
[喜び, 悲しみ, 怒り, 恐れ, 驚き, 期待, 嫌悪, 信頼, 普通(淡々)]
"""
# ... (以下略)

成果物：AIが解釈した「ドグラ・マグラ」

実際に、日本三大奇書の一つ『ドグラ・マグラ』を読ませてみました。
人間でも解釈が難しい冒頭部分ですが、AIは見事に演出してくれました。

【出力されたデータ（一部抜粋）】

テキスト	話者	感情	AIの解釈理由（内部思考）
「……お兄さま。お兄さま……」	若い女	悲しみ	繰り返しの呼びかけと、声のトーンから深い絶望と悲しみを読み取った。
私は思わず寝台の上に飛乗った。	ナレーション	驚き	「思わず」という表現から、突発的な衝撃を受けていると判断。
……誰だろう……俺はコンナ人間を知らない……。	ナレーション	恐れ	自分自身を認識できないという根源的な恐怖。

ここがすごい！
単なるキーワード反応ではなく、「……」の多さや文脈から、「悲しみ」と「恐れ」を正確に使い分けている点に感動しました。

まとめ

RTX 4060 Ti (16GB) と最新のオープンソースLLM（Qwen3）を組み合わせれば、個人でも「専属のAI演出家」を雇うことができます。

このCSVデータを音声合成ソフト（CeVIO AIなど）に読み込ませれば、感情豊かなオーディオブックが全自動で完成します。執筆した小説の音声化や、名作のドラマCD化が捗りそうですね！

ローカルLLMで「最強のAI演出家」を構築！小説を全自動で感情付き台本にする方法