「小説をオーディオブック(ボイスドラマ)化したい。でも、ただ読み上げるだけじゃつまらない…」
そんなふうに思ったことはありませんか?
「怒り」や「悲しみ」といった感情を込めて、キャラクターごとに声を使い分けられたら最高ですよね。
そこで今回は、自宅のPCに「AI演出家」を構築し、小説のテキストから全自動で感情分析を行い、台本化するシステムを作り上げました。
BERTモデルでの挫折から、最新のQwen3モデルにたどり着くまでの試行錯誤、そして難解な小説『ドグラ・マグラ』さえも完璧に解釈させた全記録を公開します!
開発環境:「個人の最強スペック」を目指して
まずは、今回のシステムの土台となる環境紹介です。
クラウド(OpenAI APIなど)は一切使わず、完全ローカル(無料・プライバシー保護)にこだわりました。
- GPU: NVIDIA GeForce RTX 4060 Ti (16GB)
- ポイント: 最近のLLMを動かすには、VRAM容量が生命線です。16GBあれば、かなり高性能なモデルも動かせます。
- メモリ: 96GB
- ソフトウェア: LM Studio (サーバー機能として使用), Python
- 使用モデル: Qwen3-VL-30B (4bit量子化)
挑戦の軌跡:モデル選びの戦い
「AI演出家」への道は平坦ではありませんでした。最適なモデルを見つけるまでの試行錯誤をご紹介します。
1. 初期の挫折(BERTモデル)
最初は軽量で扱いやすい「BERT」モデルで学習させました。しかし、結果は惨敗…。
- 原文: 「反逆罪で幽閉する!」
- AI判定: 【喜び】(!?)
おそらく「!」の勢いに引っ張られたのでしょう。文脈や意味を深く理解できるLLM(大規模言語モデル)の必要性を痛感しました。
2. 速度と質のジレンマ(20B vs 120B)
次に、話題のローカルLLMを片っ端からベンチマークしました。
- GPT-OSS 20B: 爆速(30 token/s超え)ですが、深い感情の機微(「憂い」など)を拾いきれませんでした。
- Llama 4 Scout (109B): 非常に賢いですが、重すぎて家庭用PCでは実用的ではありません。
- GPT-OSS 120B: 賢さは最高ですが、生成に時間がかかりすぎます。
3. 到達した「最適解」:Qwen3-VL-30B
最終的に選んだパートナーは、Qwen3-VL-30B です。
- 速度: 20Bモデル並みの爆速(約30 t/s)
- 賢さ: 120Bクラスに匹敵する読解力
- 特徴: 「悲しみ」や「信頼」といった複雑な感情も正確に読み取り、地の文はしっかり「淡々」と判定してくれる安定感が抜群でした。
技術的な工夫:Pythonスクリプトによる自動化
長編小説を一気に読ませるとAIがパンクしてしまうため、以下のロジックでPythonスクリプトを組みました。
- ブロック分割: 小説を30行ずつのブロックに分割してAIに渡す。
- JSON出力: AIに「話者」「感情」「セリフ」をJSON形式で出力させることで、後処理を楽にする。
- 文脈維持: 前の行の流れをプロンプトに含めることで、主語がないセリフでも「誰の発言か」を特定させる。
# 30行ごとにAIに投げて、感情タグ付きの台本を作らせる
CHUNK_SIZE = 30
system_instruction = """
あなたは優秀な演出家AIです。
文脈を読み、以下の感情タグから最適なものを選んでください。
[喜び, 悲しみ, 怒り, 恐れ, 驚き, 期待, 嫌悪, 信頼, 普通(淡々)]
"""
# ... (以下略)
成果物:AIが解釈した「ドグラ・マグラ」
実際に、日本三大奇書の一つ『ドグラ・マグラ』を読ませてみました。
人間でも解釈が難しい冒頭部分ですが、AIは見事に演出してくれました。
【出力されたデータ(一部抜粋)】
| テキスト | 話者 | 感情 | AIの解釈理由(内部思考) |
|---|---|---|---|
| 「……お兄さま。お兄さま……」 | 若い女 | 悲しみ | 繰り返しの呼びかけと、声のトーンから深い絶望と悲しみを読み取った。 |
| 私は思わず寝台の上に飛乗った。 | ナレーション | 驚き | 「思わず」という表現から、突発的な衝撃を受けていると判断。 |
| ……誰だろう……俺はコンナ人間を知らない……。 | ナレーション | 恐れ | 自分自身を認識できないという根源的な恐怖。 |
ここがすごい!
単なるキーワード反応ではなく、「……」の多さや文脈から、「悲しみ」と「恐れ」を正確に使い分けている点に感動しました。
まとめ
RTX 4060 Ti (16GB) と最新のオープンソースLLM(Qwen3)を組み合わせれば、個人でも「専属のAI演出家」を雇うことができます。
このCSVデータを音声合成ソフト(CeVIO AIなど)に読み込ませれば、感情豊かなオーディオブックが全自動で完成します。執筆した小説の音声化や、名作のドラマCD化が捗りそうですね!

コメント