ローカルLLMで「最強のAI演出家」を構築!小説を全自動で感情付き台本にする方法

AI関連の記事

「小説をオーディオブック(ボイスドラマ)化したい。でも、ただ読み上げるだけじゃつまらない…」

そんなふうに思ったことはありませんか?
「怒り」や「悲しみ」といった感情を込めて、キャラクターごとに声を使い分けられたら最高ですよね。

そこで今回は、自宅のPCに「AI演出家」を構築し、小説のテキストから全自動で感情分析を行い、台本化するシステムを作り上げました。

BERTモデルでの挫折から、最新のQwen3モデルにたどり着くまでの試行錯誤、そして難解な小説『ドグラ・マグラ』さえも完璧に解釈させた全記録を公開します!

開発環境:「個人の最強スペック」を目指して

まずは、今回のシステムの土台となる環境紹介です。
クラウド(OpenAI APIなど)は一切使わず、完全ローカル(無料・プライバシー保護)にこだわりました。

  • GPU: NVIDIA GeForce RTX 4060 Ti (16GB)
    • ポイント: 最近のLLMを動かすには、VRAM容量が生命線です。16GBあれば、かなり高性能なモデルも動かせます。
  • メモリ: 96GB
  • ソフトウェア: LM Studio (サーバー機能として使用), Python
  • 使用モデル: Qwen3-VL-30B (4bit量子化)

挑戦の軌跡:モデル選びの戦い

「AI演出家」への道は平坦ではありませんでした。最適なモデルを見つけるまでの試行錯誤をご紹介します。

1. 初期の挫折(BERTモデル)

最初は軽量で扱いやすい「BERT」モデルで学習させました。しかし、結果は惨敗…。

  • 原文: 「反逆罪で幽閉する!」
  • AI判定: 【喜び】(!?)

おそらく「!」の勢いに引っ張られたのでしょう。文脈や意味を深く理解できるLLM(大規模言語モデル)の必要性を痛感しました。

2. 速度と質のジレンマ(20B vs 120B)

次に、話題のローカルLLMを片っ端からベンチマークしました。

  • GPT-OSS 20B: 爆速(30 token/s超え)ですが、深い感情の機微(「憂い」など)を拾いきれませんでした。
  • Llama 4 Scout (109B): 非常に賢いですが、重すぎて家庭用PCでは実用的ではありません。
  • GPT-OSS 120B: 賢さは最高ですが、生成に時間がかかりすぎます。

3. 到達した「最適解」:Qwen3-VL-30B

最終的に選んだパートナーは、Qwen3-VL-30B です。

  • 速度: 20Bモデル並みの爆速(約30 t/s)
  • 賢さ: 120Bクラスに匹敵する読解力
  • 特徴: 「悲しみ」や「信頼」といった複雑な感情も正確に読み取り、地の文はしっかり「淡々」と判定してくれる安定感が抜群でした。

技術的な工夫:Pythonスクリプトによる自動化

長編小説を一気に読ませるとAIがパンクしてしまうため、以下のロジックでPythonスクリプトを組みました。

  1. ブロック分割: 小説を30行ずつのブロックに分割してAIに渡す。
  2. JSON出力: AIに「話者」「感情」「セリフ」をJSON形式で出力させることで、後処理を楽にする。
  3. 文脈維持: 前の行の流れをプロンプトに含めることで、主語がないセリフでも「誰の発言か」を特定させる。
# 30行ごとにAIに投げて、感情タグ付きの台本を作らせる CHUNK_SIZE = 30 system_instruction = """ あなたは優秀な演出家AIです。 文脈を読み、以下の感情タグから最適なものを選んでください。 [喜び, 悲しみ, 怒り, 恐れ, 驚き, 期待, 嫌悪, 信頼, 普通(淡々)] """ # ... (以下略)

成果物:AIが解釈した「ドグラ・マグラ」

実際に、日本三大奇書の一つ『ドグラ・マグラ』を読ませてみました。
人間でも解釈が難しい冒頭部分ですが、AIは見事に演出してくれました。

【出力されたデータ(一部抜粋)】

テキスト 話者 感情 AIの解釈理由(内部思考)
「……お兄さま。お兄さま……」 若い女 悲しみ 繰り返しの呼びかけと、声のトーンから深い絶望と悲しみを読み取った。
私は思わず寝台の上に飛乗った。 ナレーション 驚き 「思わず」という表現から、突発的な衝撃を受けていると判断。
……誰だろう……俺はコンナ人間を知らない……。 ナレーション 恐れ 自分自身を認識できないという根源的な恐怖。

ここがすごい!
単なるキーワード反応ではなく、「……」の多さや文脈から、「悲しみ」と「恐れ」を正確に使い分けている点に感動しました。

まとめ

RTX 4060 Ti (16GB) と最新のオープンソースLLM(Qwen3)を組み合わせれば、個人でも「専属のAI演出家」を雇うことができます。

このCSVデータを音声合成ソフト(CeVIO AIなど)に読み込ませれば、感情豊かなオーディオブックが全自動で完成します。執筆した小説の音声化や、名作のドラマCD化が捗りそうですね!

コメント

タイトルとURLをコピーしました