ローカルLLM&Geminiベンチマーク比較:『蜘蛛の糸』でセリフ抽出と感情分類を試してみた

AI関連の記事
LOCAL LLM BENCHMARK

『蜘蛛の糸』でセリフ抽出と感情分類を比較してみた

青空文庫の生テキストをそのまま入力し、各LLMに「キャスト・感情・文章」のCSV形式で 音声台本を抽出させたベンチマークです。今回は、原文保持性・感情付与・フォーマット安定性・実運用のしやすさを中心に比較しました。

ベンチマーク条件

今回の比較では、前処理なしの青空文庫テキストをそのまま使用しました。 つまり、ルビ記法《》、|記号、入力者注[#…]、底本情報まで含めた状態で各モデルに同じ指示を与えています。

下記のCSV形式で音声を抽出して 感情は「喜び, 悲しみ, 怒り, 恐れ, 驚き, 期待, 嫌悪, 信頼, 普通(淡々)」に分類して キャスト,感情,文章
ポイントは「読解力」だけではなく、青空文庫特有のノイズを含んだ生テキストに対して、どこまで素直に抽出できるかを見ている点です。

先に結論

もっとも忠実

Gemini

全文網羅性が高く、朗読台本としてもっとも素直な出力でした。

総合バランス最強

Qwen3-VL-30B

長さ・情報量・後処理のしやすさのバランスが非常に良好でした。

軽量運用向き

Gemma Q4_K_M

要約寄りですが、軽く使いたい場合には扱いやすい出力です。

今回の用途では厳しい

gpt-oss / ELYZA

再表現寄り、またはキャスト崩壊があり、厳密な抽出用途には向きませんでした。

モデル別の印象

Gemini

全文網羅 指示忠実

冒頭から結末までかなり丁寧に追い、感情推移も自然でした。 今回の比較では、もっとも「ちゃんと全部やる」タイプです。

Qwen3-VL-30B

総合バランス 実運用向き

長すぎず短すぎず、重要場面をしっかり拾うバランス型。 後処理のしやすさまで含めると、実運用ではかなり強い印象でした。

Gemma APEX Mini

演出寄り 感情細かめ

Q4版よりも細かく、感情付与が積極的です。 その分、やや「盛る」傾向があり、厳密抽出よりドラマ寄りでした。

Gemma Q4_K_M

軽量 要約寄り

見やすく軽い反面、かなりダイジェスト寄り。 朗読台本としては情報量が少なめでした。

gpt-oss-120b

再表現寄り フォーマット崩れ

原文抽出というより、自分の言葉で言い換える傾向が強めでした。 キャスト欄崩れもあり、今回の用途では厳しめです。

Llama-3-ELYZA-JP-8B

超ダイジェスト キャスト崩壊

すべてのキャストが「芥川龍之介」になるなど、用途不一致がはっきり出ました。 あらすじ化はできるものの、台本用CSVには不向きです。

比較表

モデル 傾向 強み 弱み
Gemini 全文網羅・朗読台本型 原文保持、感情推移、フォーマット安定 出力が長め
Qwen3-VL-30B 総合バランス型 長さと情報量のバランス、実用性 Geminiほどの網羅性はない
Gemma APEX Mini 演出寄り抽出型 感情付与が細かい やや感情を盛る
Gemma Q4_K_M 軽量ダイジェスト型 見やすく軽い 要約寄りで原文忠実性が弱い
gpt-oss-120b 再構成・言い換え型 文章としては読みやすい 抽出用途では崩れやすい
ELYZA 8B 超ダイジェスト型 短く軽い キャスト崩壊、用途不一致

今回わかったこと

  • 同じ指示でも、モデルごとに「抽出」と解釈するか「要約」と解釈するかが違う。
  • Gemini はもっとも忠実、Qwen3-VL-30B はもっとも実用的だった。
  • Gemma系は軽量または演出寄りとして面白いが、用途によって向き不向きが分かれる。
  • gpt-oss と ELYZA は物語理解はしていても、今回のCSV抽出用途とはズレが大きかった。
  • 青空文庫の外字注記はどのモデルでも課題で、前処理の重要性が非常に高い。

まとめ

今回の比較で見えたのは、単純なモデル性能の差だけではありません。 同じプロンプトに対して、各モデルが「これは原文抽出なのか」「要点整理なのか」「分かりやすい再表現なのか」を違う形で解釈していた点が非常に興味深いところでした。

オーディオブックや朗読台本を本気で作るなら、モデル選びだけでなく、 注記除去・ルビ処理・本文保護といった前処理を含めてワークフロー全体で設計する必要があります。

コメント

タイトルとURLをコピーしました