LOCAL LLM BENCHMARK

『蜘蛛の糸』でセリフ抽出と感情分類を比較してみた

青空文庫の生テキストをそのまま入力し、各LLMに「キャスト・感情・文章」のCSV形式で音声台本を抽出させたベンチマークです。今回は、原文保持性・感情付与・フォーマット安定性・実運用のしやすさを中心に比較しました。

ベンチマーク条件

今回の比較では、前処理なしの青空文庫テキストをそのまま使用しました。つまり、ルビ記法《》、｜記号、入力者注［＃…］、底本情報まで含めた状態で各モデルに同じ指示を与えています。

下記のCSV形式で音声を抽出して感情は「喜び, 悲しみ, 怒り, 恐れ, 驚き, 期待, 嫌悪, 信頼, 普通(淡々)」に分類してキャスト,感情,文章

ポイントは「読解力」だけではなく、青空文庫特有のノイズを含んだ生テキストに対して、どこまで素直に抽出できるかを見ている点です。

先に結論

もっとも忠実

Gemini

全文網羅性が高く、朗読台本としてもっとも素直な出力でした。

総合バランス最強

Qwen3-VL-30B

長さ・情報量・後処理のしやすさのバランスが非常に良好でした。

軽量運用向き

Gemma Q4_K_M

要約寄りですが、軽く使いたい場合には扱いやすい出力です。

今回の用途では厳しい

gpt-oss / ELYZA

再表現寄り、またはキャスト崩壊があり、厳密な抽出用途には向きませんでした。

モデル別の印象

Gemini

全文網羅指示忠実

冒頭から結末までかなり丁寧に追い、感情推移も自然でした。今回の比較では、もっとも「ちゃんと全部やる」タイプです。

Qwen3-VL-30B

総合バランス実運用向き

長すぎず短すぎず、重要場面をしっかり拾うバランス型。後処理のしやすさまで含めると、実運用ではかなり強い印象でした。

Gemma APEX Mini

演出寄り感情細かめ

Q4版よりも細かく、感情付与が積極的です。その分、やや「盛る」傾向があり、厳密抽出よりドラマ寄りでした。

Gemma Q4_K_M

軽量要約寄り

見やすく軽い反面、かなりダイジェスト寄り。朗読台本としては情報量が少なめでした。

gpt-oss-120b

再表現寄りフォーマット崩れ

原文抽出というより、自分の言葉で言い換える傾向が強めでした。キャスト欄崩れもあり、今回の用途では厳しめです。

Llama-3-ELYZA-JP-8B

超ダイジェストキャスト崩壊

すべてのキャストが「芥川龍之介」になるなど、用途不一致がはっきり出ました。あらすじ化はできるものの、台本用CSVには不向きです。

比較表

モデル	傾向	強み	弱み
Gemini	全文網羅・朗読台本型	原文保持、感情推移、フォーマット安定	出力が長め
Qwen3-VL-30B	総合バランス型	長さと情報量のバランス、実用性	Geminiほどの網羅性はない
Gemma APEX Mini	演出寄り抽出型	感情付与が細かい	やや感情を盛る
Gemma Q4_K_M	軽量ダイジェスト型	見やすく軽い	要約寄りで原文忠実性が弱い
gpt-oss-120b	再構成・言い換え型	文章としては読みやすい	抽出用途では崩れやすい
ELYZA 8B	超ダイジェスト型	短く軽い	キャスト崩壊、用途不一致

今回わかったこと

同じ指示でも、モデルごとに「抽出」と解釈するか「要約」と解釈するかが違う。
Gemini はもっとも忠実、Qwen3-VL-30B はもっとも実用的だった。
Gemma系は軽量または演出寄りとして面白いが、用途によって向き不向きが分かれる。
gpt-oss と ELYZA は物語理解はしていても、今回のCSV抽出用途とはズレが大きかった。
青空文庫の外字注記はどのモデルでも課題で、前処理の重要性が非常に高い。

まとめ

今回の比較で見えたのは、単純なモデル性能の差だけではありません。同じプロンプトに対して、各モデルが「これは原文抽出なのか」「要点整理なのか」「分かりやすい再表現なのか」を違う形で解釈していた点が非常に興味深いところでした。

オーディオブックや朗読台本を本気で作るなら、モデル選びだけでなく、注記除去・ルビ処理・本文保護といった前処理を含めてワークフロー全体で設計する必要があります。

ローカルLLM＆Geminiベンチマーク比較：『蜘蛛の糸』でセリフ抽出と感情分類を試してみた

『蜘蛛の糸』でセリフ抽出と感情分類を比較してみた

ベンチマーク条件

先に結論

もっとも忠実

総合バランス最強

軽量運用向き

今回の用途では厳しい

モデル別の印象

Gemini

Qwen3-VL-30B

Gemma APEX Mini

Gemma Q4_K_M

gpt-oss-120b

Llama-3-ELYZA-JP-8B

比較表

今回わかったこと

まとめ

コメント