FFmpegと数式で描く「Canvasの鼓動」。FIが追求する動画品質の深層

私がFuturistic Imagination（FI）を立ち上げてから、一貫して追求しているテーマがある。それは「本質的な価値を、技術でどこまで研ぎ澄ませられるか」という問いだ。

AIによるコンテンツ自動生成は、量産効率だけを考えれば容易な道筋に見える。しかし、私の視点はそこにはない。AIが生成したテキストを、いかに「作品」としてユーザーの心に届けるか。その一つの答えが、動画コンテンツの視覚・聴覚品質への徹底的なこだわりだ。

🎬 実際の動画サンプル

下記は、今回解説するパイプラインで自動生成された実際の動画だ。BGM・Canvas背景アニメーション・TTSナレーションが全て自動で合成されている。

一般的な動画生成ツールで背景アニメーションを実装する場合、プリセットの中から選ぶか、外部ツールで作成したものを読み込むのが常套手段だ。しかし、FIではそれでは満足できない。ユーザーに「何か違う」「惹きつけられる」と感じさせるためには、既製品ではない、独自の「呼吸」が必要だと確信していた。

背景画像を1.5倍にスケールし（1620×2880px）、FFmpegの`zoompan`フィルターと連動させながら`sin/cos`関数で位置を時間変化させる。

X軌道: x = 270 + 200<em>sin(2</em>PI*t/20)  → [70, 470] px  (20秒周期)
Y軌道: y = 480 + 350<em>sin(2</em>PI*t/25)  → [130, 830] px (25秒周期)

2軸の周期を意図的にずらすことで、単純な楕円ではなくリサジュー曲線に近い自然な揺れを実現した。これが「ちょうど人間が息をしているような」感覚を生む。

テキストの切り替えタイミングに合わせてFFmpegのeqフィルターを使い、brightness値を数式で動的に変化させる。

eq=brightness='0.07<em>sin(2</em>PI*t/8)':saturation=1.15

8秒周期のパルスで輝度が±7%の範囲で変動する。数値は実験から割り出した「見ていて疲れないが、無意識に引きつけられる」臨界点だ。

Pixabay CDNからカテゴリ別にMP3を取得し、`amix`フィルターで合成する。

amix=inputs=2:weights="0.5 1"

BGM側を50%に抑えることでTTSナレーション（100%）が主役になる。音量は-21dBに正規化（volumedetectで計測）し、「会話の背景音楽」として機能するように調整した。

カテゴリ別BGMマッピングは以下の通り：

ここからは技術の話ではなく、「なぜここまでやるのか」という話をしたい。

私は「弊社自身が使っている状態を作らないと刺さらない」という考えを強く持っている。FIが現在1人で11サイト・累計1,500本以上の記事をAIで自動運営できているのは、単に記事を量産するだけでなく、その一つ一つの動画コンテンツがユーザーに「作品」として受け入れられているからだ。

実際の成果として：

これら全ての動画コンテンツは、今回解説したFFmpeg数式パイプラインが支えている。

検索エンジンとAIの両方に最適化された動画コンテンツは、従来のテキスト記事よりも「AI引用」される確率が高い。理由はシンプルだ。

FAQPage JSON-LD + speakable schema + 構造化された映像情報 = AIが「引用しやすいコンテンツ」

つまり、品質への投資は「広告費の節約」に直結する。ユーザーがChatGPTに質問した結果として自社コンテンツが表示されるのだから、これは従来のSEO以上の資産だ。

この品質へのこだわりは、AIオウンドメディア構築やGemini APIパイプライン開発の受託案件にも直結している。クライアントは単なる自動化ではなく、その先の「ユーザー体験の向上」を求めている。

FIが提供するのは、効率と品質を両立させた「現実解」だ。

元SESという経験から、私は常に「どうすればもっと効率的に、もっと本質的な価値を提供できるか」を問い続けてきた。「ゴールドラッシュに乗り遅れないこと」も重要だが、それ以上に「そのゴールドが本物であること」が重要だ。

それが、FIの哲学だ。