オリジナル曲のミュージックビデオをAI で作るためのノウハウを書いています。今回は第2回です。前回の記事を読んでいない方はこちら
ミュージックビデオを作るにあたって大きく分けて2つのシーンがあります。
①登場人物が動いたり風景が流れるシーン(歌は歌わない)
②音楽に合わせて口を動かして歌うシーン(リップシンク)
①Gemini、ChatGPT、Domo.AIなどで元画像作ってからGemini、Domo.AIで動画化させます。リップシンクのみDomo.AIになります。
②Domo.AIで静止画と曲の両方をアップロードさせて歌わせます。
①の手順
前回作った小人の画像を使ってみます。

Domo.AIを開くとこんな画面になります。1つづ解説します。

1、TOP画面からAIビデオ
2、画像→動画生成
3、どのAIモデルに生成してもらうかを選びます。これは日々変わっていきます。

右向き三角印をクリックするとコードを選択できるようになります。選ぶポイントは高速よりも高精度を選んだ方が結果が良くなると思われます。(あなたが開いた頃はもう別のバージョンになってる可能性があります)
4、リラックスモードにするとクレジットを消費しないので大変お得になります。このボタンを押すことができない生成もありますのでご注意ください。その場合は通常にクレジットを消費します。どのぐらいクレジットを消費するかは表示が出ます。
5、ウォーターマークなしは常にチェックを入れるようにしてください。
6、クリックして素材を入れたり、素材をドラッグして入れることができます。
7、ここにプロンプトを書き込んでいきます。日本語でも英語でもどちらでも大丈夫です。Gemini やChatGPTにプロンプトを書いてもらって貼り付けても問題ありません。

プロンプトは「添付ファイルの小人が砂浜で飛び跳ね、はしゃぎだす。昼間の海岸。日本。」と入れてみました。動画の長さは私のプランでは5秒までです。MVは動きが短く切り替わる方が飽きられないので短くて良いのです。MVの尺が長いほどのたくさん動画を用意しなければならないので根気は必要です。
問題なければ生成ボタンをクリック。

生成中こんな画面になります。リラックスモードは時間がかかるので焦らず待ちましょう。コーヒーブレイク。せっかく待っても思ったのと違うものができることがあります。その場合は再チャレンジ。画像を作っている最中でも新たに生成も可能です。同時に3つくらい作業してもらうこともあります。ガチャ要素ありってことですね。
生成できました。
最初から海岸ではなくグリーンバックから開始はちょっと違うかなと思いましたが、後で編集でカットするのも手です。それか再度生成するかです。右下の星のマークはGeminiで生成するとAIということの証明で出ます。ここも後で編集ソフトでトリミングしてしまいます。(できる場合のみ)
ちなみにVeo3.1を使った場合は8秒生成可能とのことです。(2026年5月現在)
↓Veoで作った動画(MVでは使いませんでしたが)
音も生成してくれましたが、使いませんでした。動画の雰囲気はVeoの方が個人的に好きです。いろいろ試すといいですね。
②の手順
今度はリップシンクの作り方です。
用意するもの
・歌わせる被写体と背景の静止画像
・音源(オリジナル曲・SUNOなどで生成した曲など)
使うもの
・Domo.AI

今度はAIアバターを選択します。左に画像、右に音声をいれます。
まず画像を用意します。Geminiに画像を入れ指示します。(元画像は私です)

画像が綺麗になっていますが「修正は少ししかしてません」と言いたい年頃です。(余談)
この画像を入れます。
ステップ2 今度は音声です。
音声ファイルですが、伴奏付き音声ではなく歌パートのみのものを用意します。DAWで作っているならボーカルトラックだけ抜き出しましょう。mp3でもwavでもどちらでも構いません。
曲全体だと3分以上と長いのでトリミングします。ここではonline mp3 cutterというサイトを使いました。

必要な部分を水色の2つの縦になっているバーで囲みます。左に再生ボタンがあるのでしっかり入っているか確認できます。特に前後に注意です。できたら保存ボタンを押します。私の契約のDomo.AIのスタンダードプランでは5秒、10秒と選べるので8秒の音声だと後で10秒を選べば収まります。
保存を再度クリックするとダウンロードできます。以下の音声になりました。

「笑顔で歌う。体の動きは最小限に。」とプロンプトに入れました。これで生成してみます。忘れていましたが、比率を16:9にします。

ここではリラックスモードは使えず45クレジットの消費となりました。
なっとく行く結果にならなかったので元の画像を変更し被写体をもっと近づけます。

これでリベンジ。距離があるとうまく歌えないことがあります。<Domo.AIの場合、被写体は近く>
4つ作りましたが、これが一番よかったです。動きが少し大袈裟なのが気になりますが。
このようにガチャ要素もありますが、音声の切り取り位置の確認、プロンプトの変更や追記など工夫して生成していきます。
最後の工程
最後は作った動画をつなげていく作業になります。それぞれお持ちの動画編集ソフトで作業ということになります。
工程を図にしてみました。

まず
①動画編集ソフトで完成している歌入り音源を貼り付けます。
②生成した動画(映像+音声)を別トラックに貼り付けます。
③実際に歌詞を聴きながら、完成曲と生成したリップシンクの動画のタイミングを合わせます。重なるとエコーがかかったようになりますね。
④タイミングが一致したら生成した動画の音声だけを消します。
このようにしてリップシンクと動きのある動画、静止画などを組み合わせ貼り付けていき完成します。かなり根気が必要な作業でした。
まとめ
メリット
- お金をかけてロケする必要がない
- 人件費がかからない(一人で作成する場合)
- 数年前には不可能だった映像が自宅で作れてしまう
デメリット
- ひとつひとつ手順を追えばできるが、積み重ねがいるので時間がかかる。
- サブスク代がかかる
- サービスが多くてどれを使っていいか迷う
今後もっとAIに全部投げに近い形のものが増えてくるのではないかと予想しています。あとAII in Oneでできるものなどが増えてくる感じもします。
やれやれと言った感じです。意外と大変でしたが完成した時は大きい喜びがありました。
なぜ今回私のMVキャラクターが小人かというと….
それを話すと別ジャンルになって長くなるので今回はやめときます。
ありがとうございます。




















コメントを残す