Googleの最新AI「Gemini」に、ついに音楽生成機能が搭載されました。モデル名は「Lyria 3(リリア3)」。
これまで「音楽を作る」といえば、楽器の知識や高価なソフトが必要でした。しかし、これからは「Geminiに画像を見せるだけ」「今の気分を1行伝えるだけ」で、プロ級のボーカル入り楽曲が数秒で完成します。
この記事では、Geminiで音楽生成をする基本から、生成した30秒の楽曲をどう活用すべきかという戦略までを徹底解説します。
1分で完了!Geminiで音楽生成を始める「最短ルート」
難しい設定は一切不要です。ブラウザ版のGemini、またはGeminiアプリを開くだけで始められます。
1. 「音楽を作成」ツールを選択

チャット入力欄の上部にある「🎸音楽を作成」ボタンをクリック(またはタップ)します。
2. テンプレートまたは自由入力を選ぶ

「90年代ラップ」「カワイイメタル」「森林浴」など、豊富なテンプレートから選ぶか、自由にプロンプトを入力します。
3. 生成ボタンを押して待つ
約30秒〜1分ほどで、ジャケット画像(Nano Banana生成)付きの30秒の楽曲が完成します。
実際にMoMoで作成したものが以下のものです。
日本語の歌詞で以下の会社の紹介ソングを作って
https://momo-gpt.com/
Lyria 3の真骨頂:画像や動画を「音」に変換する魔法
他の音楽生成AI(SunoやUdioなど)と比べて、Geminiが圧倒的に優れている点は「マルチモーダル(多角的な入力)」にあります。
画像や動画から「音」を抽出できる
スマートフォンのアルバムにある「夕日の写真」や「愛犬が走る動画」をアップロードしてください。
「この雰囲気に合う、切ないアコースティック曲を作って」と頼むだけで、AIが視覚情報を解析し、その場の空気を完璧に再現したBGMを生成します。
日本語の歌詞とボーカルが驚くほど自然
初期の音楽AIにありがちだった「カタコトの日本語」はもう過去のものです。Lyria 3は日本語のイントネーションを深く理解しており、感情のこもったボーカルを生成します。
【正直な評価】30秒の壁とSynthIDがもたらす「制限」
「120%の満足度」をお約束するために、あえてデメリットも包み隠さずお伝えします。
| 項目 | 内容 | 影響と対策 |
| 曲の長さ | 最大30秒 | フル尺の曲は作れません。SNS動画やジングルとして割り切りましょう。 |
| 修正不可 | 生成後の部分修正ができない | プロンプトを微調整して「再生成」を繰り返すのが基本です。 |
| SynthID(透かし) | 不可視のIDが埋め込まれる | AI生成であることを証明するためのもので、聴感上の問題はありません。 |
| 年齢制限 | 18歳以上が対象 | 未成年の方は利用できない点に注意が必要です。 |
「たった30秒」を価値に変える!日常を彩る5つの活用術
30秒という長さは、実は「現代人の集中力」に最適化された長さです。長尺を作れないことを嘆くのではなく、以下の方法で「武器」に変えてください。
* SNSのストーリーズ・リール動画のBGM
既存の流行曲ではなく、動画の内容に100%マッチした「自分だけのオリジナル曲」で差別化してください。
* パーソナルな誕生日メッセージ
「〇〇ちゃん、お誕生日おめでとう。最高の1年になりますように」という歌詞を指定し、思い出の写真から曲を作って贈りましょう。
* プレゼンの導入・ジングル
スライドが切り替わる際の数秒のBGMとして活用し、プレゼンの「世界観」を音で補強します。
* 「今の気分」の記録(サウンド日記)
言葉にできない感情を、AIに音にしてもらう。数年後に聞き返すと、当時の記憶が鮮明に蘇ります。
* オリジナルの着信音・通知音
自分だけにしかわからない、お気に入りのフレーズをスマホの音に設定します。
【徹底比較】Gemini vs Suno AI vs Udio:どれを使うべき?
| ツール | Gemini (Lyria 3) | Suno AI | Udio |
| 得意なこと | 画像/動画からの生成 | フル尺楽曲、本格的な作詞作曲 | 圧倒的な音質、複雑な構成 |
| 手軽さ | ◎(Google垢で即可能) | ◯(クレジット制) | △(設定がやや複雑) |
| 日本語対応 | 完璧 | 良好 | 良好 |
| おすすめ読者 | 「今すぐ」「高品質な短編」を作りたい人 | 音楽作品として公開したい人 | プロレベルの音質を求める人 |
プロ級のクオリティを引き出す「プロンプトの黄金律」
「ありきたりな曲」を卒業し、人に見せたくなるレベルを目指すなら、プロンプトに以下の4要素を盛り込んでください。
1. ジャンルと時代: 「80年代のシンセポップ」「2010年代のUKロック」など。
2. テンポと感情: 「アップビートで高揚感のある」「物憂げでスローなバラード」など。
3. 特定の楽器: 「歪んだベースライン」「泣きのサックスソロ」など。
4. ボーカルの指定: 「ハスキーな女性ボーカル」「少年のような透明感のある声」など。
これらを組み合わせるだけで、AIの出力精度は飛躍的に高まります。
MoMo’s Insight:AI音楽は「記憶」をパッケージングする手段になる
これまで音楽は「聴くもの」または「プロが作るもの」でした。しかし、Gemini(Lyria 3)の登場によって、音楽は「感情や記憶を保存するためのフォーマット」へと進化しました。
写真は視覚を、動画は視覚と聴覚(記録音)を保存しますが、Lyria 3は「その時の感情の質感」を保存します。
大切なのは、完璧な交響曲を作ることではありません。30秒という短い時間に、どれだけあなたの「今」を込められるか。AIはあなたの「表現力の限界」を撤廃してくれるパートナーなのです。
まとめ
Geminiの音楽生成(Lyria 3)は、誰でも、一瞬で、心に響く音を生み出せる魔法の杖です。
* テキスト・画像・動画から自由に生成可能
* 30秒という短さを「使い勝手の良さ」と捉える
* 日本語の精度が高く、パーソナルな用途に最適
まずは、あなたのスマートフォンにある「一番お気に入りの写真」をGeminiに読み込ませてみてください。そこから流れてくる音色は、世界であなただけの物語を語り始めるはずです。

