Google の生成AI「Gemini」で画像生成できるようになったけど？！なお話

※Google Geminiでの実際の生成画面

■そもそもGeminiって何？

　Googleが開発しているLLM技術をベースにした生成AIエンジンのブランド名です。複数のバージョンが内部的には存在しているのですが、2024年10月時点でどうなっているのかかなり整理が必要な状況であり、それならGeminiに聞いてみよう！ということで以下が回答です。

Gemini Ultra: 現在、Geminiファミリーの中で最も強力なモデルであり、高度な推論能力や創造性を備えています。
Gemini Pro: Gemini Ultraよりも小型のモデルであり、幅広いタスクに高性能で効率的に対応できます。 Gemini Nano: モバイルデバイスなど、リソースが限られた環境でも動作可能な軽量なモデルです。

　この中でProにあたるものが無償で利用できる旧Bard、現Geminiインターフェースのバックエンドで動いているエンジンとなります。無償での提供なのでハイエンドの時間はかかるけどすごいよりもなかなかすごいけど速いほうが使う上では有効ということも実際あるでしょう。なんでも間でもハイエンドであればいいわけではないということですね。Geminiは対話型のインターフェースを備えた生成AIに分類されるサービスなので、「ちゃんと質問をする」ことがとても重要なのは以前もお話したとおりです。ただ待っていてもなにも答えてくれないという前提は忘れないでおきましょう。そのGeminiインターフェースに今回画像生成エンジンである「Imagen 3」搭載したということで実際に試してみたのが最初に掲載した画像です。日本語でめちゃくちゃ簡単に指示しただけでそれとわかる画像をが出来上がっているのがわかるのではないでしょうか？

■今回どのような画像が生成できるのか？

　Geminiインターフェースからあれこれ試してみたのですが、風景や自動車などであればだいたい生成してくれるのですが、「人」のキーワードが入ると「Advanceでできるようになるよ！」とだけ表示される状況です。（2024年10月時点）。Googleとしてもなにか意図あってこういう制限をかけているのでしょうが、やはり人の画像は様々な場面で使えてしまうのであえて有料プランなど限定で提供するという意図なのかもしません。しかし、ベースとなるImagen 3単体であればある程度できてしまうのでちょっと矛盾も感じるところではあります。

■気になる商用利用問題

　現時点でGeminiの生成物についてはGeminiに聞いてみても「とても複雑な問題だ」という回答しかしてくれません（苦笑）Googleのあちこちを確認しておりますがやはり明確な答えが記載されていないので、今回画像が生成できるようになったとしても、安易に商用利用を行わないことが賢明でしょう。そもそもの学習データがGoogleからしても全権利を自社でも持っているものであることはあり得ないので、より難しい問題という形で回答させていると想像できます。もちろんアイデアプロットのサポートであったり、ソースコードのヒントにするなど、あくまでサポート目的であれば実際に成果物を作るのは人間となるのでそこまで問題を問われることはないでしょうが、「回答そのまま」を利用するのは画像などと同様に慎重になるべきかと考えます。

■まとめ

　今回はGoogleの生成AI「Gemini」に画像エンジンが搭載されたのでちょっと使ってみたという内容をお話いたしました。生成できる画像の種類には制限がかかっておりますし、Gemini利用における商用利用についてもまだグレーな部分が多いので、もし業務に取り入れたい！という場合はしっかりとした目的の検討や、利用範囲の周知、コンプライアンス意識の徹底など簡単ではない作業はしっかりやっておく必要があると私は考えます。なお、Googleの業務システム「Google Workspace」の有償オプションでもGeminiはありますので、導入や利活用について、弊社「仕ご丸」のICTサポートプランにて対応しております。生成AIを業務で利活用したとお考えの企業様はぜひお気軽にお問い合わせよりご連絡ください！

■そもそもGeminiって何？

■今回どのような画像が生成できるのか？

■気になる商用利用問題

■まとめ

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル