CHANNEL

人間の限界を越える「デジタルヒューマン」をめざして｜株式会社EmbodyMe代表・吉田が語るAI技術とその未来

2024.06.20 10:00

ChatGPTをはじめとする生成AIが世の中を大きく変えようとしていますが、そうした生成AIを世界に先駆けて研究開発、プロダクト化したのが、弊社、株式会社EmbodyMe代表の吉田です。

大学卒業後、Yahoo!に入社し、映像に関わるAI技術の研究開発を行ってきた吉田は、そうした技術を革新的なアプリに応用し、世界に先駆けてリリースをしてきました。その後、起業し、独自の映像生成AI技術の開発とプロダクト展開に至った背景には、彼の技術的な挑戦心と市場のニーズを見越した戦略がありました。今回のインタビューでは、リアルタイム映像生成AI技術誕生の背景、現在取り組んでいる最新技術やプロダクト、そして今後の社会展望について詳しく伺います。

時代の3年先を行く技術「世の中に早く成果を届けるには、”起業する”というのが一案でした」

簡単にこれまでのご経歴を教えてください。

新卒でYahoo!に入社以降、映像に関わるAI技術の研究開発を行ってきました。2016年に株式会社EmbodyMeを立ち上げ、映像生成AIの基盤技術の研究開発と、それを活用したビジネス、プロダクトを展開しています。EmbodyMeの映像生成AI技術は、世界でトップレベルの処理速度を誇る競合企業より50倍以上、一般的な競合企業より数百倍以上高速で、EmbodyMeの技術のみが一般的なスマホやPCなどのデバイス上でリアルタイムで動作するという優位性があります。

今回のインタビューでは、まずは現在のEmbodyMeの技術が、どういう経緯、プロダクトをたどって進化してきたのか、をお伺いできればと思います。Yahoo!ではどういったお仕事をされていたのでしょうか。

Yahoo!の中では、検索や分散処理などの技術開発に関わった後、映像に関わるAI技術を開発してきました。そうした技術を応用してリリースしたのが「怪人百面相」と「なりきろいど」です。

「怪人百面相」は、AR技術の走りのようなもので、自分の顔がいろんな人の顔に変化するんです。今の生成AIとはかなり様相が違うのですが、このアプリではAIで顔をトラッキングする技術とコンピュータグラフィックス技術をうまく使ってこのような映像処理を実現しています。当時はスマートフォン上で実現するのが特に難しくて、誰もできていなかったんです。それを世界に先駆けてスマートフォン向けのアプリとしてリリースしました。

リリースの3年後にいわゆる「モバイルAR」ブームが発生しました。きっかけになったのは米国のSnapchatです。SnapchatがLookseryという企業を買収したのをきっかけにこのAR機能を入れて相当流行りました。それをFacebookやSNOWが追従したのが2016年の話です。2016年というと相当昔の話に聞こえますが、それより3年前に、すでに「怪人百面相」では実現していたことになりますね。

世界最先端の技術だったのですね。「なりきろいど」はいかがでしょうか。

「なりきろいど」では、2Dのアバターが、自分の顔や表情に応じて動きます。その映像を、そのままビデオチャットやライブ配信に活用できる、というプロダクトです。コンセプトは現行の「xpression camera」に近いのですが、このようなアニメに近いキャラクターを動かすというプロダクトも2015年当時としては世の中にありませんでした。その3年後にバーチャルYoutuberが一気に盛り上がったのですが、実はYahoo!で3年前に同じような技術をリリースしていたんです。

このように、今につながるようなプロダクトをYahoo!時代では開発していましたね。

最先端の技術を先駆けて開発されていて、そこからどのような経緯で起業に至ったのでしょうか。

Yahoo!では、「Yahoo!ラボ」という枠で研究開発の成果をとりあえず出してみていたのですが、それ以上なかなか広がっていかないという難しさは感じていました。なりきろいどはかなり社内調整をして、長い時間をかけてサービスとして出したのですが、大きな会社だと「サービスを出す」というのがものすごいハードルがあるというのも事情としてありました。2016年あたりに、Snapchat、Facebook、SNOWがすごく盛り上がっていて、それらより3年前に出していたのにもったいないなという思いはありましたね。それもあって起業をするのが早いというか、一案だと思って起業しました。

リアルタイム映像生成AI技術とxpressionシリーズの誕生「リモート会議が普及する中で、持っていた技術が全て活かせました」

EmbodyMeの技術について詳しく教えてください。

弊社は、「3D Dense Face Tracking」技術で顔の詳細な形状と表情を認識し、その結果をもとに「Neural Rendering」技術で映像生成を行っています。

従来の顔認識技術は、70か所程度で2Dポイントを推定していたのに対し、弊社技術は5万か所以上の3Dポイントを推定することで、より詳細な顔の形状や表情が認識できます。

そうした3Dでの認識結果をもとに「Neural Rendering」技術によって0.01秒で映像生成を行い、リアルタイムでの動作を実現しています。

独自の基盤技術がEmbodyMeのプロダクトを支えている様子がわかりました。そして満をじしてリリースされたのがxpressionシリーズです。プロダクトの企画はどのようにされているのでしょうか？

一番最初にリリースしたのがxpression cameraでした。コロナ禍でーこれも誰も想像できなかったですがー、外に出られなくなって、会社にも行けなくなって、社会変化としてこれまで使われていなかったビデオチャットを、絶対に使わないといけない、となった中で、そこですごいビジネスチャンスが生まれるだろうな、と。そして今持っている技術がそのまま全部活かせるな、という考えもありました。AIの映像生成、リアルタイム性、しかも写真1枚から生成できる、ということで、ビデオチャットと相性がいい。ライブ配信も、コロナに限らずニーズがあったので、それをきっかけにxpression cameraをリリースしました。

それより前に同じ技術を使い、無料スマホアプリとしてリリースしていたのがXpressionです。技術のショーケースとしての目的が大きかったのですが、ユーザー数自体は当時からかなり多くてですね。xpression avatarは2023年の12月末に、Xpressionをリニューアルする形でリリースしました。弊社のリアルタイム映像生成AI技術と、画像生成AI技術を組み合わせて、写真をもとに様々なアバターを生成し、それを顔の表情や頭の動きに応じてリアルタイムに映像化できるのがxpression avatarになります。

xpression chatは去年の夏頃に出したのですが、これもChatGPTがきっかけになっていて。アイドルや愛犬、亡くなった家族など、写真一枚を用意するだけで、その中の人と「会話ができる」というコンセプトです。ChatGPTのようなテキスト生成AIだけだとテキストチャットしか実現できないですが、弊社のリアルタイム映像生成AI技術と組み合わせると、外見や音声も一緒に、本当にその人と話している感覚で話すことができます。これもチャンスだと思ってプロダクトを出しました。

ありがとうございます。そして各アプリが海外で爆発的なヒットとなっています。その要因はなんだとお考えになっていますか？

競合アプリがいないというのが大きいかなと思いますね。さらに、かつ言語に依存していない。日本語に限ったプロダクトではないところも広がった要因かなと思いますね。

また、xpression cameraについていえば、バーチャルカメラという技術を使っていて、これがwebカメラと同じものをソフトウェアで実現するという仕組みで。つまりwebカメラが選択できるアプリであればなんでもxpression cameraが使えるということなんです。Microsoft Teams、Google Meets、YouTube、ブラウザなどなんでも使える、というのがあって、他のプラットフォームに気軽に入り込めるというのが大きかったですね。

確かに、それはユーザーの利用場面も広がりますね。
そして、2024年4月に株式投資型クラウドファンディングサービス「FUNDINNO（ファンディーノ）」を通じて、国内の株式投資型クラウドファンディングにおける史上最高額となる9,999万円の資金調達を行いました。申込み受付の開始後、約2分で目標募集額を達成。そして、約5時間半で約450名の個人投資家から申込を受け付け、上限金額に到達しました。達成するだろうという確信はあられたんでしょうか？それとも想像したよりも早く達成した形ですか？

いや、完全に想像は超えていましたね。全く想像はできなかったですね。

デジタルヒューマンと未来展望「究極の目標は”人間の限界を越えること”です」

それだけ世の中のAIに対する注目も高い中で、先日ChatGPT4oが発表されて、世間がまた一段と盛り上がりました。同じ技術者として、いまのAIが普及し始めた世の中をどうご覧になっていますか？

ここ最近のAIの進化には２つの側面があると思っています。

一つは言語を通じて誰でも気軽にAIとやりとりができるようになった点です。今までは、例えば画像の中にある物を認識するには、学習データを集めて、学習データにラベルをつけ、プログラムを作り、高いマシンを用意して時間をかけて学習させるといった大変な労力が必要で、いわば人間の脳を一から作っているような状態でした。それが今は画像を見せて「ここに何がある？」と聞くだけで、まるで人間が答えるかのように、即座にAIが答えてくれるようになりました。そのおかげで今までAI開発会社やAIエンジニアが担っていた「大変な労力」の部分が必要なくなり、プログラマですらない一般の人が気軽にAIを扱えるようになりました。

これは、例えばプログラミング言語の進化に似ています。コンピュータが登場した当時は、コンピュータの動作原理に近い部分を人間がすべて指示しなければいけませんでしたが、そうした人間の労力を減らし純粋にやりたいことだけを指示すればよいようにプログラミング言語が進化していきました。そのおかげでコンピュータの動作原理を理解して指示をする難しい部分を担っていたエンジニアの需要がだんだんと減っていきました。これと同じことがAI開発でもおきていると言えます。ちなみにプログラミング言語の進化の話で言うと、AIのおかげで人間が話す言語を使って簡単にソフトウェアが作れるようになってきているので、そもそもプログラミング言語自体の必要がなくなってきて、だんだんとソフトウェアエンジニアの需要は減っていくのかもしれません。

今のAIの進化のもう一つの側面は、テキスト、画像、映像、音声といったものを生成できるようになったという点です。AIのタスクは、大きく分けて認識と生成に分かれます。例えば画像に写っているのが犬である認識するのが「認識」で、犬が写っている画像自体を作り出すのが「生成」です。認識のタスクに関しては、2010年代中盤あたりに人間の精度に追いついたものが多いのですが、生成は昔は大変難しいタスクでした。それが2022年後半ぐらいから人間の精度に追いつき始めたというのが、生成AIが注目を集めた原因です。

2022年後半から2023年にかけて、まず、テキストや画像の生成が人間の精度に追いつき、ChatGPTなどが世の中に大きく普及しました。また、映像生成においては、普及するのに十分な精度に追いつくのは時間の問題で、今年から来年にかけて大きく普及していくことが予想されます。

弊社は今まさに立ちあがろうとしている映像生成AIの時代のさらに先にやってくる「リアルタイム映像生成AI」にフォーカスしています。現在の映像生成AIは映像生成に時間を要するため、映像制作分野での活用にとどまっていますが、その先の発展には「リアルタイム性」が必要不可欠です。リアルタイム映像生成は、スマホやPCの画面表示処理に使われているだけでなく、ゲーム、ライブ配信、デジタルヒューマン、バーチャルアシスタント、ビデオ会議、メタバース、VR/ARなど、映像制作分野だけに限らない幅広い市場をターゲットとしています。

弊社はこのリアルタイム映像生成AI技術を世界に先駆けて研究開発し続け、世界でも弊社にしかない競合優位性のある技術を有しています。

基盤技術の上に、様々なサービスやプロダクトが生まれてくるのが楽しみですね。
最後に、今後の展望を教えてください。

弊社のリアルタイム映像生成AI技術が活かせるという意味でも、AIで人格や体、声といった人間そのもの作り出す「デジタルヒューマン」の実現を目指しています。そもそも、AIという言葉や研究分野の成り立ちからして「人間を再現しよう」としています。AIは、自然言語処理、音声認識・合成、画像認識など様々な分野に分かれますが、これは言語、声、目、耳といった人間の機能一つひとつを再現しようとしているものです。ロボットの分野では人間の「動き」の再現です。少なくとも人工知能とロボティクスの分野においては、究極的な目標は「人間の再現」です。弊社でも特に「見た目」のところを重視しながら、人間の再現を目指しています。声、会話・思考の内容も含めて、人間が再現できた世界を実現するというのが、一番のビジョンです。

自分では5~10年で訪れると思っていますが、20~30年かかったとしても、人間の仕事がどんどん置き換えられていくと思います。特に見た目が関わる分野だと、人とコミュニケーションをとる分野がわかりやすいですよね。接客、営業、教育、人事などあらゆる分野が置き換わってくと思います。また特に社長や芸能人といった人間のコスト自体が高い分野がまず置き換わっていくと思います。一般の会社にとってはコストが高い芸能人も、AIで自由に使えてマーケティングに使えるようになったらいいですよね。

そういった意味では、人間自体が抽象化されるというか、自分が稼働しなくても、自分の姿を使って接客ができたり、営業をしてくれたりする。自分のコピーが完全に自律的に動いてくれる世界。そこでは人格はコピーできていなくてもよくて、パーソナリティをカスタマイズしたり、若い思考や大人な思考にしてもいいですし。また、自分の見た目を若返らせたり、亡くなった人を活用したり、絶世の美女を作り出したりすることもできます。人間の能力の限界を越え、時空の制約、生と死のような人間の在り方を超えて、新しい人間の未来を創造する、そういったことを実現したいですね。

>> 行動者ストーリー詳細へ

>> PR TIMES STORYトップへ