(この情報は2024/4月現在の情報を元に作成しています)
Soraとは
「Sora」とはOpenAIが開発した新しいAI技術で、テキスト、画像、動画から動画を生成することができる生成AIです。テキストからの動画生成ではユーザーが入力した文章に基づいて、動画が生成でき、最大1分長さの高品質動画を作成できるとの事です。本ブログは動画生成AIのSoraについて解説していきます。
このSoraは、単なるテキスト入力からハイクオリティな動画を生成する能力を持っていて、デジタルコンテンツ制作の未来を切り開くものです。本記事では、Soraの驚異的な能力、直面している課題を解説します。
*今回ご紹介するSoraは2024年4月現在、開発者向けのみに公開されている動画生成AIです。一般向けの公開は未だ未定の状況です。
AI技術:Soraとは?
「Sora」は、ユーザーが入力した「テキスト」から最大1分長さの「動画」を生成する能力を持つ、OpenAIによって開発された最新のAIモデルで、複数のキャラクターや動き、細部にわたる正確な描写を含む複雑なシナリオを作成できるという意味で、従来のテキストから画像を生成する技術を大きく超えていると言われています。
OpenAIのSoraの公式サイトには、動画に使ったプロンプトが記載されていています。公式サイト上の動画は非常にクオリティが高いのが見てとれ、視聴及びダウンロードが可能です。動画は、たとえプロンプトが短いものであっても、イラスト風、リアリスティック、3Dアートなど、様々なスタイルが見事に再現されていることが確認できます。
先だって、ご紹介させて頂いた「Runway Gen2」はこれも高性能な動画生成Aiですが、一度に生成できる動画は4秒です。Soraは動画生成できる時間をとってみても、一歩先をいっていると言わざるを得ない情報が出ています。Soraの一般公開後の話になりますが、動画生成がどのくらいの時間がかかるのは気になるところです。
Runway Gen-2についての簡単な概要は以下別記事に記載しています。気になる方はチェックして見て下さい、
安全への取り組みと技術的基盤
Soraは複雑な物理演算や空間的詳細の正確なシミュレーションなど、特定の課題に直面しているとの記載もあり、導入に当たり、OpenAIは悪用のリスクを軽減するために、動画がSoraによって生成されたものであることを特定するツールの開発、複数の安全対策を講じているとの事で、現在、Soraは様々なリスクや潜在的な問題を評価するために一部の専門家チームやクリエイティブ分野のプロフェッショナルに限定的に公開されています。
We represent videos and images as collections of smaller units of data called patches, each of which is akin to a token in GPT. By unifying how we represent data, we can train diffusion transformers on a wider range of visual data than was possible before, spanning different durations, resolutions and aspect ratios. Sora builds on past research in DALL·E and GPT models. It uses the recaptioning technique from DALL·E 3, which involves generating highly descriptive captions for the visual training data. As a result, the model is able to follow the user’s text instructions in the generated video more faithfully.
日本語訳:我々は、世界中の政策立案者、教育者、アーティストと協力し、彼らの懸念を理解し、この新技術のポジティブな使用事例を特定する予定です。広範な研究とテストにもかかわらず、人々が我々の技術をどのように有益に使用するか、またはそれをどのように悪用するかをすべて予測することはできません。そのため、実際の使用から学ぶことは、時間の経過とともにますます安全なAIシステムを作成し、リリースする上での重要な要素であると我々は信じています。
https://openai.com/sora
AIとクリエイティビティの未来
Soraの開発は、AIが実世界を理解し模倣する能力の進歩を示し、将来の人工一般知能(AGI)への重要なステップとされています。教育、エンターテインメント、クリエイティブ産業など、幅広い分野での応用が期待されており、そのAGIを作る段階において、安全性を担保する事は不可欠です。Chat GPTにおけるSoraの公開は先になるかもしれませんが、近い未来、私たちの生活を変えることになるかもしれません。
Soraを先行的に使える!?Adobe プレミアプロについては、近日中にご紹介させて頂きます。
結論
Soraは、AI技術における画期的な進歩を象徴しています。複雑で表現豊かなビデオコンテンツの製作を可能にするこの技術は、クリエイティビティの新たな地平を拓き、未来のコンテンツ制作者に無限の可能性を提供します。ただし、その全貌を理解し、慎重に扱うことが成功への鍵となります。Soraのような先進的なツールの導入は、デジタルコンテンツ制作の風景を根本から変えることでしょう。
コメント