Tech News

Technik & Digital

Google nimmt mit seinem neuen Veo AI-Videomodell den Kampf gegen Sora von OpenAI auf


Die zentralen Thesen

  • Veo generiert qualitativ hochwertige, konsistente Videos mit Schwerpunkt auf filmischen Stilen und natürlicher Spracheingabe für YouTuber.
  • Imagen 3 verbessert die Bildgenerierung, indem es Text genauer wiedergibt, längere Eingabeaufforderungen interpretiert und Bilder in einer größeren Auswahl an Stilen generiert.
  • Sowohl Veo als auch Imagen 3 stehen ausgewählten Entwicklern in der privaten Vorschau zur Verfügung und demonstrieren die Fortschritte von Google bei KI-Modellen für die Video- und Bildgenerierung.


Es ist ein großer Tag für KI auf der Google I/O, und zusätzlich zu all dem Hype um Gemini 1.5 Pro hat Googles DeepMind-Labor einige neue KI-Modelle für die Video- und Bildgenerierung herausgebracht. Das neue Bilderzeugungsmodell heißt Imagen 3 und bietet einige große Verbesserungen gegenüber den Vorgängermodellen, während sein Äquivalent für Videos Veo heißt.

Verwandt

Project Astra ist Googles Antwort auf GPT-4o, unterstützt von Gemini und kommt auf Ihr Google Pixel

Google nimmt OpenAI ernst.

Veo generiert hochwertige, konsistente Videos

Veo ist das beeindruckendere der beiden Modelle, nicht zuletzt deshalb, weil die Videoerzeugung aktueller ist und sich schneller verbessert. Googles Veo tritt gegen Sora von OpenAI an, was ebenfalls sehr beeindruckend war und verspricht, qualitativ hochwertige 1080p-Videos zu liefern, wobei großer Wert auf konsistente Ergebnisse gelegt wird. Google sagt, dass es Videos in einer „breiten Palette filmischer und visueller Stile“ erstellen kann und sogar Begriffe wie „Zeitraffer“ versteht, sodass YouTuber alle Arten von Aufnahmen in natürlicher Sprache erstellen können.


Google hebt außerdem hervor, wie Veo aus jahrelangen generativen Modellen lernt, um zu verstehen, was in einem Video enthalten ist, und um reale Physik zu simulieren, um realistischere Ergebnisse zu erzielen. Um das Potenzial von Veo zu demonstrieren, hat Google mit Donald Glover zusammengearbeitet, um ein Projekt mit dem neuen Modell zu erstellen, das alle Arten von Aufnahmen enthält, die ehrlich gesagt als echtes Filmmaterial durchgehen könnten.

Dieses Tool ist ab sofort für ausgewählte VideoFX-Ersteller in der privaten Vorschau verfügbar.

Imagen 3 setzt neue Maßstäbe bei der Bilderzeugung

KI-generiertes Bild eines hölzernen Mech-Roboters mit einem Vogel auf seiner Hand

Im Standbildbereich stellte Google Imagen 3 vor, die neueste Version seines Bilderzeugungsmodells, mit der realistischere Bilder mit mehr Details und weniger Artefakten als zuvor erstellt werden können. Eine der großen Verbesserungen in IMagen 3 besteht darin, dass es Text viel besser rendern kann, was in der Vergangenheit eines der verräterischen Anzeichen für ein KI-generiertes Bild war. Jetzt sollten Sie tatsächlich konsistenter lesbaren Text erhalten.


Imagen 3 kann auch längere Eingabeaufforderungen besser interpretieren und auch kleinere Details, die in diesen Eingabeaufforderungen erwähnt werden, einbeziehen. Sie können Elemente des Vorder- und Hintergrunds mit zusätzlichen Details beschreiben und imagen 3 kann dennoch eine Ausgabe generieren, die alle Kriterien in Ihrer Eingabeaufforderung erfüllt. Darüber hinaus können dank der erweiterten Funktionen Bilder in einer größeren Bandbreite an Stilen erstellt werden. Als Beispiel wurde im Bild oben die folgende Eingabeaufforderung verwendet:

Ein verwitterter, hölzerner Mech-Roboter, bedeckt mit blühenden Ranken, steht friedlich in einem Feld mit hohen Wildblumen, auf seiner ausgestreckten Hand ruht eine kleine Drossel. Digitaler Cartoon mit warmen Farben und weichen Linien. Dahinter ragt eine große Klippe mit Wasserfall auf.

Imagen 3 ist ab sofort auch für ausgewählte Entwickler in ImageFX verfügbar und wird bald auch für Vertex AI verfügbar sein.



Source link