Tech News

Technik & Digital

Google stellt neuen Prozess zum Erstellen von 3D-Modellen aus 2D-Bildern vor


Mit der Weiterentwicklung des Internets und der damit einhergehenden Konnektivität sind visuelle Darstellungen zunehmend zum Schlüsselelement geworden, das auffällt und die Aufmerksamkeit der Benutzer in den ständig belebten sozialen Feeds auf sich zieht.

Das begann mit statischen Bildern, wechselte dann zu GIFs und jetzt ist Video die ansprechendste Art von Inhalten. Aber im Wesentlichen brauchen Sie wirklich ansprechende, interessante Bilder, um die Leute mitten im Scrollen zu stoppen, was in den meisten Fällen weitaus effektiver ist, als zu versuchen, sie mit einer Überschrift oder einem witzigen Einzeiler zu erwischen.

Aus diesem Grund ist dies interessant – heute hat Google seinen neuesten 3D-Bilderzeugungsprozess namens „LOLNeRF“ (ja, wirklich) skizziert, der dazu in der Lage ist genaue Schätzung der 3D-Struktur aus einzelnen 2D-Bildern.

Wie Sie in diesen Beispielen sehen können, ist die LOLNeRF Prozess kann Ihr normales 2D-Bild nehmen und es in eine 3D-Anzeige umwandeln.

Facebook bietet seit einiger Zeit auch eine Version davon an, aber der neue LOLNeRF-Prozess ist ein weitaus fortschrittlicheres Modell, das mehr Tiefe und Interaktivität ermöglicht, ohne dass vollständige 3D-Modelle verstanden und erfasst werden müssen.

Wie von Google erklärt:

Im „LOLNeRF: Learn from One Look“ schlagen wir ein Framework vor, das lernt, 3D-Struktur und -Erscheinungsbild aus Sammlungen von zu modellieren Einzelansicht Bilder. LOLNeRF lernt die typische 3D-Struktur einer Klasse von Objekten, wie Autos, menschliche Gesichter oder Katzen, aber nur aus Einzelansichten eines Objekts, niemals dasselbe Objekt zweimal.“

Der Prozess ist in der Lage, Farbe und Dichte für jeden Punkt im 3D-Raum zu simulieren, indem visuelle „Orientierungspunkte“ im Bild verwendet werden, die auf maschinellem Lernen basieren – im Wesentlichen repliziert, was das System von ähnlichen Bildern kennt.

„Jede dieser 2D-Vorhersagen entspricht einem semantisch konsistenten Punkt auf dem Objekt (z. B. der Nasenspitze oder den Augenwinkeln). Wir können dann einen Satz kanonischer 3D-Orte für die semantischen Punkte zusammen mit Schätzungen der Kameraposen für jedes Bild ableiten, sodass die Projektion der kanonischen Punkte in die Bilder so konsistent wie möglich mit den 2D-Orientierungspunkten ist.

Dadurch ist der Prozess in der Lage, genauere, mehrdimensionale visuelle Darstellungen aus einer einzigen, statischen Quelle zu rendern, die eine Reihe von Anwendungen haben könnten, von AR-Kunst bis hin zur erweiterten Objekterstellung in VR und dem zukünftigen Metaverse-Raum.

Wenn dieser Prozess tatsächlich in der Lage ist, 3D-Darstellungen einer breiten Palette von 2D-Bildern genau zu erstellen, könnte dies die Entwicklung von 3D-Objekten erheblich beschleunigen, um beim Aufbau von Metaverse-Welten zu helfen. Das Konzept des Metaversums ist, dass es in der Lage sein wird, praktisch jede reale Interaktion und Erfahrung zu ermöglichen, aber um dies zu tun, benötigt es 3D-Modelle von Objekten der realen Welt aus dem gesamten Spektrum als Quellenmaterial, um dieses Neue zu fördern kreativer Ansatz.

Was wäre, wenn Sie einfach einen Katalog von Webbildern in ein System einspeisen und es dann 3D-Äquivalente ausspucken lassen könnten, um es in Anzeigen, Werbeaktionen, interaktiven Erlebnissen usw. zu verwenden?

Es gibt eine Reihe von Möglichkeiten, wie dies verwendet werden könnte, und es wird interessant sein zu sehen, ob Google in der Lage ist, den LOLnerf-Prozess in praktischere, zugänglichere Nutzungsoptionen für seine eigenen AR- und VR-Ambitionen zu übersetzen.





Source link