Meta stellt seine neuesten Fortschritte bei der Bilderkennung vor, die seine Metaverse-Vision erleichtern könnten
Meta arbeitet an der nächsten Stufe der generativen KI, die schließlich die Erstellung immersiver VR-Umgebungen über einfache Anweisungen und Eingabeaufforderungen ermöglichen könnte.
Die neueste Entwicklung an dieser Front ist die Aktualisierung DINO-Bilderkennungsmodell, das nun besser erkennen kann einzelne Objekte innerhalb von Bild- und Videoframesbasierend auf selbstüberwachtem Lernen, im Gegensatz zum Erfordernis menschlicher Anmerkungen für jedes Element.
Heute Morgen von Mark Zuckerberg angekündigt – heute veröffentlichen wir DINOv2, die erste Methode zum Trainieren von Computer-Vision-Modellen, die selbstüberwachtes Lernen nutzt, um Ergebnisse zu erzielen, die Industriestandards entsprechen oder diese übertreffen.
Mehr zu diesem neuen Werk ➡️ https://t.co/h5exzLJsFt pic.twitter.com/2pdxdTyxC4
— Meta-KI (@MetaAI) 17. April 2023
Wie Sie in diesem Beispiel sehen können, ist DINOv2 in der Lage, den Kontext visueller Eingaben zu verstehen und einzelne Elemente zu trennen, wodurch Meta besser neue Modelle erstellen kann, die ein fortgeschrittenes Verständnis dafür haben, wie ein Gegenstand nicht nur aussehen könnte, sondern auch wo es in einer Umgebung platziert werden soll.
Meta veröffentlichte bereits 2021 die erste Version seines DINO-Systems, was einen erheblichen Fortschritt in Bezug auf die Möglichkeiten der Bilderkennung darstellte. Die neue Version baut darauf auf und könnte eine Reihe potenzieller Anwendungsfälle haben.
Wie von Meta erklärt:
„In den letzten Jahren war die Bild-Text-Vorschulung die Standardansatz für viele Computer-Vision-Aufgaben. Da sich die Methode jedoch auf handgeschriebene Beschriftungen stützt, um den semantischen Inhalt eines Bildes zu lernen, ignoriert sie wichtige Informationen, die in diesen Textbeschreibungen normalerweise nicht explizit erwähnt werden. Zum Beispiel könnte die Bildunterschrift eines Bildes eines Stuhls in einem riesigen violetten Raum „einzelner Eichenstuhl“ lauten. Allerdings fehlen in der Bildunterschrift wichtige Informationen zum Hintergrund, etwa wo sich der Stuhl im lila Raum räumlich befindet.“
DINOv2 kann mehr von diesem Kontext einbauen, ohne dass manuelle Eingriffe erforderlich sind, was für die VR-Entwicklung von besonderem Wert sein könnte.
Es könnte auch sofort zugänglichere Elemente ermöglichen, wie verbesserte digitale Hintergründe in Videochats, oder Tagging von Produkten in Videoinhalten. Es könnte auch alle neuen Arten von AR- und visuellen Tools ermöglichen, die zu immersiveren Facebook-Funktionen führen könnten.
„Für die Zukunft plant das Team, dieses Modell, das als Baustein fungieren kann, in ein größeres, komplexeres KI-System zu integrieren, das mit großen Sprachmodellen interagieren könnte. Ein visuelles Rückgrat, das reichhaltige Informationen zu Bildern bereitstellt, wird es komplexen KI-Systemen ermöglichen, Bilder auf tiefere Weise zu begründen, als sie mit einem einzigen Textsatz zu beschreiben. Mit Textsupervision trainierte Modelle sind letztlich durch die Bildunterschriften limitiert. Bei DINOv2 gibt es keine solche eingebaute Einschränkung.”
Das könnte, wie bereits erwähnt, auch die Entwicklung von KI-generierten VR-Welten ermöglichen, sodass Sie schließlich in der Lage wären, ganze, interaktive virtuelle Umgebungen ins Leben zu rufen.
Das ist noch ein langer Weg, und Meta zögert, zu diesem Zeitpunkt zu viele Verweise auf das Metaversum zu machen. Aber hier könnte diese Technologie wirklich zur Geltung kommen, über KI-Systeme, die mehr darüber verstehen können, was sich in einer Szene befindet und wo die Dinge im Kontext platziert werden sollten.
Es ist ein weiterer Schritt in diese Richtung – und obwohl viele die Aussichten für Metaverse Vision abgekühlt haben, könnte es immer noch das nächste große Ding werden, sobald Meta bereit ist, mehr von seiner Vision der nächsten Ebene zu teilen.
Angesichts der negativen Berichterstattung, die es bisher gesehen hat, wird es wahrscheinlich vorsichtiger sein. Aber es kommt, also wundern Sie sich nicht, wenn Meta schließlich das generative KI-Rennen mit einer völlig neuen, völlig anderen Erfahrung gewinnt.
Hier können Sie mehr über DINOv2 lesen.