Tech News

Technik & Digital

Gemini Nano erhält multimodale Fähigkeiten; Kommt später in diesem Jahr zu Pixel


Googles laufende I/O 2024-Veranstaltung ist zur Brutstätte der KI geworden. Neben mehreren Updates wie einem KI-Videogenerator namens Veo, der mit Sora von OpenAI, Gemini Flash 1.5, konkurrieren soll, hat Google auch angekündigt, multimodale Funktionen in Gemini Nano, sein On-Device-LLM-Modell, einzuführen. Das bedeutet, dass Gemini Nano neben Texteingaben auch Audio, Bilder und Dateien eingeben kann.

Für diejenigen, die es nicht wissen: Gemini Nano ist ein leichtes und kleines LLM-Modell, das KI-Aufgaben auf dem Gerät ausführen kann. Google kündigte im Dezember letzten Jahres den Gemini Nano zusammen mit Gemini Ultra und Gemini Pro an. Derzeit ist Gemini Nano nur für die Google Pixel 8-Serie und das Samsung Galaxy S24 verfügbar. Allerdings akzeptiert Gemini Nano im aktuellen Zustand Eingaben nur im Textformat.

Mit multimodalen Fähigkeiten wird Gemini Nano in der Lage sein, kontextbezogene Informationen zu erhalten und auch Eingaben aus Tönen, Bildern und gesprochener Sprache zu erhalten. Was die Verfügbarkeit angeht, sagt Google, dass es später in diesem Jahr multimodale Funktionen für Gemini Nano einführen wird, beginnend mit Pixel.





Source link