Tech News

Technik & Digital

KI-Verbesserungen und Architekturoptimierung


Die zentralen Thesen

  • RDNA 4, AMDs Grafikarchitektur der nächsten Generation, soll technologische Verbesserungen und Leistungssteigerungen bringen.
  • AMDs Unterstützung für LLVM weist auf architektonische Verbesserungen von RDNA 4 hin und verbessert die Codegenerierung für kommende GPUs.
  • RDNA 4 wird KI-bezogene Änderungen beinhalten, wie eine verbesserte Effizienz von WMMA-Anweisungen und Unterstützung für 8-Bit-Präzision, wodurch die KI-Leistung verbessert wird.


Es wird erwartet, dass RDNA 4 die Grafikarchitektur der nächsten Generation von AMD sein wird, und wir erwarten technische Verbesserungen sowie eine Leistungssteigerung. Wir beginnen jetzt, ein klareres Bild davon zu bekommen, was RDNA 4 mit sich bringen könnte, wenn es auf den Markt kommt, was voraussichtlich irgendwann in diesem Jahr der Fall sein wird. Typisch für AMD erwarten wir, dass zuerst High-End-Modelle auf den Markt kommen, später günstigere Modelle.


Dank der Unterstützung von LLVM durch AMD sind die konkretesten Anzeichen für die Zukunft zu erkennen. Für diejenigen, die es nicht kennen: LLVM ist eine Reihe von Compiler- und Toolchain-Technologien, und AMD stellt sicher, dass es beim Start mit kommenden GPUs kompatibel sein wird. Eine Analyse von Chips und Käse Ich habe diese Änderungen durchlaufen, da LLVM als Compiler in der Lage sein muss, die ISA zu verstehen, um Code zu generieren. Dies stellt architektonische Verbesserungen der RDNA-Grafikarchitektur dar und berücksichtigt nicht die reine Leistung, die wir in den veröffentlichten GPUs sehen werden.


Zur Einleitung: Vor sechs Monaten gab es Gerüchte, dass AMD seine Flaggschiff-GPUs eingestellt hat, die RDNA 4 einläuten sollten. Es gab auch Gerüchte, dass das Unternehmen wieder auf einen monolithischen Chip umsteigen würde, anstatt ein Multi-Chip-Modul (MCM) zu verwenden ), das das Unternehmen mit RDNA 3 debütierte. Das ist grundsätzlich keine schlechte Sache, da Nvidia für seine Ada Lovelace-Architektur monolithische Dies verwendet. Dennoch ist es ein Rückschritt für AMD, ein Unternehmen, das erhebliche Ressourcen auf Chiplet-Designs und fortschrittliche Verpackungstechnologien für GPUs und CPUs konzentriert hat.


Große KI-Änderungen

AMD will zu Nvidia aufschließen

KI-Verbesserungen und Architekturoptimierung

AMD Radeon RX 7900 XT und Radeon RX 7900 XTX, nebeneinander


Die größten Veränderungen (meiner Meinung nach) hervorgehoben durch Chips und Käse sind die KI-bezogenen Änderungen am ISA. Grundsätzlich sind GPUs aufgrund ihrer mathematischen Fähigkeiten und der Unterstützung paralleler Operationen dank der Hunderten von Kernen, die sie an Bord haben, unglaublich leistungsfähig für die KI. Matrizen sind häufig das Herzstück neuronaler Netze und stellen eine effiziente Methode zum Speichern, Darstellen und Bearbeiten von Daten dar. GPUs verfügen über spezielle Matrix-Matheoperationen, und im Laufe der Zeit haben wir gesehen, dass Datentypen mit geringerer Genauigkeit genau genug sind, um akzeptabel zu sein.


Mit RDNA 3 wurden WMMA-Anweisungen (Wave Matrix Multiply Accumulate) eingeführt, und RDNA 4 wird deren Effizienz verbessern und gleichzeitig Anweisungen hinzufügen, die eine 8-Bit-Präzision anstelle einer nur 16-Bit-Präzision unterstützen. 8-Bit-Präzision bedeutet eine höhere Recheneffizienz und eine geringere Speichernutzung, was dazu beiträgt, die KI-Leistung im Allgemeinen zu beschleunigen. Außerdem ist für die Übertragung von Daten im 8-Bit-Format weniger Bandbreite erforderlich als im 16-Bit-Format, was wiederum die KI-Leistung verbessert.


Damit gibt es aber auch Verbesserungen im Umgang mit dünn besetzten Matrizen. Sparse-Matrizen sind Matrizen mit vielen Nullelementen, da jede Multiplikation mit Null in der Summe Null ergibt. Aufgrund der Komprimierbarkeit dieser Matrizen können auch Speicher und Bandbreite reduziert werden, was einen Anreiz bietet, spärliche Matrizen anders zu handhaben. Mit RDNA 4 gibt es neue SWMMAC-Anweisungen (Sparse Wave Matrix Multiply Accumulate), die darauf ausgelegt sind, dünn besetzte Matrizen effizienter zu verarbeiten. Das folgende Bild, das von Nvidia geteilt wurde, zeigt, wie ein unterschiedlicher Umgang mit spärlichen Matrizen hilfreich sein kann.


Eine dünn besetzte Matrix, komprimiert auf eine kleinere Matrix

Quelle: Nvidia


Leider können wir nicht wirklich ableiten, wie dies die Leistung verbessern wird. Wir können nur sagen, dass dies der Fall sein wird, aber um wie viel, ist nicht genau klar. Chips und Käse behaupten, dass es könnte Steigern Sie die Leistung um bis zu das Doppelte, aber auch das ist eine Vermutung. Wenn Sparsity auf diese Weise gehandhabt wird, gibt es jedoch potenziell große Verbesserungen bei der Speichernutzung, der Bandbreiteneffizienz, der Rechenleistung und sogar der Energieeffizienz.

Verbesserungen beim Vorabruf und der Kohärenz

Erhöhte Prefetch-Distanz und softwaregesteuertes Prefetching

Ein Bild, das eine AMD Radeon RX 7900 XTX GPU zeigt, die auf einem Prüfstand installiert ist.


Software-Prefetching in GPUs ist eine Technik zur Verbesserung der Effizienz und Leistung des Speicherzugriffs, indem die Daten und Anweisungen, die bald benötigt werden, vorhergesehen und in den Cache geladen werden, bevor sie tatsächlich von den Verarbeitungseinheiten angefordert werden. Dieser proaktive Ansatz zielt darauf ab, die Latenz beim Speicherzugriff – einen häufigen Engpass bei der Rechenleistung – zu reduzieren, indem sichergestellt wird, dass die erforderlichen Daten im Cache verfügbar sind, näher am Ort der Berechnung, wodurch die Zeit minimiert wird, die die GPU damit verbringt, auf den Datenabruf zu warten Haupterinnerung.


Wie entdeckt von Chips und KäseRDNA 4 scheint die anfängliche Prefetch-Distanz von 64 x 128 Byte auf 256 x 128 Byte zu erhöhen. Dies umfasst 32 KB Code im Gegensatz zu den ursprünglichen 8 KB. RDNA 4 scheint auch Anweisungen hinzuzufügen, die es der Software ermöglichen könnten, den Vorabruf zu steuern. Prefetching wird üblicherweise auf CPUs und nicht auf GPUs durchgeführt, da es auf der GPU rechenintensiv sein kann.

Flexiblere Kohärenzbehandlung

Darüber hinaus wird die Kohärenzbehandlung wahrscheinlich flexibler werden. Unter Kohärenzbehandlung in GPUs versteht man die Verwaltung der Datenkonsistenz über verschiedene Caches innerhalb der GPU sowie zwischen GPU und CPU. In einer Computerumgebung, insbesondere in Systemen mit mehreren Prozessoren oder Kernen (wie CPUs und GPUs), ist es wichtig sicherzustellen, dass alle Komponenten eine konsistente Datenansicht haben. Diese Konsistenz ist von entscheidender Bedeutung, wenn verschiedene Teile des Systems von denselben Speicherorten lesen oder darauf schreiben können.


Bitfeldkarte des MUBUF-Formats in einer AMD-GPU


In RDNA 3 verfügten Speicherzugriffsanweisungen über ein globales Kohärenzbit, das gesetzt werden konnte, um eine globale Kohärenz zu ermöglichen. Wenn dieses Bit beim Laden gesetzt wäre, würden die L0- und L1-Caches übersehen und direkt zum L2-Cache gewechselt. Wenn das GLC-Bit für einen Datenladebefehl gesetzt ist, wird der Befehl gezwungen, die lokalen L0- und L1-Caches zu umgehen, die privat für eine Compute Unit (CU) oder Shader Engine (SE) sind, und stattdessen direkt zum L2-Cache zu wechseln . Der L2-Cache wird von mehreren CUs oder SEs gemeinsam genutzt und ist somit ein zentraler Punkt für die Gewährleistung der Kohärenz.


Dieser Ansatz stellt effektiv sicher, dass ein Ladevorgang die neueste Version der Daten abruft und alle Schreibvorgänge widerspiegelt, die möglicherweise von Threads vorgenommen wurden, die auf anderen CUs oder SEs ausgeführt werden. Durch die Verwendung des L2-Cache als Kohärenzpunkt kann die GPU eine konsistente Ansicht des Speichers über ihre vielen Kerne hinweg aufrechterhalten, was für parallele Verarbeitungsaufgaben von entscheidender Bedeutung ist, bei denen mehrere Kerne an unterschiedlichen Teilen eines Problems arbeiten, aber Ergebnisse oder Datenaktualisierungen austauschen müssen.


Eine Änderung mit RDNA 4 könnte bedeuten, dass Daten statt über den GPU-weiten L2-Cache über den L1-Cache von Threads gemeinsam genutzt werden könnten. Abhängige Threads müssten auf derselben SE ausgeführt werden, obwohl theoretisch immer noch Leistungssteigerungen durch eine erhöhte Nutzung des L1-Cache möglich sind.

RDNA 4 wird voraussichtlich noch in diesem Jahr erscheinen

Wir hoffen jedenfalls

Ein Bild zeigt eine AMD Radeon RX 7700 XT GPU auf einem Schreibtisch mit Marmoroberfläche.


Da AMD damit beginnt, Patches zu veröffentlichen, die die Kompatibilität von LLVM mit RDNA 4 sicherstellen, und da in den letzten Monaten immer mehr Gerüchte aufkamen, scheint es unvermeidlich, dass die ersten RDNA 4-GPUs in diesem Jahr auf den Markt kommen. Wir sind zwar nicht sicher, ob sie bei ihrer Markteinführung zu den besten GPUs gehören werden, aber es ist klar, dass zumindest einige der architektonischen Verbesserungen ziemlich groß sind. Dabei handelt es sich um bedeutende KI-Verbesserungen, und wenn sie genutzt werden, könnte AMD dabei helfen, die Lücke zu Nvidia sogar ein wenig zu schließen.


Wenn Sie jedoch eine GPU für KI kaufen möchten, ist es sehr wahrscheinlich, dass Sie selbst mit RDNA 4 immer noch keine AMD-Karte für KI kaufen werden. Es mag bei bestimmten Workloads hilfreich sein, aber Nvidia wird mit ziemlicher Sicherheit seine Krone behalten. Wir werden jedoch bereit sein und warten; Wettbewerb ist immer gut für die Verbraucher.



Source link