Die Ära der künstlichen Intelligenz hat eine Vielzahl fortschrittlicher Verarbeitungstechnologien mit sich gebracht, wobei zwei herausragende Technologien das Feld anführen: Grafikprozessoren (GPU) und neuronale Verarbeitungseinheiten (NPU). Obwohl beide dafür ausgelegt sind, komplexe Berechnungen durchzuführen, unterscheiden sie sich grundlegend in ihrem architektonischen Ansatz und ihrem funktionalen Zweck.
GPUs wurden ursprünglich entwickelt, um fortschrittliche Grafikverarbeitung zu bewältigen, insbesondere die dreidimensionale Darstellung in Computerspielen und professionellen Grafik-Anwendungen. Ihre Architektur basiert auf Hunderten oder Tausenden von kleinen, einfachen Verarbeitungskernen, die parallel arbeiten, was sie ideal macht, um identische mathematische Operationen gleichzeitig auf riesigen Datenmengen auszuführen. Diese Eigenschaft hat GPUs zu einem unverzichtbaren Werkzeug für maschinelles Lernen und Deep Learning gemacht, da Algorithmen der künstlichen Intelligenz intensive Matrixberechnungen erfordern, die sehr effizient in paralleler Verarbeitung durchgeführt werden können.
NPUs repräsentieren einen völlig anderen Ansatz zur Verarbeitung künstlicher Intelligenz. Sie sind speziell dafür ausgelegt, Aufgaben der Inferenz und des Trainings von neuronalen Netzwerken auf möglichst optimale Weise auszuführen. Ihre Architektur ahmt die Struktur biologischer Neuronen nach, mit Schwerpunkt auf der Durchführung von Operationen wie Faltung, Aktivierungsfunktionen und Matrixmultiplikation auf energieeffiziente und geschwindigkeitsoptimierte Weise. Im Gegensatz zu GPUs, die relativ universell sind, sind NPUs speziell an die Berechnungstypen angepasst, die neuronale Netzwerke kennzeichnen.
Der auffälligste Unterschied zwischen den beiden liegt in der Energieeffizienz. GPUs verbrauchen aufgrund der Notwendigkeit, hunderte von Verarbeitungskernen und fortschrittliche Kühlsysteme zu betreiben, erhebliche Mengen an Strom, manchmal mehrere hundert Watt. NPUs sind von Grund auf energieeffizient konzipiert und verbrauchen bei der Ausführung derselben KI-Aufgaben manchmal nur ein Zehntel des Stroms, den GPUs benötigen. Dadurch eignen sie sich besonders gut für mobile Geräte wie Smartphones und Tablets oder für Rechenzentren, die maximale Energieeffizienz benötigen.
In Bezug auf die Rohleistung haben GPUs in den meisten Fällen bei fortgeschrittenen Trainingaufgaben großer Sprachmodelle oder komplexer neuronaler Netzwerke weiterhin die Oberhand. Ihre rohe Rechenleistung und umfangreicher Speicher ermöglichen es ihnen, Modelle mit Milliarden von Parametern zu verarbeiten. Bei der Inferenz kleinerer Modelle oder spezifischer KI-Aufgaben können NPUs jedoch eine ähnliche oder sogar bessere Leistung bieten und dabei deutlich weniger Energie verbrauchen.
Die technologische Entwicklung auf diesem Gebiet führt zu einem interessanten Trend der Hybridisierung. Unternehmen wie Apple, Qualcomm und Intel integrieren NPUs in ihre Prozessoren neben traditionellen GPUs und schaffen so Lösungen, die die Vorteile beider Ansätze kombinieren. Dieser Trend ermöglicht es Geräten, NPUs für tägliche KI-Operationen wie Bilderkennung oder Verarbeitung natürlicher Sprache zu nutzen, während GPUs für fortgeschrittene Grafikaufgaben oder Berechnungen, die mehr Flexibilität erfordern, erhalten bleiben. Die Wahl zwischen GPU und NPU hängt weitgehend von der jeweiligen Anwendung ab. Für Forschung und Entwicklung neuer KI-Modelle bleiben GPUs aufgrund ihrer Flexibilität und Rechenleistung die bevorzugte Wahl. Andererseits bieten NPUs für Anwendungen für den Massenmarkt oder Geräte mit Energiebegrenzungen eine ausgezeichnete Lösung, die gute Leistung mit hoher Energieeffizienz kombiniert.