ForschungK.I.Technik

Roboter mit Chat-GPT gesteuert, führt zu neuen Fähigkeiten..

...wie Selfies machen.

In einer bahnbrechenden Entwicklung haben Forscher der Universität Tokio eine Verbindung zwischen großen Sprachmodellen und Robotern geschaffen, die menschenähnliche Gesten ermöglicht, ohne auf traditionelle hardwareabhängige Steuerungen angewiesen zu sein. Der neueste humanoider Roboter namens Alter3, erstmals im Jahr 2016 eingesetzt, wird nun von GPT-4 geführt, um verschiedene Simulationen durchzuführen, darunter Selfies machen, einen Ball werfen, Popcorn essen und Luftgitarre spielen. Früher erforderten solche Aktionen spezifisches Codieren für jede Aktivität, aber die Integration von GPT-4 führt zu breiten neuen Fähigkeiten bei Robotern, die natürliche Sprachanweisungen verstehen und lernen können.

Roboter, die von KI angetrieben werden, waren bisher hauptsächlich auf die Erleichterung der grundlegenden Kommunikation zwischen Mensch und Roboter in einem Computer beschränkt und nutzten LLMs, um lebensähnliche Reaktionen zu interpretieren und vorzutäuschen. Doch jetzt ist eine direkte Steuerung möglich, indem die sprachlichen Ausdrücke menschlicher Handlungen auf den Roboter übertragen werden, und zwar durch Programmcode. Dieser Fortschritt wird als „ein Paradigmenwechsel“ bezeichnet.

Alter3, der komplexe Bewegungen im Oberkörper ausführen kann, einschließlich detaillierter Gesichtsausdrücke, verfügt über 43 Achsen, die die Bewegung des menschlichen Muskel-Skelett-Systems simulieren. Er ruht auf einer Basis, kann jedoch nicht gehen, obwohl er das Gehen nachahmen kann.

Die Aufgabe, die Koordination so vieler Gelenke zu codieren, war eine massive Aufgabe, die hoch repetitive Bewegungen erforderte. Dank LLM sind die Forscher nun von dieser iterativen Arbeit befreit. Sie können einfach mündliche Anweisungen geben, die die gewünschten Bewegungen beschreiben, und eine Anweisung zur Erstellung von Python-Code geben, der den Android-Motor ausführt. Alter3 behält Aktivitäten im Gedächtnis, und die Forscher können seine Aktionen verfeinern und anpassen, was zu schnelleren, reibungsloseren und präziseren Bewegungen führt.

Ein Beispiel für die natürlichen Sprachanweisungen, die Alter3 für das Erstellen eines Selfies gegeben wurden, lautet wie folgt:
– Einen großen, fröhlichen Lächeln zeigen und die Augen öffnen, um Aufregung zu zeigen.
– Den Oberkörper schnell leicht nach links drehen und eine dynamische Haltung einnehmen.
– Die rechte Hand hochheben und so tun, als würde man ein Telefon halten.
– Den rechten Ellbogen beugen, das Telefon näher zum Gesicht bringen.
– Den Kopf leicht nach rechts neigen, um eine verspielte Stimmung zu erzeugen.

Die Verwendung von LLMs in der Robotikforschung „definiert die Grenzen der Zusammenarbeit zwischen Mensch und Roboter neu und ebnet den Weg für intelligentere, anpassungsfähigere und sympathischere Roboterwesen“, so die Forscher. Sie fügten ihren Aktivitäten einen Hauch von Humor hinzu. In einer Szene gibt der Roboter vor, eine Tüte Popcorn zu essen, nur um herauszufinden, dass sie jemand anderem gehört. Übertreibende Gesichtsausdrücke und Armbewegungen vermitteln Überraschung und Verlegenheit.

Der mit Kameras ausgestattete Alter3 kann Menschen „sehen“. Die Forscher stellten fest, dass Alter3 sein Verhalten durch Beobachten menschlicher Reaktionen verbessern kann, ähnlich wie die Imitation von Neugeborenen, die Verhaltensforscher bei Neugeborenen beobachten. Die „Zero-Shot“-Lernfähigkeit von GPT-4-verbundenen Robotern „hat das Potenzial, die Grenzen der Zusammenarbeit zwischen Mensch und Roboter neu zu definieren und den Weg für intelligentere, anpassungsfähigere und sympathischere Roboterwesen zu ebnen.“ Das auch auf GitHub liegende Projekt, mit einem schönem Titel „From Text to Motion: Grounding GPT-4 in a Humanoid Robot ‚Alter3′“ wurde von Takahide Yoshida, Atsushi Masumori und Takashi Ikegami verfasst und ist auf dem Preprint-Server arXiv verfügbar.

Ähnliche Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Schaltfläche "Zurück zum Anfang"