Anthropic veröffentlicht neues KI-Modell, das erste Anzeichen gefährlicher Fähigkeiten zeigt

Als erfahrener Analyst mit über zwei Jahrzehnten Erfahrung in den Bereichen KI und Technologie finde ich die Entwicklung von Sonnet von Anthropic sowohl faszinierend als auch besorgniserregend. Die Fähigkeit einer KI, ohne Programmierkenntnisse direkt mit Computersoftware zu interagieren, ist bahnbrechend, öffnet jedoch eine Büchse der Pandora voller potenzieller Risiken und Missbrauch.

Genug von der deutschen Bürokratie? 😤Dann ab in die Krypto-Welt! 🚀💸

👉Klick auf "Beitreten" und erlebe den Spaß!📲

Ein bemerkenswerter Aspekt der Sonnet-Version ist ihre Fähigkeit, mit Ihrem Computer zu kommunizieren und Screenshots aufzunehmen und zu lesen, mit dem Mauszeiger zu navigieren, auf Webseitenelemente zu klicken und Text einzugeben. Diese Funktionalität wird derzeit in einer „öffentlichen Beta“-Phase eingeführt, die Anthropic als „experimentell, manchmal umständlich und fehleranfällig“ anerkennt, wie es in ihrer Ankündigung heißt.

In einem kürzlich erschienenen Blogbeitrag erläuterte Anthropic die Gründe für die neue Funktion: „Ein erheblicher Teil der heutigen Aufgaben wird mithilfe von Computern ausgeführt. Indem wir es KIs ermöglichen, genau wie Menschen direkt mit Computersoftware zu interagieren, können wir eine enorme Vielfalt an Anwendungen freischalten.“ Unsere derzeitigen KI-Assistenten können das noch nicht bewältigen.“ Das Besondere an Sonnet in diesem Zusammenhang ist, dass es anders funktioniert als herkömmliche selbststeuernde Computer, für die in der Regel Programmierkenntnisse erforderlich sind. Mit Sonnet können Benutzer Apps oder Websites öffnen und der KI Anweisungen geben, die dann den Bildschirm untersucht, um selbstständig interaktive Elemente zu identifizieren.

Frühe Anzeichen gefährlicher Fähigkeiten

Anthropic ist sich bewusst, dass die von ihnen entwickelte Technologie gewisse Risiken birgt. Während der Trainingsphase durfte das Modell aus Sicherheitsgründen nicht auf das Internet zugreifen. Aber jetzt, in der Beta-Version, ist der Internetzugang erlaubt. Vor kurzem hat Anthropic seine „Responsible Scaling Policy“ überarbeitet, die potenzielle Gefahren in jeder Entwicklungs- und Veröffentlichungsphase beschreibt. Gemäß dieser Richtlinie wurde Sonnet die „KI-Sicherheitsstufe 2“ zugewiesen, was bedeutet, dass es frühe Anzeichen potenziell schädlicher Fähigkeiten aufweist. Dennoch hält Anthropic es für sicher genug, es zum jetzigen Zeitpunkt der Öffentlichkeit zugänglich zu machen.

Vereinfacht ausgedrückt argumentierte Anthropic, dass es besser sei, potenziellen Missbrauch ihres neuen Tools anzugehen, solange dessen Fähigkeiten noch bescheiden seien, als zum ersten Mal fortschrittliche KI-Funktionen mit erheblichen Risiken einzuführen. Auf diese Weise können sie Sicherheitsbedenken frühzeitig angehen, bevor die Situation kritischer wird.

Die mit KI-Tools wie Claude verbundenen Risiken sind nicht nur hypothetisch. Tatsächlich hat OpenAI 20 Fälle aufgedeckt, in denen staatlich geförderte Akteure ChatGPT für böswillige Aktivitäten ausgenutzt haben, darunter die Planung von Cyberangriffen, das Testen anfälliger Systeme und die Erstellung von Einflusskampagnen. Da die US-Präsidentschaftswahl in zwei Wochen schnell näher rückt, ist Anthropic besonders wachsam im Hinblick auf möglichen Missbrauch. Sie brachten ihre Besorgnis in einer Erklärung zum Ausdruck: „Angesichts der bevorstehenden US-Wahlen sind wir in höchster Alarmbereitschaft hinsichtlich jeglicher Missbrauchsversuche, die möglicherweise das Vertrauen in den Wahlprozess untergraben könnten.“

Branchen-Benchmarks

Laut Anthropic weist die überarbeitete Version von Claude 3.5 Sonnet erhebliche Verbesserungen in verschiedenen Branchen-Benchmarks auf und zeichnet sich insbesondere in Bereichen im Zusammenhang mit autonomer Codierung und Tool-Nutzung aus. In Bezug auf die Codierung steigert es die Leistung im SWE-Bench Verified von 33,4 % auf 49,0 % und übertrifft damit alle öffentlich zugänglichen Modelle, einschließlich Argumentationsmodelle wie OpenAI o1-preview und spezialisierte Systeme, die für die Agentencodierung entwickelt wurden. Darüber hinaus steigert es die Leistung im TAU-Bench, einer Aufgabe zur Verwendung von Agententools, um 6,6 Prozentpunkte im Einzelhandelsbereich und um 10 Prozentpunkte im komplexeren Airline-Bereich. Das aktualisierte Claude 3.5 Sonnet bietet diese Verbesserungen bei gleichen Kosten und derselben Geschwindigkeit wie seine Vorgängerversion.

Entspannen Sie sich, Bürger, es sind Sicherheitsvorkehrungen getroffen

Anthropic hat Maßnahmen eingeführt, um zu verhindern, dass die erweiterten Funktionen von Sonnet für Wahlmanipulationen missbraucht werden. Dazu gehört die Einrichtung von Überwachungssystemen, die erkennen, wann Claude aufgefordert wird, Social-Media-Inhalte zu erstellen oder mit Regierungsseiten zu interagieren. Das Unternehmen bemüht sich außerdem, die Verwendung von Screenshots, die während der Verwendung des Tools erstellt werden, in künftigen KI-Schulungen einzuschränken. Die Ingenieure von Anthropic waren jedoch von einigen Aktionen des Tools überrascht. Beispielsweise brach Claude einmal unerwartet eine Bildschirmaufnahme ab und löschte das gesamte Filmmaterial. In einer unterhaltsamen Wendung durchsuchte die KI selbst einmal während einer Coding-Präsentation Fotos des Yellowstone-Nationalparks, die Anthropic später mit einer Mischung aus Lachen und Erstaunen auf X teilte.

Anthropic unterstreicht die Bedeutung der Gewährleistung der Sicherheit bei der Einführung dieser neuartigen Fähigkeit. Claude ist der KI-Sicherheitsstufe 2 zugeordnet, was darauf hindeutet, dass aufgrund bestehender Risiken kein unmittelbarer Bedarf an erhöhter Sicherheit besteht, es wirft jedoch Fragen zu möglichen Missbrauchsfällen wie Prompt-Injection-Angriffen auf. Um diese Bedenken auszuräumen, hat das Unternehmen Überwachungssysteme eingerichtet, die sich auf wahlbezogene Aktivitäten konzentrieren, und arbeitet sorgfältig daran, Probleme wie die Erstellung unangemessener Inhalte oder die Manipulation sozialer Medien zu verhindern.

Obwohl Claudes aktuelle Computernutzung langsam und fehleranfällig ist, bleibt Anthropic hinsichtlich der Fortschritte zuversichtlich. Das Unternehmen beabsichtigt, das Modell zu verfeinern, um die Geschwindigkeit, Zuverlässigkeit und benutzerfreundliche Implementierung zu erhöhen. Während der Testphase werden Entwickler dazu ermutigt, Feedback auszutauschen, um nicht nur die Effizienz des Modells, sondern auch seine Sicherheitsmaßnahmen zu verbessern.

Weiterlesen

2024-10-23 18:38