Claude Opus 4.7 Rezension: Ist es des Titels „Stärkstes Modell“ würdig?
Originaltitel: „Opus 4.7 war nie als ‚stärkstes Modell‘ gedacht: Alle haben Claudes Geschwindigkeit so hochgelobt, dass er mit Anthropics Tempo nicht mithalten kann.
Originalquelle: Silicon Pro
Am 16. April 2026 veröffentlichte Anthropic offiziell Claude Opus 4.7, nur gut zwei Monate nach der Vorgängergeneration Opus 4.6.
Nach einer Reihe intensiver und hektischer Produkt- und Modellaktualisierungen in letzter Zeit vermittelte die Vorstellung eines neuen Modells von Anthropic natürlich einen grandiosen Eindruck. Sicherlich haben Sie schon viele Berichte über erstmalige Modellüberprüfungen gesehen, in denen alle Opus 4.7 als das "stärkste Modell" bezeichnen, was dazu führt, dass Begriffe wie "Die Menschheit ist am Ende" und "Arbeitslosigkeitsalarm" wieder einmal für Aufsehen sorgen.
Aber schauen wir uns doch einmal an, was Anthropic tatsächlich veröffentlicht hat.
Der Ton dieser Veröffentlichung ist tatsächlich recht ungewöhnlich.
In der Ankündigung erklärte Anthropic direkt: Die Leistungsfähigkeit von Opus 4.7 ist nicht so gut wie die von Claude Mythos Preview – wobei Mythos nur wenigen Partnern wie Apple, Google, Microsoft und Nvidia zur Verfügung steht und für normale Entwickler und Benutzer nicht zugänglich ist.
Darüber hinaus ist noch bemerkenswerter als diese Rhetorik, dass es nicht nur schwächer ist als das legendäre Mythos, sondern in einigen wichtigen Bereichen sogar schwächer als das Vorgängermodell.
Eine ungewöhnliche Zahl in der Leistungstabelle von Opus 4.7: Der Long Context Benchmark MRCR v2 @1M sank von 78,3 % in Opus 4.6 auf 32,2 %, ein Rückgang um 46 Prozentpunkte.
Es kommt äußerst selten vor, dass eine Flaggschiffmodell-Iteration ihre eigenen Stärken halbiert.
Und das war eine Entscheidung, die es ganz allein getroffen hat.
Während also alle weiterhin blindlings jedes einzelne Modell als das „stärkste“ loben, fallen sie tatsächlich hinter Anthropics eigenem Tempo zurück!

Es kümmert sich nicht einmal darum, dieses Autowaschproblem anzugehen.
Opus 4.7 war eine Veröffentlichung, die nie den Anspruch erheben sollte, das „stärkste Modell“ zu sein. Es handelte sich um eine Markteinführung mit klaren Kompromissen, eine Art „Präzisionsmesser“-Ansatz, der sich von den verschiedenen Markteinführungsstrategien anderer Topmodellhersteller in der Vergangenheit unterschied. Es ist auch eine neue Richtung, der sich die führenden Hersteller heute gemeinsam zuwenden, da sie eindeutig das Gefühl haben, dass der „große Sprung nach vorn“ des Modells selbst nicht mehr nachhaltig ist – Anthropic hat sich in gewissem Maße den Veröffentlichungsstrategien von Unternehmen wie Apple und Microsoft in ihrer sehr ausgereiften Phase der Produktvermarktung angenähert.
Dies könnte die eigentliche Bedeutung von 4.7 sein.
1. Programmierkenntnisse: Reale Verbesserungen hinter den Zahlen
Um diese Veränderungen besser zu verstehen, ist es natürlich am besten, zunächst einen genauen Blick darauf zu werfen, was sie diesmal tatsächlich gebracht haben.
Hier finden Sie die vollständige Übersicht über die Opus 4.7-Version – was sich verbessert hat, was sich verschlechtert hat, Feedback von Entwicklern aus erster Hand und ob eine Migration erforderlich ist.
Offizielle Ankündigung: https://www.anthropic.com/news/claude-opus-4-7
Die Codierungsleistung steht im Mittelpunkt dieser Version von Opus 4.7.

Der SWE-bench-Verifizierungswert (500 echte GitHub-Issues, bei denen die Modelle Patches erstellen müssen, die die Tests bestehen) ist von 80,8 % in Opus 4.6 auf 87,6 % in Opus 4.7 gestiegen, eine Verbesserung um fast 7 Prozentpunkte. Damit ist es das leistungsstärkste unter den öffentlich verfügbaren Modellen. Im Vergleich zu den 80,6 % des Gemini 3.1 Pro ist der Unterschied signifikant.
SWE-bench Pro ist eine anspruchsvollere Version, die einen kompletten Engineering-Workflow in vier Programmiersprachen abdeckt. Opus 4.7 ist von 53,4 % auf 64,3 % gestiegen, ein Zuwachs von 11 Prozentpunkten. Im Vergleich zu GPT-5.4 mit 57,7 % und Gemini 3.1 Pro mit 54,2 % liegt Opus 4.7 in diesem Benchmark deutlich vorn.
CursorBench ist ein praktischer Benchmark von Cursor, der speziell die Qualität der Programmierunterstützung eines Modells in einer realen IDE-Umgebung misst. Opus 4.6 erreichte 58 %, während Opus 4.7 auf 70 % sprang, eine Verbesserung um 12 Prozentpunkte. Cursor-Mitbegründer Michael Truell erklärte in der offiziellen Mitteilung: „Dies ist ein bedeutender Sprung in den Fähigkeiten und ermöglicht ein stärkeres kreatives Denken bei der Bewältigung von Herausforderungen.“
Von Partnern getestete Daten:
• Rakuten: Die Anzahl der von Opus 4.7 gelösten Produktionsaufgaben ist dreimal so hoch wie die von Opus 4.6, bei gleichzeitig zweistelligen Steigerungen der Codequalität und der Testqualität.
· Fabrik: Die Erfolgsquote bei den Aufgaben stieg um 10-15 %, wodurch die Misserfolge während des Trainings deutlich reduziert wurden.
• Cognition (Devins Firma): Das Modell "kann stundenlang ohne Unterbrechung arbeiten".
• CodeRabbit: Die Trefferquote stieg um über 10 %, „etwas schneller als im GPT-5.4 xhigh-Modus“.
• Bolt: Bei längeren Anwendungs-Build-Aufgaben übertraf Opus 4.7 Opus 4.6 und zeigte im besten Fall eine Verbesserung von bis zu 10 %, ohne die in der Vergangenheit aufgetretenen Regressionsprobleme.
• Terminal-Bench 2.0: Opus 4.7 befasste sich mit drei Aufgaben, die kein vorheriges Claude-Modell (oder Konkurrenzmodell) bewältigen konnte, darunter eine, die repositoryübergreifendes Multi-File-Reasoning erforderte, um eine Race Condition zu beheben.

Diese Datensätze weisen in eine Richtung: Opus 4.7 hat eine deutliche Verbesserung bei komplexen Programmieraufgaben mit langer Dauer, dateiübergreifender Verarbeitung und Kontextpflege gezeigt. Damit werden die größten Beschwerden der Nutzer über Opus 4.6 in den letzten zwei Monaten direkt behoben – Aufgaben, die mitten in der Ausführung abgebrochen wurden, und Fehler, die zu Problemen mit mehreren Dateien führten.
II. Visuelles Wahrnehmungsvermögen: Die am meisten unterschätzte Verbesserung in dieser Version
Der Benchmark für visuelle Genauigkeit der XBOW stieg von 54,5 % auf 98,5 % . Dies ist keine schrittweise Verbesserung, sondern ein Quantensprung, der einen kompletten Umbau darstellt.
Spezifische Spezifikationsänderungen:
• Die maximale Bildauflösung wurde von rund 1,15 Millionen Pixeln (längste Kante 1.568 Pixel) auf etwa 3,75 Millionen Pixel (längste Kante 2.576 Pixel) erhöht, mehr als das Dreifache der vorherigen Generation.
• Die Modellkoordinaten entsprechen nun 1:1 den tatsächlichen Pixeln , wodurch die manuelle Skalierungsfaktorumrechnung bei Aufgaben der Computer Vision entfällt.
• CharXiv Visual Reasoning Benchmark: Ohne Werkzeug 82,1 %, mit Werkzeug 91,0 %

Welche wesentlichen Konsequenzen ergeben sich daraus?
Für das Produktteam, das sich mit Computeranwendungen befasst, könnte dieses Upgrade von entscheidender Bedeutung sein. Der Computereinsatz in der Opus 4.6-Ära befand sich in einem Zustand, in dem er zwar für Demos geeignet war, aber noch nicht produktionsreif – die Fehlklickrate war zu hoch und unvorhersehbar. Eine visuelle Genauigkeit von 98,5 % bedeutet, dass diese Funktion zum ersten Mal die Schwelle für einen zuverlässigen Einsatz erreicht hat. Mehrere Tech-Blogs stellten in ihren Rezensionen direkt fest: Falls Sie Ihren Kauf eines Computerprodukts aufgrund der hohen Fehlklickrate in Opus 4.6 aufgeschoben haben, hat Version 4.7 dieses Problem beseitigt.
Direktes Feedback auf Reddit (r/ClaudeAI): Einige Nutzer erwähnten: „Die Verbesserung des Sehvermögens ist von entscheidender Bedeutung.“ Ich habe schon viele Edge-Projekte durchgeführt, bei denen ich versucht habe, das Modell iterativ in einer visuellen Feedbackschleife zu verbessern, der Effekt war jedoch immer chaotisch. Ich bin sehr gespannt, wie Version 4.7 dieses Problem lösen wird.
Neben der Computernutzung zählen dazu auch folgende Anwendungsfälle: Dokumentenscanning-Analyse (Lesen kleinerer Schriftarten, Erkennen feinerer Details in Diagrammen), Screenshot-Interpretation, Dashboard-Anwendungen und komplexe PDF-Verarbeitung.
Kostenüberlegung: Bilder mit höherer Auflösung verbrauchen mehr Token. Wenn Ihr Anwendungsszenario keine hohe Bilddetailgenauigkeit erfordert, wird empfohlen, vor der Eingabe eine Herunterskalierung durchzuführen.

III. Der größte Rückschlag: Zusammenbruch des Langzeitkontexts
MRCR v2 @1M (Million-Token Long-Context Recall):
• 4.6: 78,3 %
• 4,7: 32,2 %
Ein Einbruch um 46 Prozentpunkte, von fast 80 % auf ein Drittel.
Dieser Rückgang ist in der Geschichte der Modellgenerationen des Flaggschiffs nahezu beispiellos. MRCR v2 war eine Funktion, die von Anthropic in der Opus 4.6-Ära stark beworben wurde – damals lauteten die genauen Worte von Anthropic: „Es hat sich eine qualitative Veränderung in einem Kontext ergeben, in dem ein Modell tatsächlich nutzbar ist.“ Bei Version 4.7 ist diese „qualitative Veränderung“ vollständig verschwunden.
Warum passiert das? Der Tokenizer wurde geändert.
Opus 4.7 verwendet einen neuen Tokenizer, und der gleiche Eingabetext führt nun zu etwa 1,0-1,35 -mal so vielen Token, wobei der genaue Multiplikator je nach Inhaltstyp variiert.
Die unmittelbaren Folgen sind:
• Das nominelle Kontextfenster von 200K/1M ist weiterhin vorhanden, aber die gleiche Textmenge benötigt jetzt weniger Platz.
• Der tatsächliche Tokenverbrauch für Agenten-Workflows mit langer Aufgabenzeit ist um etwa 35 % gestiegen.
• Die Preisgestaltung bleibt gleich (Einsatz 5 $, Ausgabe 25 $ pro Million Token), aber die tatsächlichen Nutzungskosten sind gestiegen.
Anthropic gibt offiziell an, dass der neue Tokenizer „die Effizienz der Textverarbeitung verbessert hat“, aber Benchmark-Daten zeigen einen deutlichen Rückgang in Szenarien mit langem Kontext.
Die Suchfunktionen haben sich ebenfalls verschlechtert:
• BrowseComp (Web Deep Information Retrieval): Opus 4.6 lag bei 83,7 %, während Opus 4.7 bei 79,3 % lag.
• Der GPT-5.4 Pro erreichte in diesem Bereich 89,3 %, der Gemini 3.1 Pro 85,9 %, und der Opus 4.7 belegt derzeit den letzten Platz unter den wichtigsten Konkurrenzmodellen.
Suche und lange Texte gehören für viele Unternehmensanwender zu den häufigsten Anwendungsfällen.
Feedback von Entwicklern aus erster Hand von Hacker News (Beitrag mit 275 Upvotes, 215 Kommentaren, Quelle: HN-Diskussion):
„Das Abschalten des adaptiven Denkens und das manuelle Erhöhen des Anstrengungsreglers haben mich wieder zu meiner Ausgangsleistung zurückgebracht.“ Formulierungen wie „Es sieht in unseren internen Tests gut aus“ reichen nicht mehr aus; alle haben dasselbe Problem. „In Version 4.7 werden lesbare Zusammenfassungen der Argumentationstoken nicht mehr standardmäßig in die Ausgabe aufgenommen; Sie müssen der API-Anfrage `display: summarized` hinzufügen, um sie zu erhalten.“
Dies sind alles Probleme, die von tatsächlichen Nutzern gemeldet wurden. Dies ist jedoch auch eine Entscheidung, die Anthropic proaktiv getroffen hat.
Vier, neues Verhaltensmerkmal: Selbstbestätigung und wörtlichere Anweisungen folgen
Eine bemerkenswerte Aussage in der offiziellen Ankündigung von Opus 4.7 lautet: Das Modell validiert seine Ausgabe, bevor es die Ergebnisse meldet.
Das technische Team von Hex lieferte während der Tests ein konkretes Beispiel: Wenn Daten fehlen, meldet Opus 4.7 wahrheitsgemäß „Daten existieren nicht“, anstatt eine scheinbar vernünftige, aber tatsächlich erfundene Antwort zu geben – eine Falle, in die Opus 4.6 tappen konnte. Die Einschätzung der Fintech-Plattform Block lautete: „Es kann seine eigenen Logikfehler bereits in der Planungsphase erkennen, wodurch die Ausführung beschleunigt wird und eine deutliche Verbesserung gegenüber dem vorherigen Claude-Modell entsteht.“
Die Selbstbestätigung hat jedoch eine weitere damit verbundene Verhaltensänderung zur Folge: Opus 4.7 interpretiert Anweisungen wörtlicher.
Dies stellt ein erhebliches Migrationsrisiko dar. Wenn Sie die Anweisungen für Opus 4.6 sorgfältig abgestimmt haben, wird 4.7 möglicherweise nicht wie 4.6 „zwischen den Zeilen lesen“, sondern sich strikt an die wörtliche Bedeutung halten, die Sie geschrieben haben. Anthropic erwähnte dies ausdrücklich im offiziellen Migrationsleitfaden und empfahl, vor der Bereitstellung von Version 4.7 Regressionstests für wichtige Eingabeaufforderungen durchzuführen.
Ein praktischer Hinweis vom CTO von Hex: Im Bereich des geringen Aufwands entspricht die Leistung von Opus 4.7 in etwa der des mittleren Aufwandsbereichs von Opus 4.6.
Fünftens, Mechanismus zur Steuerung des Denkprozesses: xhigh, Aufgabenbudgets und /ultrareview
Bei Opus 4.6 ereignete sich ein Ereignis, das das Vertrauen der Benutzer beeinträchtigte: Am 9. Februar wurde adaptives Denken als Standardmodus eingeführt, und am 3. März wurde die offizielle Standard-Desinfektionstiefe des Claude-Codes von der höchsten Stufe auf mittel herabgesetzt, mit der Begründung, dass ein Gleichgewicht zwischen „Intelligenz, Latenz und Kosten“ angestrebt werden müsse. Dieses Ereignis, das als „Geheimdienstgate“ bezeichnet wurde, erregte breite Aufmerksamkeit, nachdem ein leitender Angestellter bei AMD es auf GitHub in Frage gestellt hatte.
Die Antwort von Opus 4.7 bestand darin, den Benutzern eine explizitere Kontrolle über die Argumentationstiefe zu geben.
sehr hoher Aufwand : Eine neue Intensitätsstufe für das Denken, die zwischen den bestehenden hohen und maximalen Stufen liegt. Claude Code hat nun alle geplanten Standardeinstellungen auf xhigh aktualisiert.
Die Entwicklergemeinschaft hat jedoch eine direkte Frage zu xhigh, wie ein Reddit-Nutzer erklärte: „Opus 4.6 ist standardmäßig auf mittel eingestellt, 4.7 auf xhoch.“ Mich interessiert die Begründung für diese Entscheidung, da eine Erhöhung der Aufwandsstufe offensichtlich zu einem höheren Tokenverbrauch führt.“
Mit anderen Worten: Was die Nutzer als eine Lösung sehen, die die Kontrolle wieder dem Nutzer zurückgibt, ist in Wirklichkeit eine Erhöhung des Standardtarifs, was bedeutet, dass für dieselbe Aufgabe nun mehr Token verbraucht werden müssen. Zusammen mit den Änderungen am Tokenizer bedeutet dies eine doppelte Kostensteigerung.
Aufgabenbudgets (in der öffentlichen Beta-Phase) : Ein Mechanismus zur Token-Budgetkontrolle für lange Aufgaben. Die Entwickler legen ein Gesamttoken-Budget fest (mindestens 20.000), und das Modell kann den verbleibenden Saldo während der Ausführung dynamisch ermitteln, um die Ressourcen entsprechend zuzuweisen. Dies dient dazu, einen Abbruch mittendrin aufgrund von Token-Überausgaben zu verhindern und unnötigen Rechenaufwand zu vermeiden.
Claude Code New /ultrareview Befehl: Eine spezielle Code-Review-Sitzung mit Schwerpunkt auf Fehlerbehebung und Designfragen, bei der einmalig eine gründliche Überprüfung durchgeführt wird. Pro- und Max-Nutzer erhalten 3 kostenlose Sitzungen pro Monat.
Automatikmodus für maximale Benutzeranzahl geöffnet: Bisher nur im Enterprise-Plan verfügbar, jetzt auch für Max-Nutzer zugänglich. Im Automatikmodus kann Claude selbstständig Entscheidungen treffen, wodurch die Notwendigkeit, Benutzer zur Eingabe aufzufordern, reduziert wird. Boris Cherny, Leiter des Claude-Code-Teams, erklärte: „Geben Sie Claude eine Aufgabe, lassen Sie sie ausführen und kommen Sie zurück, um die verifizierten Ergebnisse zu erhalten.“
Abschnitt Sechs: Benchmark-Übersicht – Siege und Niederlagen
Nachfolgend sind die aktuell veröffentlichten wichtigsten Benchmark-Daten aufgeführt (Quelle: Anthropic Official System Card and Partner Evaluations).
Programmierung und Ingenieurwesen (Opus 4.7 Leading)

Vision und Multimodalität (Opus 4.7 Deutlich führend)

Wissensarbeit (Opus 4.7 Führung)

Umfassende Bewertung (Opus 4.7 macht deutliche Fortschritte)

Allgemeines logisches Denken (Drei Grundprinzipien stimmen im Wesentlichen überein)

Dieser Maßstab ist gesättigt und stellt keine effektive Wettbewerbsgrundlage mehr dar.
Forschungsaufgabentyp (GPT-5.4 führt, Opus 4.7 fällt zurück)

Kontext der Langform (Opus 4.7 zeigt signifikante Regression)

Zusammenfassung der Modellauswahllogik: In den Bereichen Programmierung, Agentenentwicklung, Bildverarbeitung und finanzrechtliches Wissensmanagement hat Opus 4.7 einen klaren Vorteil; bei forschungsintensiven Aufgaben und der Suche in offenen Netzwerken ist GPT-5.4 stärker; in Szenarien mit längeren Kontexten fällt Opus 4.7 weit hinter seinen Vorgänger zurück, was der besorgniserregendste Punkt ist.
Abschnitt Sieben: Sicherheitsbarriere – Mythos' Meilenstein
Dieser Abschnitt wird in Pressemitteilungen oft als „Standardaussage zum Thema Sicherheit“ übersehen, ist aber der Schlüssel zum Verständnis der aktuellen Strategie von Anthropic.
Am 7. April kündigte Anthropic das Projekt Glasswing an: die Bereitstellung der Claude Mythos Preview für neun Partner, darunter Apple, Google, Microsoft, Nvidia, Amazon, Cisco, CrowdStrike, JPMorgan Chase und Broadcom, speziell für defensive Cybersicherheitsszenarien.
Mythos ist das bisher leistungsstärkste Modell von Anthropic. Laut The Hacker News kann es selbstständig Zero-Day-Schwachstellen aufspüren und Tausende bisher unbekannter Sicherheitslücken in wichtigen Betriebssystemen und Browsern identifizieren. Aufgrund dieser Fähigkeit wird jedoch auch ein erhebliches Missbrauchsrisiko vermutet, weshalb die Software nicht öffentlich zugänglich gemacht wird.
Opus 4.7 ist das erste Testbeispiel dieser Art. Während der Trainingsphase reduzierte Anthropic aktiv die Fähigkeit des Modells, Cyberangriffe zu starten (wobei die defensiven Fähigkeiten erhalten blieben) und implementierte ein Echtzeit-Barrieresystem zur automatischen Erkennung und Blockierung von Cybersicherheitsanfragen mit hohem Risiko. In der ursprünglichen Ankündigung hieß es: „Wir werden aus dem tatsächlichen Einsatz von Opus 4.7 lernen, um die Wirksamkeit dieser Barriere zu ermitteln, bevor wir entscheiden, ob wir sie auf Modelle der Mythos-Ebene ausweiten.“
Mit anderen Worten: Jeder Entwickler, der Opus 4.7 verwendet, hilft Anthropic dabei, den Sicherheitszaun zu kalibrieren.
Gizmodos Rezension: Diese Veröffentlichung verfolgt eine „kühne Marketingstrategie – sie bewirbt ihr neues Modell proaktiv als ‚im Allgemeinen weniger leistungsfähig als andere Optionen‘“, was bei Flaggschiff-Veröffentlichungen äußerst selten ist.
Wenn Sicherheitsexperten Opus 4.7 für legitime Penetrationstests, Schwachstellenforschung oder Red Teaming nutzen müssen, müssen sie sich für die Teilnahme am Cyber Verification Program bewerben.
8. Preisgestaltung und Migration: Nominalkosten bleiben gleich, Realkosten steigen
Preisgestaltung: Input bei 5 $/Million Tokens, Output bei 25 $/Million Tokens, genau wie bei Opus 4.6. Die API-Modell-ID lautet claude-opus-4-7. Zu den unterstützten Plattformen gehören Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, wobei auch GitHub Copilot integriert ist.
Wie bereits erwähnt, führt die Änderung des Tokenizers nun dazu, dass für dieselbe Eingabe etwa 1,0-1,35 Mal mehr Token generiert werden. Zusammen mit den zusätzlichen Denk-Token bei höheren Standard-Aufwandsniveaus können die tatsächlichen Kosten für einen langen Task-Agent-Workflow das 2- bis 3-fache der Kosten von Opus 4.6 unter vergleichbaren Einstellungen betragen.
Anthropic hat außerdem die Gültigkeitsdauer des Claude-Code-Caches von einer Stunde auf fünf Minuten reduziert – das bedeutet, dass der Kontext-Cache abläuft, wenn Sie Ihren Computer länger als fünf Minuten verlassen und dann zurückkehren. Dies erfordert ein erneutes Laden und beschleunigt den Tokenverbrauch. In der Reddit-Community haben sich viele Nutzer darüber beschwert, dass „das Datenvolumen schneller aufgebraucht ist als ein Wasserfall“.
Liste der gravierenden Änderungen für bestehende Opus 4.6-Benutzer:
1. Der Parameter „Erweiterte Denkbudgets“ wurde entfernt; seine Übergabe führt zu einem 400-Fehler. Stattdessen sollte der adaptive Denkmodus verwendet werden.
2. Abtastparameter wie Temperatur, top_p und top_k wurden entfernt; zur Steuerung des Ausgabeverhaltens sollten Eingabeaufforderungen verwendet werden.
3. Strengere wörtliche Befolgung der Anweisungen - Die für Opus 4.6 feinabgestimmte Eingabeaufforderung muss erneut getestet werden; ein direkter Tausch der Modell-ID ist nicht zulässig.
4. Die Änderungen am Tokenizer haben die Tokenanzahl verändert. Es wird empfohlen, zunächst Testläufe mit realem Datenverkehr durchzuführen, bevor eine vollständige Migration erfolgt.
5. Die Standardausgabe enthält keine Zusammenfassungen der Inferenztoken mehr. Sie müssen die Option `display: summarized` explizit festlegen, um die zusammengefassten Daten abzurufen.
Bewährte Vorgehensweise: Der offizielle Migrationsleitfaden von Anthropic empfiehlt, Opus 4.7 vor der endgültigen Umstellung mit repräsentativem Produktionsdatenverkehr zu testen und den Tokenverbrauch sowie die Aufgabenqualität zu vergleichen, bevor eine Entscheidung getroffen wird.
Präzision bei der Ausführung kann beängstigend sein.
Opus 4.7 ist ein gezieltes Upgrade mit klaren Vorteilen, aber auch erheblichen Kompromissen. Darüber hinaus wurden diese alle von Anthropic selbst entworfen, und größtenteils müssen Sie die Kosten dafür selbst tragen.
Die positiven Aspekte der Entwicklung dieses Modells:
• 87,6 % bei SWE-bench Verified, 64,3 % bei SWE-bench Pro, 70 % bei CursorBench und eine Verdreifachung der Produktionsaufgaben bei Rakuten – dies sind die spürbaren Verbesserungen der Programmierfähigkeiten in einer Produktionsumgebung.
• Überarbeitung der visuellen Fähigkeiten (XBOW 54,5 % → 98,5 %, 3-fache Steigerung der Auflösung, pixelgenaue 1:1-Abbildung), wodurch erstmals ein zuverlässiger Einsatz per Computer ermöglicht wird
• xhigh Tier, Aufgabenbudgets, /ultrareview – eine explizite Antwort auf die Barriere der „Vereinfachung“.
• 90,9 % bei Großkanzleien, 64,4 % bei Finanzberatern – deutlich führend in spezialisierten Wissensbereichen wie Finanzrecht.
Aufgegebene Aspekte:
• MRCR v2 @1M sank von 78,3 % auf 32,2 %, wodurch sich die Fähigkeiten im Langzeitkontext nahezu halbierten.
• BrowseComp sinkt von 83,7 % auf 79,3 %, die Suchleistung wird von GPT-5.4 und Gemini 3.1 Pro übertroffen.
• Tokenizer-Änderungen + erhöhter Aufwand bei der Standardeinstellung + verkürzte Cache-TTL = dreifache versteckte Preiserhöhung
• Mythos hält sich stabil, was darauf hindeutet, dass Anthropic noch stärkere Karten auf der Hand hat, diese aber nicht ausspielt.
Diese Version ist die bisher authentischste, nicht das "stärkste Modell" oder das "stärkste öffentliche Modell", sondern vielmehr: eine Iteration mit klaren Kompromissen.
Neuesten Meldungen zufolge hat Claude Code im Februar bereits einen Jahresumsatz von 2,5 Milliarden Dollar erzielt. Opus 4.7 ist der nächste Schritt in dieser Online-Reihe.
Codierung und Bildverarbeitung sind Ergänzungen, langer Kontext und Suche sind Subtraktionen, der Preis bleibt nominal, aber die Rechnung steigt. Anthropic arbeitet mit Opus 4.7 an einem Ausgleich – sowohl um den durch Opus 4.6 entstandenen Vertrauensschaden zu beheben als auch um eine realweltliche Sicherheitsübung durchzuführen, um sich auf die breitere Öffnung von Modellen auf Mythos-Niveau in der Zukunft vorzubereiten. Wichtiger noch: Das Unternehmen hat sich zum Ziel gesetzt, seine derzeitige führende Position voll auszuschöpfen, die Vorliebe der Nutzer für seine Produkte in eine Trägheit umzuwandeln, der man sich auch durch Generationen unvollkommener, aber unverzichtbarer Produkte nicht entziehen kann, und dann eine Art von ambivalenter, aber dennoch tragfähiger Nutzererfahrung mit echtem kommerziellem Wert zu schaffen, wie sie reife Unternehmen wie Apple erreicht haben, und ein wirklich wertvolles Ökosystem aufzubauen.
Das könnte Ihnen auch gefallen

Arthur Hayes' neuer Beitrag: Jetzt gilt: "Kein Handel"

DWF-Ausführlicher Bericht: KI übertrifft Menschen bei der Yield-Farming-Optimierung im DeFi-Bereich, aber komplexe Transaktionen hinken immer noch 5x hinterher.

Der Ablauf der Rhythm X Zhihu-Veranstaltung wurde enthüllt: Skills-Demo, Keynote-Vortrag und Roundtable zum Thema Agenten- und On-Chain-Finanzierung.

Als 5 Millionen KI-Agenten Telegram überfluteten

Wenn proaktive Market Maker beginnen, Initiative zu ergreifen

Die Finanztricks des Krypto-Giganten Kraken

## Outline
Title: Ein Krypto-Wal staked $85 Millionen HYPE Tokens ab – Hype und Aufsehen erregende Bewegung im Kryptomarkt –…

# Outline
H1: Sicherheitsprobleme bei Ledger Nano S+ Geräten aus China enthüllt H2: Einführung in die gefälschten Ledger Geräte H3:…

## Article Outline
H1: ListaDAO verneint Sicherheitsverletzung durch Drittkontrakt H2: Einleitung – Kontext zu ListeDAO und kürzlichen Sicherheitsbedenken – Einführung in…

# Outline
H1: Drift Protocol Hack – Ein Großangriff erschüttert die Krypto-Welt H2: Der Angriff im Detail H3: Was geschah…

Krypto-Klarheitsgesetz hat 30% Chance, dieses Jahr zu passieren, sagt Wintermute’s Hammond
Laut Ron Hammond von Wintermute liegt die Wahrscheinlichkeit, dass das Klarheitsgesetz 2026 verabschiedet wird, bei 30%. Bankopposition, besonders…

X Produktchef erwägt Konzept zur Behebung des Kryptowährungseinbruchs
Nikita Bier, der Produktchef von X, schlägt vor, “etwas” zu entwickeln, um die Kryptowährungsschlappe zu beheben. Bitcoin ist…

Dieser wenig bekannte Token hat einen 6.000-prozentigen Anstieg verzeichnet, und Händler versuchen herauszufinden, warum
RAVE, der native Token von RaveDAO, zeigt einen massiven Anstieg von über 6.000 % und ist kurzzeitig unter…

Klarheitsgesetz im Senat wieder eingeführt, könnte das institutionelle Interesse an XRP beeinflussen
Das Klarheitsgesetz zielt darauf ab, Zuständigkeitsstreitigkeiten zwischen der SEC und CFTC über digitale Vermögenswerte zu klären. Dies könnte…

RaveDAO (RAVE) Kursprognose 2026–2030
Der aktuelle Preis von RaveDAO (RAVE) liegt bei 8,35 $ mit einem erstaunlichen Anstieg von 199 % innerhalb…

Europas Bitcoin-Treasury-Ansatz wird die Strategie nicht kopieren: PBW 2026
Europäische Unternehmen in Bitcoin-Treasury-Strategien werden sich von US-Modellen abheben, bedingt durch unterschiedliche kapitalmarktbedingte Hürden. Thomas Vogel äußert, dass…

Französischer Minister kündigt neue Maßnahmen nach Kryptokidnapping an
Die Zahl der Krypto-Entführungen in Frankreich ist drastisch gestiegen, mit 41 Fällen im Jahr 2026. Die Regierung plant…

Tom Lee verkündet Ende des “Mini-Crypto-Winters”, sieht Ether über 60.000 USD
Tom Lee sieht das Ende des jüngsten Krypto-Rückgangs, bezeichnet ihn als “Mini-Crypto-Winter”. Er prognostiziert, dass Ether in den…





