
DeepSWE mit 59% Genauigkeit im SWEBench-Verified bestätigt
Spezialist für LLMs, AI Agents und KI-Infrastruktur

Spezialist für LLMs, AI Agents und KI-Infrastruktur
DeepSWE, ein Open-Source-Coding-Agent von Together AI, hat im SWEBench-Verified eine Rekordgenauigkeit von 59% erreicht. Das auf Qwen3-32B basierende Modell nutzt Reinforcement Learning und übertrifft damit andere Lösungen wie StarCoder deutlich.
DeepSWE, ein Open-Source-Coding-Agent von Together AI, hat im rigorosen SWEBench-Verified eine bisher unerreichte Leistung erzielt. Mit einer Genauigkeit von 59% und einem Pass@1-Wert von 42,2% hebt sich DeepSWE deutlich von anderen Open-Source-Lösungen wie StarCoder und OpenAssistant ab.
SWEBench-Verified ist ein Benchmark, der strengen Prüfmechanismen unterliegt und sicherstellt, dass keine Datenkontamination die Ergebnisse beeinflusst. Datenkontamination tritt auf, wenn Modelle auf Daten getestet werden, die sie bereits während des Trainings gesehen haben. Diese Praxis kann die tatsächliche Leistungsfähigkeit eines Modells verzerren. Durch die manuelle Verifikation der Testdatensätze bietet SWEBench-Verified eine höhere Zuverlässigkeit und Genauigkeit bei der Bewertung von Coding-Agenten.
Die außergewöhnliche Leistung von DeepSWE basiert auf einer Kombination aus modernster Technologie und innovativen Trainingsmethoden:
Laut Agentica ermöglicht diese Kombination eine robuste und skalierbare Plattform, die speziell für Softwareentwickler konzipiert wurde.
Die Einführung von DeepSWE und SWEBench-Verified hat das Potenzial, die Softwareentwicklung grundlegend zu verändern. Zu den wichtigsten Vorteilen gehören:
Reinforcement Learning scheint sich als Schlüsseltechnologie für die Zukunft von KI-Agenten zu etablieren, insbesondere für Aufgaben, die sequenzielles Denken und kontinuierliches Lernen erfordern. DeepSWE demonstriert eindrucksvoll, wie diese Methodik in der Praxis angewendet werden kann.
Mit seinen beeindruckenden Ergebnissen im SWEBench-Verified setzt DeepSWE neue Maßstäbe für die Bewertung und Entwicklung von Coding-Agenten. Es ist wahrscheinlich, dass die Branche in naher Zukunft weitere rigorose Benchmarks und fortschrittliche KI-Methoden einführen wird, um die Standards in der Softwareentwicklung weiter zu erhöhen.
DeepSWE ist ein Open-Source-Coding-Agent von Together AI, der mit Reinforcement Learning trainiert wurde und eine Rekordgenauigkeit von 59% im SWEBench-Verified erreicht hat.
SWEBench-Verified ist ein Benchmark, der Datenkontamination durch strenge Prüfmechanismen und manuelle Verifikation verhindert, um realistische Leistungsbewertungen von KI-Coding-Agenten zu ermöglichen.
Reinforcement Learning ermöglicht es Modellen wie DeepSWE, aus kontinuierlichem Feedback zu lernen, was besonders für komplexe und sequenzielle Aufgaben wie Codierung vorteilhaft ist.
💡 Dica Pro: SWEBench-Verified verwendet eine einzigartige Methode der manuellen Datenverifikation, um sicherzustellen, dass Testergebnisse nicht durch Trainingsdaten beeinflusst werden. Dies macht es zu einer der zuverlässigsten Plattformen für die Evaluierung von Coding-Agenten.