
Studie: LLMs erzeugen 63 % mehr 'Code Smells' als Entwickler
Spezialist für LLMs, AI Agents und KI-Infrastruktur

Spezialist für LLMs, AI Agents und KI-Infrastruktur
Eine aktuelle Studie zeigt, dass von LLMs generierter Code 63,34 % mehr 'Code Smells' enthält als von Menschen geschriebener. Dies führt zu Problemen wie schlechter Wartbarkeit, erhöhtem Sicherheitsrisiko und höheren Entwicklungskosten. Unternehmen müssen Maßnahmen ergreifen, um Qualität und Sicherheit zu gewährleisten.
'Code Smells' sind Muster oder Strukturen im Code, die auf potenzielle Probleme hinweisen, ohne direkt Fehler zu verursachen. Sie können jedoch langfristig die Wartbarkeit, Lesbarkeit und Sicherheit von Software negativ beeinflussen. Häufige Beispiele sind:
Mit der steigenden Popularität von Large Language Models (LLMs) wie GPT-4 oder Codex wird automatisierte Code-Generierung immer häufiger eingesetzt. Doch eine neue Studie von arXiv zeigt, dass von LLMs erstellter Code signifikant mehr 'Code Smells' enthält als von Menschen geschriebener.
Laut der Studie enthalten Codes, die mithilfe von LLMs generiert wurden, 63,34 % mehr 'Code Smells' als manuell geschriebene Programme. Die häufigsten Probleme waren:
Diese Probleme gefährden nicht nur die Softwarequalität, sondern stellen auch Sicherheitsrisiken dar, insbesondere in sicherheitskritischen Anwendungen.
Um die durch LLMs erzeugten 'Code Smells' zu minimieren, sollten Unternehmen folgende Maßnahmen ergreifen:
Automatisierte Codeanalyse:
Qualität der Trainingsdaten verbessern:
Regelmäßige Code-Reviews:
Anpassung der LLM-Architektur:
Die Studie verdeutlicht, dass LLMs zwar ein nützliches Werkzeug in der Softwareentwicklung darstellen, aber auch ernsthafte Herausforderungen mit sich bringen. Unternehmen müssen sich der Risiken bewusst sein und proaktiv in die Qualitätssicherung investieren. Fortschritte in der Entwicklung von LLMs, wie erwartet bei Modellen wie GPT-5, könnten helfen, die Identifikation und Vermeidung von 'Code Smells' zu verbessern.
'Code Smells' sind Muster im Code, die auf potenzielle Probleme hinweisen, wie lange Methoden oder überladene Klassen, die die Wartbarkeit und Sicherheit beeinträchtigen können.
LLMs basieren auf Trainingsdaten und neigen dazu, suboptimale Muster zu reproduzieren, insbesondere wenn die Daten fehlerhaften oder ineffizienten Code enthalten.
Durch den Einsatz von automatisierten Codeanalyse-Tools, regelmäßige menschliche Code-Reviews und die Verbesserung der Trainingsdaten für LLMs.
💡 Dica Pro: Die Integration von Tools wie SonarQube direkt in den CI/CD-Pipeline-Prozess kann sicherstellen, dass LLM-generierter Code sofort auf 'Code Smells' überprüft wird, bevor er in die Produktionsumgebung gelangt.