Forscher der Carnegie Mellon University haben einen neuen Benchmark entwickelt, der misst, wie KI-Agenten reale Schwachstellen in Googles V8-Engine ausnutzen können, und zeigten, dass Anthropics Claude Mythos GPT-5.5 um ein Vielfaches übertraf, dabei aber etwa zwölfmal so viel kostete.