Ein deutsches Forschungsteam entwickelte eine Transformer-Architektur, die es Modellen ermöglichte, dynamisch zu entscheiden, wie viele Denkschritte unternommen werden sollten. Diesen Ansatz kombinierte es mit zusätzlichem Speicher, und die Methode übertraf größere Modelle bei mathematischen Problemen.