Anthropic berichtet von einer Sicherheitstechnik, die der Intuition widerspricht: Durch die Aktivierung von „Persona-Vektoren“ für Speichelleckerei/Bösartigkeit während des Trainings können diese Verhaltensweisen später reduziert werden, ohne die Leistung zu beeinträchtigen. Dies deutet auf skalierbare Ausrichtungsmethoden hin, die über die Steuerung nach dem Training hinausgehen.