ByteDance berichtete, dass seine Seed-Studie ergab, dass ein 7B langes multimodales Modell Fragen zu langen, bildreichen Dokumenten zuverlässiger beantwortete als viel größere Modelle und lernte, relevante Passagen zu finden, indem es Fragen beantwortete, anstatt Seiten abzuschreiben, selbst bei Dokumenten, die viermal länger waren als die während des Trainings verwendeten.