Forscher von Apple, Stanford und der University of Washington stellten fest, dass gängige HTML-Extraktoren wesentlich unterschiedliche Inhalte von denselben Webseiten extrahierten, was dazu führte, dass große Teile des Internets bei den Trainingsdaten für Sprachmodelle unberücksichtigt blieben.