GPT-2 Ghost Market explore la mécanique cachée de GPT-2, nourrie par les échos du Web. Tout commence avec WebText, un corpus de 40 Go composé de pages web sélectionnées via des liens Reddit ayant obtenu au moins trois votes positifs. OpenAI a utilisé ce corpus pour entraîner GPT-2, bien que le dataset complet n'ait jamais été rendu public.
Pour combler ce manque, des chercheurs ont créé OpenWebText, une reproduction ouverte de WebText, permettant à la communauté d'explorer et de comprendre les fondements de GPT-2. Mais comment GPT-2 traite-t-il ces données ? Imaginez un marché nocturne animé, où chaque couche du modèle est une allée, et chaque tête d'attention un marchand. Ces marchands discutent, négocient et décident collectivement de l'importance de chaque mot dans une phrase. C'est le mécanisme de l'attention multi-tête qui évalue les relations entre les mots pour construire une compréhension contextuelle.