GPT-2 Ghost Market

GPT-2 Ghost Market explore la mécanique cachée de GPT-2, nourrie par les échos du Web. Tout commence avec WebText, un corpus de 40 Go composé de pages web sélectionnées via des liens Reddit ayant obtenu au moins trois votes positifs. OpenAI a utilisé ce corpus pour entraîner GPT-2, bien que le dataset complet n'ait jamais été rendu public.

Pour combler ce manque, des chercheurs ont créé OpenWebText, une reproduction ouverte de WebText, permettant à la communauté d'explorer et de comprendre les fondements de GPT-2. Mais comment GPT-2 traite-t-il ces données ? Imaginez un marché nocturne animé, où chaque couche du modèle est une allée, et chaque tête d'attention un marchand. Ces marchands discutent, négocient et décident collectivement de l'importance de chaque mot dans une phrase. C'est le mécanisme de l'attention multi-tête qui évalue les relations entre les mots pour construire une compréhension contextuelle.

Comprendre la visualisation :

Regardez les départs : chaque trajectoire part d’une sphère orange ; c’est le token ou la couche racine.
Suivez le relief : plus la courbe monte sur Z pour Uncertainty/Perplexity, plus le modèle doute ou s’étonne.
Notez les sauts latéraux : sur la courbe Attention Flow, les bonds en arrière illustrent la mémoire à long term
Utilisez les boutons +/- et la souris pour naviguer et zoomer. Passez sur la légende pour obtenir plus d'informations sur les trajectoires.

Sources :

WebText 2: high quality webpages scraped from Reddit links
OpenWebText
OpenAI GPT-2
GPT-2 Detailed Model Architecture
GPT-2 model

Visualisation crée avec Google Gemini 2.5, Claude 4 à partir d'un échantillon des data disponibles.

↑ Lab

Google Sites

Report abuse