Inscrivez-vous pour découvrir le futur dès aujourd’hui
<div class="newsletter-cta-description">
<p class="article-paragraph skip">Des innovations incontournables à la pointe de la science et de la technologie</p>
</div>
</div>
</div>
</section>
<p class="pw-incontent-excluded article-paragraph skip">Lundi dernier, un exploit qui semblait impossible s'est produit : Emma Boettcher, une bibliothécaire de Chicago, a réussi à battre le légendaire joueur de “Jeopardy!” James Holzhauer, un parieur professionnel de Las Vegas connu pour sa série de victoires impressionnantes. Emma a écrit sa thèse de master sur le deep learning appliqué à “Jeopardy!”.</p>
<p class="article-paragraph skip">Et nous avons trouvé sa recherche.</p>
<p class="article-paragraph skip">Son mémoire de 2016, intitulé “Prédire la difficulté des questions de trivia en utilisant des caractéristiques textuelles”, était le sujet de son master à l’École de l'information et des sciences de la bibliothèque de l’Université de Caroline du Nord à Chapel Hill. Dans l’émission “Jeopardy!”, les auteurs notent la difficulté des indices en fonction de leur valeur en dollars : 200 $, 400 $, 600 $, etc. Boettcher a voulu déterminer si un algorithme pouvait évaluer la difficulté des questions via le machine learning. Pour ce faire, elle s'est concentrée sur deux éléments clés :</p>
<p class="article-paragraph skip"><strong>1. Lisibilité</strong>. Cela concerne la facilité ou la difficulté qu'un indice “Jeopardy!” pose à comprendre. Pour ceux qui ne le savent pas, les indices “Jeopardy!” sont formulés comme des réponses, et les participants doivent les transformer en questions. Cette approche diffère considérablement des quiz traditionnels, où les candidats reçoivent des questions directes. À “Jeopardy!”, ils se voient donner une catégorie et doivent reformuler un indice en question, ce qui rend le tout plus complexe.</p>
<p><strong>2. Besoin d'information</strong>. C’est assez simple : connaissez-vous la réponse ? Dans “Jeopardy!”, plus la valeur en dollars est élevée, plus la réponse est présumée obscure. Cependant, la perception de ce qui est obscur peut varier d'un individu à l'autre. De nombreux brillants champions de “Jeopardy!” peuvent réciter la table périodique des éléments, mais peuvent être déconcertés par des questions sur des célébrités modernes. Par exemple, un indice sur l’alter ego de Miley Cyrus a été noté à 400 $ alors qu'un sur Ziggy Stardust était à 2 000 $. Boettcher tente de clarifier cette subjective perception de la difficulté.</p>
<p class="article-paragraph skip">Ainsi, Boettcher a conçu un programme d'analyse textuelle pour examiner ces deux aspects sur une échelle de cinq points, cherchant à répondre aux questions de recherche suivantes :</p>
<p class="article-paragraph skip"><em>Quelles parties d'un indice rendent celui-ci généralement difficile ?</em></p>
<p class="article-paragraph skip"><em>Quels éléments de lisibilité compliquent un indice “Jeopardy!” ?</em></p>
<p class="article-paragraph skip"><em>Quels thèmes influencent la difficulté des indices dans “Jeopardy!” ?</em></p>
<p class="article-paragraph skip">Comment a-t-elle procédé ? Voici l’aspect fascinant : </p>
<p class="article-paragraph skip">En utilisant la classification de la difficulté des trivia de l'ancien champion Ken Jennings, Boettcher a rassemblé des indices de deux saisons entières depuis le J-Archive, une base de données regroupant tous les indices de chaque épisode de l'émission, tout en écartant des cas particuliers comme les tournois pour adolescents.</p>
<p class="article-paragraph skip">Elle a ensuite évalué ces indices selon plusieurs critères, notamment la longueur (nombre de mots), les médias (presences de contenu audio-vidéo), la formulation (complexité des phrases), le sujet (niveau d’obscurité des connaissances requises), et les unigrams (ou séquences de mots). Pour analyser la formulation, elle a utilisé Python NLTK, un ensemble d'outils de traitement du langage. Pour les unigrams, elle a généré des notations avec un logiciel de text mining baptisé Light Side.</p>
<p class="article-paragraph skip">Et que a-t-elle découvert ?</p>
<p class="article-paragraph skip"><em>Bien que les unigrams et l'appartenance à un sujet n’aient pas été des caractéristiques significatives pour prédire la difficulté, d'autres facteurs comme les médias, la longueur et la formulation ont eu un impact important.</em></p>
<p class="article-paragraph skip">Autrement dit, une augmentation des données s'accompagne d'une hausse de la difficulté des indices “Jeopardy!”, rendant en fait la tâche plus simple pour les concurrents. Plus un indice est explicite et informatif, plus il est probable que le participant soit correct dans sa réponse, indépendamment du sujet.</p>
<p class="article-paragraph skip">Quel impact la recherche de Boettcher pourrait-elle avoir en dehors des quiz ? Selon ses conclusions :</p>
<p class="article-paragraph skip"><em>Cette découverte pourrait être bénéfique pour ceux qui étudient des Tweets ou d'autres documents au format restreint. Ainsi, cette recherche met en lumière l'importance de la forme des documents sans avoir besoin de connaître leur contenu exact, simplifiant ainsi les démarches en text mining.</em></p>
<p class="article-paragraph skip">En résumé, dans la collecte de données, il pourrait être plus judicieux d’oublier les détails spécifiques des données et de se concentrer sur leur structure plutôt que sur leur contenu. D'ailleurs, Emma Boettcher n'est pas la première à avoir utilisé l'analyse de données pour préparer le jeu. Roger Craig, qui détenait précédemment le record des gains d'une journée, a également eu recours à ce type de recherche pendant ses études, affirmant que cela lui avait été bénéfique.</p>
<p class="article-paragraph skip">Quant à savoir si son travail a aidé Boettcher à gagner, voici un échange intéressant entre elle et Alex Trebek :</p>
<p class="article-paragraph skip"><em><strong>TREBEK : </strong>Emma Boettcher ! Cette jeune femme est une bibliothécaire de Chicago qui a écrit un mémoire sur notre émission ?</em></p>
<p class="article-paragraph skip"><em><strong>BOETTCHER : </strong>C'est exact, Alex. J'ai mené une série d'expériences de text mining pour déterminer si un ordinateur pouvait prédire la difficulté d'un indice, en se basant sur des critères comme sa longueur, les mots utilisés, la syntaxe et la présence d'éléments audio-visuels.</em></p>
<p class="article-paragraph skip"><em><strong>TREBEK : </strong>Et qu'as-tu découvert ?</em></p>
<p class="article-paragraph skip"><em><strong>BOETTCHER : </strong>Que c'est très difficile à réaliser (rit).</em></p>
<p class="article-paragraph skip">Les faits restent : Il faut toujours être rapide avec le buzzer et connaître les réponses. Tout le data mining au monde ne remplacera jamais cette compétence. Heureusement pour Emma Boettcher, elle n'en avait pas besoin. Troisième victoire pour l'ingéniosité humaine, au moins jusqu'à ce que <a href="https://en.wikipedia.org/wiki/Watson_(computer)#Jeopardy!" rel="noreferrer" target="_blank">Watson</a> se remette à faire parler de lui.</p>
<p class="article-paragraph skip"><em>Avec des contributions supplémentaires de Dan Robitzski</em></p>
<p class="article-paragraph skip"><strong>LIRE ENCORE : </strong><a href="https://cdr.lib.unc.edu/indexablecontent/uuid:e597c0c2-9395-47c9-8e5e-c7f722b9c7e0" rel="noreferrer" target="_blank">Prédiction de la difficulté des questions de trivia en utilisant des caractéristiques textuelles</a> [UNC.edu]</p>
Sommaire
ToggleFAQ
Comment les compétences d’Emma Boettcher l’ont-elles aidée dans “Jeopardy!” ?
Emma s’est appuyée sur des techniques avancées d’analyse de données pour mieux anticiper la difficulté des indices, ce qui lui a permis de mieux se préparer.
Quels sont les critères principaux qui rendent un indice difficile ?
Les aspects tels que la lisibilité, la longueur, et l’existence de média jouent un rôle crucial dans l’appréciation de la difficulté d’un indice.
D’autres gagnants de “Jeopardy!” ont-ils utilisé des méthodes similaires ?
Oui, d’autres concurrents, comme Roger Craig, ont également utilisé des techniques d’analyse de données pour se préparer à l’émission, ce qui démontre l’importance de la préparation dans ce jeu.
Quel a été l’impact de cette recherche au-delà des jeux ?
Les conclusions de Boettcher peuvent être appliquées dans des domaines tels que l’analyse des réseaux sociaux, en simplifiant le processus de recherche et d’interprétation de données.
Pourquoi est-il important de comprendre la structure d’un indice plutôt que son contenu ?
Se concentrer sur la structure des données permet de simplifier l’analyse et de tirer des conclusions sans être submergé par les détails spécifiques qui peuvent être laborieux à traiter.
