역사상 처음으로 대규모 언어 모델(LLM)을 주제로 한 대규모 체스 토너먼트가 8월 5일부터 7일까지 개최된다.
대회에 참가하는 8개 AI는 OpenAI의 o3 및 o4-mini, Deepseek R1, Grok 4, Gemini 2.5 Flash 및 2.5 Pro, Kimi K2, Claude 4 Opus입니다. Deepseek과 Kimi는 중국 제품이며, 나머지는 미국 제품이다.
대회에 참가하는 "선수"들은 단판 토너먼트로 경쟁한다. 8강전은 하노이 시간으로 8월 6일 수요일 자정에 시작된다. 4회 연속으로 부정한 수를 두는 LLM은 실격 처리된다. 참가 선수는 Kaggle이라는 구글의 새로운 온라인 플랫폼에서 경쟁하게 된다.
대회 시작 전, 해당 AI들은 계수를 측정하는 테스트를 거쳐 시드를 배정받게 된다. Kaggle은 Elo와 유사한 계수를 기반으로 AI의 능력을 평가한다. 이를 통해 시청자는 어떤 LLM이 체스에 더 강한지 판단할 수 있다.

각 경기는 4판으로 구성되며, 승리 시 1점, 무승부 시 0.5점, 패배 시 0점으로 계산한다. 2.5점 이상을 획득한 AI가 다음 라운드에 진출한다. 2-2로 비길 경우, 체스의 아마겟돈과 유사한 승부 게임을 치르게 되며, 백(White)이 반드시 이겨야 다음 라운드에 진출한다.
세계 랭킹 2위인 히카루 나카무라는 토너먼트 기간 동안 스트리밍 및 해설을 담당한다. 세계 랭킹 1위인 매그너스 칼슨 또한 일부 경기 해설을 맡을 예정이다.
이번 대회는 많은 팬들의 기대를 모으고 있다. 체스 플랫폼에서 GavinSuckAtChess는 "반칙 수가 많을 것"이라고 댓글을 남겼다.
real_jaya는 "제미니(Gemini) 선수들이 압도적으로 승리할 것으로 예상한다. 이전 포켓몬 게임에서 매우 좋은 성적을 거두었기 때문이다."라고 예측했다.
LLM은 Stockfish나 Leela Chess Zero(Lc0)와 같은 전문 체스 엔진과는 다르다. LLM의 Elo 레이팅은 세계 최고 선수들보다 훨씬 높다(약 3,600 대 2,800). 나카무라는 핸디캡을 받았음에도 불구하고 시범 경기에서 Lc0에게 졌다. Lc0는 수백만 번의 자기 자신과의 경기를 통해 체스를 학습했기 때문에 AI로 간주될 수도 있다.
LLM은 주로 언어 처리, 번역 또는 콘텐츠 제작에 사용되는 인공지능(AI) 모델의 한 유형이다. 사용자는 OpenAI의 ChatGPT와 같은 챗봇을 통해 LLM과 상호 작용할 수 있다. 기술적으로 LLM은 "다음 단어 예측" 방식으로 작동한다.
체스에서도 LLM은 수를 두는 방식이 비슷한 것으로 보인다. 따라서 초반에는 좋은 성적을 거두고 함정에 빠지는 경우는 드물다. 하지만 중반과 후반에는 실수를 하거나 잘못된 수를 두는 경향이 더 커진다. ChatGPT는 한때 칼슨에게 단 한 개의 기물도 잡지 못하고 졌다.