AI 算了一遍 2026 世界杯:西班牙进决赛,巴西最终夺冠

问AI · 模型为何看好摩洛哥成为黑马淘汰荷兰?
随着 2026 世界杯越来越临近,大家最关心的问题也很直接:哪些球队能小组出线?哪些队会成为黑马?最后冠军又可能是谁?
以前做这种预测,通常要靠专家经验、赔率变化、球队状态和球迷直觉。但现在有了 AI 和历史比赛数据,我们可以换一种方式来看世界杯:把过去一百多年国际足球比赛的数据整理出来,再结合 2026 世界杯的实际分组和对阵,让模型根据球队历史表现、近期状态、进攻能力、防守能力、赛事强度等信息,给出一条完整的晋级预测路径。
这次我就尝试用 CodeBuddy 搭了一套世界杯预测流程:先获取国际足球历史比赛数据,再构造球队特征,训练胜率分类器,最后模拟小组赛、32 强、16 强、8 强、半决赛和决赛,生成一份完整的 2026 世界杯晋级预测。
当然,这不是“预言”,也不是说模型一定比人更懂球。现在AI这么强大,我们就可以充分使用AI进行一次数据驱动的世界杯推演:用历史数据和机器学习方法,看看在当前对阵条件下,模型会更看好谁。

FIFA数据获取和模型构建

历史数据拿到的是1872年到2024年,所有球队足球比赛的成绩。
https://www.kaggle.com/datasets/martj42/international-football-results-from-1872-to-2017
该数据集包含从 1872 年第一场正式比赛到 2026年的 49016 条国际足球比赛结果。比赛范围从 FIFA 世界杯到 常规友谊赛等等的数据。
图片
通过获取数据后,做成对应的特征。这里面主要是通过把历史中两支队伍的信息记录下来,包括:
  • 世界杯周期中球队的平均进球数。

  • 球队近5场比赛的平均进球数。

  • 球队在世界杯周期中的平均进球数。

  • 球队最近5场比赛的平均进球数。

  • 球队在世界杯周期中面临的平均国际足联排名。

  • 该球队在过去 5 场比赛中所面对的平均 FIFA 排名。

利用上面这些信息,我们就可以利用大模型,帮助我们快速制作一个胜率预测分类器,给出每场比赛的胜率结果。

利用Codebuddy进行预测

第一步,首先进行数据下载:
下载这个kaggle数据集:
https://www.kaggle.com/datasets/martj42/international-football-results-from-1872-to-2017
然后分析一下这个数据集的构造
图片
然后会得到一个具体的分析报告,我们就可以利用这些数据开始进行预测了
图片
results.csv 是核心数据,可用于:
计算各队历史胜率、进球能力分析主客场表现差异追踪近期表现趋势(form分析特定赛事(世界杯、预选赛)中的表现
goalscorers.csv 可用于:
分析各队进攻模式(进球时间分布)识别关键球员贡献点球转化能力分析
shootouts.csv 可用于:
分析各队点球大战心理素质淘汰赛预测辅助
第二步,获取26年世界杯的比赛队伍
首先先获取26年世界杯有哪些队伍参赛:
帮我获取 26年世界杯,小组赛的对阵情况
图片
之后,我们就可以拿到26年世界杯的所有参赛队伍名单
图片
而且codebuddy还帮我快速总结了一下
48支球队分入12个小组,每组4队比赛时间:6月11日 – 6月28日(小组赛阶段)揭幕战:🇲🇽 墨西哥 vs 南非 🇿🇦(6月11日,墨西哥城阿兹特克球场)晋级规则:每组前2名 + 8个最佳第三名 → 32强淘汰赛决赛:7月19日,新泽西大都会人寿体育场
还有死亡之组候选:
  • C组:巴西 + 摩洛哥(2022半决赛球队同组!)

  • H组:西班牙(世界第1) + 乌拉圭(世界第17)

  • K组:葡萄牙 + 哥伦比亚

  • L组:英格兰 + 克罗地亚

第三步,AI预测小组赛中哪支球队胜利
有了上面的所有数据,我们就可以很快的让AI大模型帮我们制作一个分类器,预测每支队伍的获取概率。
Q:利用获取到的kaggle数据集,还有对阵名单,训练一个分类器,帮我预测一下小组赛谁会出线。最后生成一份html页面进行展示
图片
模型很快就帮我们构造了一个GradientBoosting分类器,数据使用Kaggle的49,215场国际比赛历史数据(1872-2026),而在特征工程上,做了加权胜率、近期状态、世界杯表现、进球/失球数据、赛事重要度权重
A组方面,毫无疑问是墨西哥和韩国携手出现。其他组的情况如下:
  • B组:波黑、瑞士
  • C组:巴西、摩洛哥
  • D组:美国、土耳其
  • E组:德国、科特迪瓦
  • F组:荷兰、日本
图片
  • G组:比利时、伊朗
  • H组:西班牙、乌拉圭
  • I组:法国、塞内加尔
  • J组:阿根廷、阿尔及利亚
  • K组:葡萄牙、哥伦比亚
  • L组:英格兰、克罗地亚
图片
整体来看,强队出线概率普遍很稳,比如巴西、比利时、法国、阿根廷、英格兰、西班牙都在 97% 左右或以上。竞争比较激烈的组主要是 J 组和 K 组:J 组阿尔及利亚、奥地利差距不算大;K 组葡萄牙和哥伦比亚几乎并列,刚果民主共和国也还有一定机会。
还有可以给出8个最好的第三名成绩进入淘汰赛:
图片
第四步,预测淘汰赛的晋级名单
目前已经得到了所有进入淘汰赛的名单,接下来就可以预测最后的冠军了
上半区整体强弱分化比较明显。德国、法国、西班牙、比利时的晋级概率都很高,其中西班牙对阿尔及利亚达到 95.7%,比利时对南非达到 95.3%,法国对佛得角也有 89.4%,属于比较稳的晋级预测。德国面对瑞典也有 83.7%,说明模型仍然看好传统欧洲强队的淘汰赛稳定性。
图片
不过上半区最值得注意的是两场相对反常的预测。第一是 韩国 55.8% 击败瑞士,属于五五开偏韩国,说明这场悬念较大。第二是 摩洛哥 69.4% 击败荷兰,这是一个明显的冷门倾向,模型对摩洛哥的评价非常高,甚至认为它面对荷兰也有较大优势。
下半区同样是传统强队占优。巴西对日本有 87.0%,阿根廷对乌拉圭有 80.3%,葡萄牙对加纳有 93.8%,英格兰对刚果民主共和国有 65.9%。整体来看,巴西、阿根廷、葡萄牙仍然是下半区最稳的几支球队。
图片
下半区悬念主要集中在两场。科特迪瓦 vs 塞内加尔,科特迪瓦胜率只有 53.1%,几乎是全表最接近五五开的比赛。墨西哥 vs 厄瓜多尔,墨西哥胜率 68.5%,有优势但不是碾压。奥地利对加拿大 67.2%,也属于有优势但仍存在变数的对阵。
如果按预测胜率来看,本轮最稳的晋级队伍大致是:
西班牙、比利时、土耳其、葡萄牙、法国、巴西、克罗地亚、美国、德国。
最有看点的潜在冷门则是:
摩洛哥淘汰荷兰、韩国淘汰瑞士、科特迪瓦险胜塞内加尔。
再来看看16强到夺冠情况。
从 16 强开始,强队之间的碰撞明显变多。最早的焦点战就是 德国 vs 法国,法国以 61.5% 胜率晋级。另一边,摩洛哥延续黑马走势,以 83.0% 淘汰韩国,成为上半区最亮眼的非传统豪强。
图片
上半区的真正强势队伍是西班牙。西班牙先是在 16 强以 95.1% 淘汰克罗地亚,随后 8 强又以 89.6% 击败比利时,到了半决赛面对法国仍有 66.9% 的胜率。也就是说,西班牙是一路被模型高度看好,整体统治力非常强。
下半区则是巴西和葡萄牙的主线。巴西先以 71.8% 淘汰科特迪瓦,8 强又以 86.6% 击败英格兰,半决赛面对葡萄牙也有 74.7% 的胜率。巴西这条晋级路线含金量很高,因为它连续跨过英格兰、葡萄牙两支强队,最终进入决赛。
最终决赛是 西班牙 vs 巴西。预测结果是 巴西以 65.3% 胜率夺冠。这说明模型认为,西班牙虽然是上半区最稳定、最强势的球队,但面对巴西时仍然处于下风。巴西的综合实力、淘汰赛上限和关键战能力被评估得更高。
图片
最后给出模型评估了1w次的效果,得到了最后的26年世界杯的晋级之路:
图片

写在最后

这次预测的结果里,整体逻辑还是比较符合直觉的:传统强队依然占据明显优势,巴西、法国、西班牙、阿根廷、葡萄牙、英格兰、比利时这些球队大多走得比较远。但同时,模型也给出了一些有意思的冷门信号,比如摩洛哥淘汰荷兰、韩国击败瑞士、葡萄牙淘汰阿根廷等。
最终模型模拟出的决赛是西班牙对阵巴西,冠军预测给到了巴西。主要是因为巴西在关键淘汰赛中的综合实力和上限更被模型看好,所以最终以 65.3% 的胜率夺冠。
不过模型的预测只能作为一个参考。足球最大的魅力,恰恰在于它不完全服从数据。一个红牌、一次伤病、一脚世界波、一次点球大战,都可能改变整届世界杯的走势。
从另一个角度看,这次实验更有意思的地方在于,现在只要有数据、有工具、有对阵信息,就可以快速搭建一个自己的预测模型,并把结果可视化出来。
你也可以用我这种方法,快速搭建一个AI预测足球模型出来,快来试试把