2018世界杯小组赛谁将出线?历届世界杯进球大数据告诉你

2022年10月29日 0 Comments

本文数据为自1930年世界杯开办以来至2014年的所有球队进球数据,中间因为一战停办了几届,所以到2014年恰好20届。

1、因为年代久远,好多国家已经改了名字,比如苏联、西德,考虑到俄罗斯和苏联国家实力的不对等,我并没有把他们合并成一个国家。过去的就让他过去吧。

2、世界杯决赛是没有平局的,最终比分我用了点球大战的分数,毕竟点球也是实力。

3、1938年后到1950年,因为二战,世界杯连续12年停办。愿世界不再有战争。

进球越多,说明进攻能力越强。把历届比赛所有球队每场的进球数平均值作为基准能力,某球队平均进球数/所有球队的平均进球数的比例越大,说明该球队相对于所有球队的平均进攻能力越强。

失球越多,说明防守能力越弱。把历届比赛所有球队每场的进球数平均值作为基准能力,某球队平均失球数/所有球队的平均失球数的比例越大,说明该球队相对于所有球队的平均防守能力越弱。

统计胜负双方总进球数,1930-2014年内,累计进球2500粒(包括点球大战),其中巴西进球232粒,接近总数的1/10,进球前十的国家总进球1222粒,占到总数的近一半。

与进球相对的,球队对手的进球数即为该球队的失球数,统计一下失球数TOP10的球队,巴西依然第一,但是相对于其他球队,失球数的悬殊没有进球数那么大了。总体看来巴西的防守还是强一点的。

既然有历届的进球数据,不考虑国家主权变动、球员身体素质等因素,我们可以通过数据计算,得到各球队的进攻能力和防守能力。

20届世界杯,共有86支球队踢了836场,累计进球2500个,平均每场每个球队进球1.5个(2500/836/2=1.495)。

再根据86个球队在每次比赛中的表现,可以计算每个球队的平均进球情况。根据前面的进攻/防守能力概念,我们可以得到各个球队的进攻/防守能力。

这么多年世界杯下来,一共有86支球队,全部分析太麻烦了,我们只分析2018年世界杯进入小组赛的32支球队好了。冰岛和巴拿马今年第一次进世界杯,往届没有数据,我给了他们平均数(1.5)。

进攻能力的前五名基本上没有争议,我一个不看球的人都认识他们。但是排在第六名的丹麦,为啥这么强呢?

回溯源数据我发现,丹麦在1986年小组赛中6-1战胜了乌拉圭,2002年2-0战胜了法国,这两个国家都是蛮强的,因为乌拉圭世界杯进小组赛比较多,1930年首届世界杯4-2虐阿根廷,1950年2-2平西班牙,2-1虐巴西,1954年4-2虐英格兰,直到2014年还分别以2-1、1-0的战绩干过英格兰和意大利。

防守能力的榜单似乎有点扯,我也不懂球,不知道对不对。回溯源数据,可发现。塞尔维亚就2010年进了一次世界杯,踢了三场球,输了两场(澳大利亚2-1,加纳1-0),然后赢了德国(1-0),本身平均失球数就低,还防住了德国,实力一下子就上去了。克罗地亚我不认识,但是看历届的比分还是很硬的,赢8场进了18个球,对手只进了5个;输了的8场中对手一共进了12个球,防的可是巴西、阿根廷、法国!

数学里有一个泊松分布,这个模型可以根据对战双方球队的平均能力,计算两个球队对战结果的概率。

这里来1辆还是3辆还是0辆的概率是符合某种分布规律的,它就是泊松分布。根据这个分布,一旦我们知道了平均多久来一辆车,就可以算出来1辆、3辆和0辆的概率是怎么样的。

使用泊松分布,我们得知道一个平均值。对于比赛来说,如果我们想计算A、B两个球队对战的比分概率分布,我们需要知道这场比赛两个球队平均分别能进几个球,才能计算出他们比分的概率。

前面我们计算了球队的进攻能力和防守能力,我们用A的进攻能力×B的防守能力×平均进球数,就可以得到A球队在这场比赛的平均进球数。同样B的进攻能力×A的防守能力×平均进球数则为B的进球数。

有了这两个平均水平,我们就可以得到32强的49场比赛的各种比分出现的概率。

表中,我把各个球队得分最大的概率标出了颜色,由此预测了各场比赛的最终战局。

由于本文分析对象为历届世界杯的比分数据,时间跨度超过80年,所以肯定有很多不准确的地方。

如果你对数据分析有兴趣,或者想系统的了解数据分析思路,张佳老师的数据分析课可以了解一下↓↓↓↓↓

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注