欢迎来到360直播网 ,今日还有158场体育赛事直播,敬请观看。

当前位置: 首页 > 资讯>

皇马力夺34冠01数据获取及分析框架获取球员数据

更新时间:

▲ 恭喜Real Horsepower用这篇文章拿下34个冠军

01 数据采集分析框架

获取球员数据的渠道很多,比如德国转会市场()、足球最大的手机平台点球滴等,都可以获得实时更新和比较完整的数据。

但考虑到爬取的难度,笔者找了一个简单且权威的足球运动员数据平台——PES官方数据库。 PES作为最经典的足球比赛之一,数据一般来自官方授权。 虽然更新不够及时,但好在获取极其简单(带分页的json API),对爬虫初学者非常友好,更重要的是不用考虑反爬的问题。

▲PES 2020数据库

简单分析一下网页请求API,可以得到从数据库中获取的json接口实时足球身价排行榜,共有1.5W多位足球运动员的信息共752页,每名球员都有30多条特征信息,除了基本属性如如球员姓名和国籍,影响球员能力的还有20+个特征,值得分析的切入点也很多,但限于篇幅和兴趣点:本文主要分析框架如下:

个人玩家排行榜:“各种”顶级玩家

借助机器学习,玩家属性信息挖掘

注:本文数据均来自PES2020,所有分析意见和结论仅供参考。 文末提供源码和数据文件获取方法。

02 基本概况分析

为了从宏观上了解主流联赛现役球员的现状,首先从以下四个维度给出球员分布:

▲球员宏观分布

由此可以得出以下明确的结论:

其次分析球员的基本属性(人像),主要关注球员的自然属性和得分问题。

▲球员基本属性

从球员的基本属性来看:

接下来用炫酷的桑基图展示一下主流联赛球员的来源。 在这里,除了西班牙、英格兰、意大利、法国四大联赛球队的完整信息外,只挑选了德甲的几支顶级俱乐部,与其他几支欧洲强队一起被列入联赛标签下“其他欧洲球队”。 同时,为了了解中超联赛的情况,中超联赛也被纳入分析。

▲可能是华而不实的桑基图

毫无疑问,欧洲主流联赛的球员还是以欧洲国家为主。 这当然与俱乐部限制外援数量有关(欧盟国家不占用外援名额),但不可否认是欧洲足坛的顶级水平。

同时,南美和非洲也为五大联赛贡献了不少球员,包括巴萨昔日三叉戟MSN(目前N效力于法甲巴黎),均来自南美国家,是巴萨的两大主力前锋。英超联赛新贵利物浦萨拉赫和马内来自非洲。

此外,亚洲近年来也向欧洲输出了不少球员,包括亚洲一哥孙兴慜、中超代表武磊等。 其中,孙兴慜是PES2020唯一的亚洲5星球员。

下面的箱线图可以更清楚地表达几大联赛球员的现状。 从整体分布区间、均值和极值来看,联赛级别排名应该是:西甲-英超-意甲-法甲-其他欧洲球队(包括德甲几支强队)-中超。

▲几大联赛球员得分分布

足球球员身价排行_实时足球身价排行榜_足球球员身价排行最新

另外我注意到西意、法国等欧洲球队有一个90多分的极端点,瞎猜应该是巴萨的梅西、尤文的C罗、巴黎的内马尔和拜仁的莱万。 基本上代表了当今足坛的前四大前锋。

03 球员个人分析

上一部分是对球员整体的宏观分析,接下来重点是球员个人能力指标的对比排名。

首先是当今世界上最顶级的足球明星(得分>90):

选手基本信息如下:

▲ 八位顶级足球明星(得分90+)

顶级超巨的得分都在90+。 需要注意的是,90+的分数在PES2020中已经算是绝对顶级水平了。 莫斯、姆巴佩、丁丁、格列兹曼、萨拉赫等)。

虽然姆巴佩可以称得上青春有为,内马尔、阿扎尔、阿利森也都处于职业生涯的巅峰期,但我们还是不得不觉得,梅罗在这样的“状态”下还能继续统治世界足坛前十。老年”。 于念真是一对绝世骄子。

然后按位置细分排行榜。 在这里,球员们通过区分前中后三线和门将位置的四种类型进行简单的合并,各取TOP5。 得到以下列表:

▲ 4线TOP5

从位置上来说,进入名单的都是各家具乐部的主力球员,这并不奇怪。 不过,如果说有什么名字是陌生的,那不勒斯后卫库利巴利可能因为俱乐部的原因,知名度略低。

甜瓜以如此高龄统治了足坛十几年,但还有一个更为传奇的足坛神话,堪称足坛老怪物。 例如,瑞典神泰姬·布拉希莫维奇38岁仍享受5星待遇。

▲ 5位球星中只有7位34+的球员,个个都是传奇

如果以星级和年龄来评判足球老怪不够权威和公平,那么定义老怪指数=得分*年龄,选出老怪指数排名前10位的球员,你会发现有球员比伊布还要传奇的面孔——布冯! 虽然岁月没有让他继续以5星的姿态闪耀世界,但没有人会质疑他占据足坛头把交椅的资格。

此外,伊布和C罗还在榜单前5,足以证明他们的活化石能力; 而巴萨前中场大脑哈维在这份榜单中排名第7,但他的真实身份却是阿尔萨德俱乐部的主帅。

▲老妖指数old_index=score*age

英雄不问出身,成名不分年龄。 其实,更吸引世人、撬动资本市场的,就是那些足球怪兽,或者叫潜力股。 几年前,还只是炫耀一番的姆巴佩就以这种身份向世人展示了自己,直到他随法国队夺得2018年世界杯冠军,正式证明了自己,他不再只是足坛的“怪物”。粉丝口中。 当然,在姆巴佩之后,足坛怪兽中从来不乏后浪,比如:

▲ 5位球星中已经有8位U22球员,大部分都进​​入了豪门

同时,与老妖指数类似,这里对小妖指数也有类似的定义:小妖指数=分数/年龄,依旧选择TOP10,得到如下排行榜:

▲小恶魔指数young_index=分数/年龄

排在榜首的是一名效力于本国甲级联赛的15岁智利小将,但他的胜利更多是得益于年龄优势的加持,其潜力和成长空间还有待验证。 相比之下,值得一提的是尤文图斯的德利赫特,皇马的巴西小将双胞胎(维尼修斯和罗德里戈,都是2000年出生的),尤其是德利赫特能够获得5星中卫评级,实属难得。

实时足球身价排行榜_足球球员身价排行_足球球员身价排行最新

除了单一属性的巨星,现代足坛还需要全能球员,被誉为绿茵场上的“六角斗士”——门将位置除外。 为了找到足球中的这些六角斗士,类似于电商会员价值分析中的RFM模型,选取以下指标来计算球员的六维指数:

在此基础上,当某位玩家某个维度的能力值高于所有玩家的平均值时,记为1,否则记为0。当6个维度均高于相应的平均值时,累加6星,到达六角武士。 选取六位变形斗士中评价排名前10位的玩家,制作对应的雷达图如下:

▲六角斗士前十的雷达图(防守方占半数以上席位)

最后,让我们关注另一个有趣的数据:那些饱受伤病困扰的足坛巨星。

说到伤病对职业生涯的影响,C罗或许有话说:尽管职业生涯并不丢人,但他效力过西甲和意甲的劲敌豪门(皇马vs巴萨,米兰vs国际米兰) ,并拥有无数的个人和集体荣誉。 他曾被誉为仅次于贝利和马拉多纳的第三人,但他也不得不感受到伤病对他职业生涯巅峰的巨大影响。

纵观现在的足坛,虽然医疗水平和饮食科学日趋进步,但还是有不少巨星饱受伤病困扰。 根据数据库中的抗伤指数信息,筛选出最有可能受伤的前10名巨星,得到如下结果:

▲足坛十大玻璃人巨星

不过,可能是由于这个指标的判别度较低(PES数据中该场只有1、2、3三个数值,数值越高越不容易受伤),所以有些明星在现实中的表现不太符合。 比如本泽马和克罗斯,都是目前在皇马出勤率很高的球员; 而“玻璃名人”也不再是少数,比如贝尔、蒂亚戈、罗伊斯。 毫不夸张的说,如果没有伤病困扰,他们现在的足坛地位会高很多!

从这个角度来说,像甜瓜这样天赋出众、不易受伤、巅峰期长的巨星,在很多年里实属难得。

04 机器学习筛选

数据记录数量充足,特征又如此丰富,不跑几个机器学习模型就可惜了!

这部分主要从三个角度进行分析,属于机器学习中的三大主流问题:

进一步,将机器学习模型得到的ML分数和星级作为球员的“真实能力”,对比PES分数和星级,分析那些被PES高估和低估的球员;

球员位置预测:这也是一个分类任务,但考虑到分类的难度和准确性,球员可以区分前场、中锋、后场和守门员四个位置,构建4个分类任务,探索“不一致函数”或“不正常做生意”玩家

球员聚类分析,基于物以类聚,人以群分的思想,着重探索PES中哪些球员与武磊更“相似”。 了解一个人的价值,看他和谁在一起。 因此,分析武磊以及哪些球员聚集在一个集群中,可以在一定程度上一窥武磊在足坛的地位和水平。

在上面的机器学习模型中,回归和分类任务都调用了随机森林模型,没有进行任何特征工程和优化调整; 聚类任务在进行归一化处理后调用K-means聚类模型,以剪影系数选择最优簇数作为度量。

先来看球员能力分析。

以玩家评分作为预测值,进行随机森林回归后,R2得分为0.95,具有良好的学习效果。 基于此模型,ML分数与PES分数之差,以及被PES高估(PES分数高于ML分数)和低估(PES分数低于ML分数)的前十名球员分别为:

▲评分| 十大高估球员:豪门溢价导致“高分低能”

▲评分| 十大被低估球员:低级别联赛限制了他们的身价

同样使用随机森林分类模型预测球员星级,最终准确率得分为0.88,略低。 使用该模型预测所有球员的星级,并与PES给出的星级进行比较,得到如下结果:

▲明星| 十大被高估球员:全是欧洲豪门

足球球员身价排行最新_足球球员身价排行_实时足球身价排行榜

▲明星| 十大被低估球员:多为二线球队球员

通过以上两个模型训练和预测结果分析,最直接的结论是:

接下来,通过球员位置分类模型,分析出哪些球员可能“与其职能不符”,或者“没有做好本职工作”。

仍然调用随机森林分类模型,对所有玩家进行4个分类任务,得到0.9的分类准确率,学习效果尚可。 给出混淆矩阵的结果,为了直观探究各类球员的走位预测误差:

▲选手预测结果混淆矩阵,左边索引为真实位置,上一列为预测位置

容易发现:

给出预测位置与实际位置不符的前十名超级巨星:

▲前十名“功能不匹配”的巨星都在“合理”范围内

最后利用聚类模型对与武磊(左边锋)同一位置的球员样本进行聚类任务,从而了解武磊在左边锋球队中属于什么级别,以及左边锋的顶级巨星边锋(如罗纳尔多、C罗、内马尔和阿扎尔为代表)差距很大。

经过简单的聚类训练(以剪影系数作为评价指标,但总体得分处于较低水平),设置K-means聚类参数n_clusters=5,可视化各聚类选手的平均得分如下:

▲5个集群球员平均评分:武磊在集群“1”中以微弱劣势位列第三

▲那些和武磊同队的左边锋

整体来看,与武磊同组的左翼球员中,得分大多在80分左右(对应3-4名明星球员),人气方面也没有特别突出的球员。

最后选取左前锋最重要的两个能力——速度和射门,做散点图如下:

▲ 武磊与5星左边锋球队还有很大差距

显然,单看速度和射门这两个属性:武磊在速度上有一定的优势,甚至超过了一些5星左边锋,但是射门属性却相去甚远,这可以反映出武磊目前的足坛表现一定程度上。 地位和等级,更重要的是,在其他许多能力属性上都有差距。 武磊的现状或许也是国内足坛现状的一个缩影!

05 后记

本文以PES2020球员数据库为数据源,主要完成了球员的宏观分布、球员个人排名、机器学习模型下的球员属性分析实时足球身价排行榜,得到了一些有意义的结论,对于球迷来说也堪称有趣.

同时,后续可能的优化思路是:

最后再次指出,由于数据准确性和时效性等因素,本文所有分析观点和结论仅供参考和娱乐,不足以解释任何实质性结论。

重点

干货直达

更令人兴奋的


【标签】: 球员 评分 足坛 巨星 模型
最新足球新闻
别人在看