论坛首页 天下足球 若whoscored的评分不行,那有没有行的?

若whoscored的评分不行,那有没有行的?

回帖数:{{107 | number}}浏览量:{{4366 | number}}
7

注意:我不是要说“机器评的永远不准”,或者“永远不存在能服众的机制”,那是废话,甚至是屁话。我是想告诉大家,足球,可能永远不能像目前的NBA那样,做出一套科化球员影响力的数据算法。

如果你看了我上一个帖子,就应该不难知道,whoscored这个打分系统的大致运作机制,并且了解它为什么不靠谱;如果你看完了那个帖子,就应该了解到,这个实际上非常良心的数据库的具体用法,这也是顶级球队数据分析师的基本做法,只不过他们根本不需要用whoscored的数据,或者说,它们完全可以搞到和whoscored同源但更丰富的数据——反正大家都是从opta买,whoscored没买全,俱乐部完全可以自己买全。或者他们也可以用其他数据公司的服务,比如wyscout和instat。

如果你能把新闻区的“花花专栏”里有关数据分析的文章都看一遍,那你应该能了解,数据分析到底应该怎么用,它能够帮助我们了解多少我们看比赛时忽略的信息——数据太有用了,但不是whoscored这个用法。

但这里的问题是:有人质问我:“既然你说人家的不行,那你给个行的呗。”

这其实是一个很错误但又有点意思的逻辑。说错误是因为:我质疑一个算法的科学性,和我能否给出更科学的算法,没有一毛钱关系。这就好比有人说“双黄连能治新冠病毒肺炎”,目前包括钟南山在内,没人能给出特效药,那是不是大家就没资格说“双黄连起不到这个作用”?

但是,这实际上凸显了一个人人都有的希望——能不能真的创造一个算法,比较精确(注意是比较精确不是绝对精确)的量化球员和球队的表现?

很遗憾,治疗肺炎的特效药也许很快就有了(希望如此),但这个算法,在可以预见的未来,可能永远不会有。

这里以NBA为例,跟大家聊聊为什么。

NBA的数据分析发展到今天,已经非常成熟了。千万不要相信C5、腾讯那些解说们什么“数据不能代表一切”的狗屁说法,那些人我敢说没一个懂篮球数据的。事实是,NBA目前数据分析玩的好的清一色的都是强队,你觉得某红队被某雷搞得没总冠军,但实际情况是某红队一直很强;其他球队随便举两个例子:勇士,拿过数据分析盛会斯隆峰会的最佳团队奖;雄鹿,曾经聘用数据专家帕特诺做数据分析师(帕特诺今年夏天才离队)。全联盟出了名不信数据分析的球队是谁呢?纽约尼克斯,混成啥样不用多说了吧?

但你知道NBA的数据分析是怎么发展的么?

说实话这方面我也不是专家,篮球看的真不多,但我有幸能够从中国最牛逼的两个篮球评论团队“旋猫”和“篮圈即是原点”那学习一些东西,所以给大家科普一些基本的内容还是做得到的。

NBA最早的数据分析理论,源于80年代迪恩·奥利弗的一本书,里面提到了一个最最基本的理论:篮球比赛,在攻守两端都可以拆解为4个基本要素,有且只有这4个要素直接影响到比赛的结果——加权三分后的有效命中率;失误率;篮板率;造罚球比重(这里面是包含对罚球命中率的考量的)。这是4个直接作用于比赛结果的要素。

具体4要素怎么拆,这里不再赘述,毕竟这是一个篮球话题。但这里要说到的第一个问题是:足球比赛目前有没有可能拆解出这样的4要素呢?

说实话,很难,但我试图在做。

比如我在整理完数据,用数据去分析球队的时候,首先会思考一个问题:这支球队的进球,首先直接取决于三个因素:射门次数,射门质量,射门难度。这三个其实都好解决,分析射

当然,你可以觉得这个理论离我们过于遥远,那好,接下来我就聊聊NBA现在是怎么量化球员影响力的——注意是影响力。

上一篇帖子里,有一个回复提到了NBA,说有些球员,比如巴蒂尔,你拿数据统计看,会觉得这人就是教练亲儿子。其实这是你在纯粹基础数据统计上得出的结论,它是对“表现”的某种提取,而不是在反映“影响力”。我们常听到一句话是:“XX的影响力是数据没法体现的”,实际上大多数情况下,说这个话的人根本就不知道数据早就具备了反映影响力的能力了。

经常看篮球比赛的应该知道一个概念“正负值”。但实际上你们平常接触的“正负值”,指的是“在场时的净胜分”,针对这个数据,至少有两个地方需要修正:

第一,你有了在场时的净胜分,是不是也得有一个“不在场”时?举例来说,我去打球,在场时球队赢了10分,你一看正负值,“挖槽这个人好牛逼啊”;但你不知道的是,我不在场时,球队赢了50分。那你说我还牛逼不?

第二,没有结合回合做计算。我们都知道篮球比赛节奏是完全不同的,一场比赛48分钟,魔术去打,和404队去打,回合数相差非常大。所以现在你再看见“场均多少分多少篮板”的统计,不妨直接给这个统计扔了,因为科学的做法是用“百回合”。正负值也一样,要做成“XX在场时,每百回合赢对手多少分”,“不在场时,每百回合赢对手多少分”才行。

为什么要强调这个正负值概念呢?因为它直接指向了结果。如果我们把各个阵容组合,在面对对面各个阵容组合的正负值都计算出来,就会出来一大堆的方程。举例来说:

方程1:(詹姆斯+韦德+波什+哈斯勒姆+孙悟空)-(科比+加索尔+拜纳姆+奥多姆+猪八戒)=X(百回合)

方程2:(詹姆斯+韦德+波什+哈斯勒姆+沙和尚)-(科比+加索尔+拜纳姆+奥多姆+猪八戒)=Y(百回合)

方程3:(詹姆斯+韦德+波什+哈斯勒姆+沙和尚)-(科比+加索尔+拜纳姆+奥多姆+观音)=Z(百回合)

……

等等等等。

这样的方程会有很多个,然后,就可以把这些方程放在一起做回归计算。别问我回归计算是什么,我是文科生我也不懂,但我大概能看明白,这个算法是基于各种不同组合(包括自己的和对面的)的百回合净胜分,去计算每个球员的影响力。

这样得出的一个数据,叫做rapm。然后,围绕着这个rapm,大家都开始创造自己的影响力算法了,最著名的就是ESPN的王牌数据RPM,全称叫Real Plus Minus,“真实正负值”。你可以理解为,“结合队友和对手不同,所做出修正的正负值”。

这就是影响力。

这里有人要问了,你直接用rapm不就行了?干嘛要多此一举搞出来个rpm?不知道大家注意到一个问题没有:如果两人永远同上同下,那么这俩人的影响力其实是一样的,或者说是没法区分的。举例来说:我和詹姆斯一个队,我俩永远同上同下,那么我和詹姆斯的rapm就是完全一样的。你能说我影响力和詹姆斯一样吗?

所以,rpm是要加入基础数据进行调整的,怎么调整我们就不得而知了。实际上rpm的具体算法到现在都没人知道,除非创始人英格尔曼自己主动公开,否则没人能知道。而且,它是黑箱算法,不存在公式——也别问我啥是黑箱算法,文科生,不懂,其实这个也不重要,嗯……

另外顺便说一下,英格尔曼去年夏天离开ESPN,加入了独行侠管理层——这就是NBA,这就是美国的数据研究环境,从民间出来的数据高手随时可能登堂入室,从而自下而上的影响美国的篮球理论不断革新。

当然,此举造成的一个结果是,ESPN的RPM,突然之间参考价值崩溃……目前旋猫和篮圈即是原点他们,好像主要参考的是PIPM,这个也是免费公开的,搜一下就查到了。

现在要回到我们的主题了——我们能不能设计出这样一个类似rapm的数据,用于足球呢?

答案是:不能。

经过刚才的介绍,相信很多人都能看出来了,这种反应影响力的数据,最需要的是什么?是大量的阵容组合,尽可能提供多的方程。前年圈哥再给我普及rpm的时候就说过,rpm失真最严重的球队是森林狼。为什么?当时森林狼的主教练叫汤姆·锡伯杜,此人有个绝招叫特么“5上5下”……

回到足球,足球相对于篮球,一个很麻烦的事情是:阵容组合太固定了,一场比赛3个换人名额,教练还经常留一手不用完,你从哪变出那么多组合来?我们有时候会说XX是球队的短板,然而这个短板极有可能跟球队老大始终同时在场,那么如果有rapm的话,他俩就是完全一样的,你怎么办?

当然,我们可以根据这个思路,对球员的技术统计多做一些调整,比如我们知道了梅西一场比赛射门X次,也知道了巴萨总射门次数是Y次,那我们能不能得出梅西在队内的射门占比?严格来说是不能的,因为这个Y,是包含了梅西不在场时的射门次数。因此如果可能的话,我会建议数据公司在统计时,把该球员在场时,球队的数据都给统计出来。这样哪怕得出的结论没那么精确,我们至少也可以比现在更接近真相。我在赛季前做罗德里和马奎尔在新东家前景时自己尝试过手动统计,真的难度太大了。这方面只能期待数据公司什么时候意识到这一点了。

当然,做一个刻画球员影响力的数据,我个人建议还是不要轻易尝试了。这真的可能是永远无法企及的梦想。


举报 1楼 2020-02-13 22:06 发表于直播吧PC网页版 回复

1

太专业了,没有完美的东西,肯定都有缺陷的

举报 2楼 2020-02-13 22:14 发表于直播吧安卓客户端 回复

61

梅西评分高,证明在那个评分标准和机制下,梅西确实比其他人厉害,这也是事实

举报 3楼 2020-02-13 22:15 发表于直播吧苹果客户端 回复

0

好专业啊,有点看不懂

举报 4楼 2020-02-13 22:15 发表于直播吧苹果客户端 回复

8

老哥,NBA这个正负值其实也是一项蛮扯淡的数据,没啥用

举报 5楼 2020-02-13 22:16 发表于直播吧苹果客户端 回复

2

我觉得最有用的还是看你进了多少球多少助攻这个最直接,作为球迷谁能研究这么多别的啊,看看进球就完事了

举报 6楼 2020-02-13 22:17 发表于直播吧安卓客户端 回复

4

起码球员意志力、球队领袖的影响力是没法用数据来表现的,红黄牌?跑动距离?

举报 7楼 2020-02-13 22:45 发表于直播吧安卓客户端 回复

0

数据永远都是概率统计而已,有些事情就是小概率或者不可能发生事件,但它就是发生了,所以解说员们说的还是很正确的……另外,NBA各方面之所以如此成功,有一个前提,商业化的成功,没有这个前提,和足球没什么区别!

举报 8楼 2020-02-13 22:56 发表于直播吧安卓客户端 回复

我要去大理 发表于 2020-02-13 22:17
我觉得最有用的还是看你进了多少球多少助攻这个最直接,作为球迷谁能研究这么多别的啊,看看进球就完事了

1

第一,数据是一层一层抽丝剥茧的,寻求进阶性不断深入的,只看你所谓的进球助攻,才是胡来。那样看布斯克茨可能不如武磊。第二,助攻这个数据,尽量不要用,因为它存在的初衷是对传球能力的反映,但实际上受位置影响极大。

举报 9楼 2020-02-14 00:55 发表于直播吧苹果客户端 回复

不像重庆人的重庆人 发表于 2020-02-13 22:45
起码球员意志力、球队领袖的影响力是没法用数据来表现的,红黄牌?跑动距离?

0

没人说那个影响力可以用数据衡量,但注意,你看一万场比赛,意志力之类的东西,你也永远无法衡量。那个东西存在,但你作为外人永远看不见摸不着,所以,最好存而不论

举报 10楼 2020-02-14 00:57 发表于直播吧苹果客户端 回复

不像重庆人的重庆人 发表于 2020-02-13 22:45
起码球员意志力、球队领袖的影响力是没法用数据来表现的,红黄牌?跑动距离?

3

另外,专业的数据分析基本不会用跑动距离,红黄牌更是没有任何战术分析价值,更多的是噱头。这不是我说的,是前任罗马首席数据分析师说的

举报 11楼 2020-02-14 00:58 发表于直播吧苹果客户端 回复

蔡徐坤是我女神 发表于 2020-02-13 22:15
梅西评分高,证明在那个评分标准和机制下,梅西确实比其他人厉害,这也是事实

5

那个系统打分的球员累积恐怕超过5000人了,你只盯着一个梅西,那请问你要那个系统干啥?

举报 12楼 2020-02-14 00:58 发表于直播吧苹果客户端 回复

我要去大理 发表于 2020-02-13 22:16
老哥,NBA这个正负值其实也是一项蛮扯淡的数据,没啥用

0

自己看文章,英格尔曼现在是独行侠高级数据分析师,正负值有用没用我不跟你废话,事实NBA 30支球队,绝大多数都认为它有用。前几年一直嘴硬不用的,都是万年乐透

举报 13楼 2020-02-14 01:00 发表于直播吧苹果客户端 回复

不像重庆人的重庆人 发表于 2020-02-13 22:56
数据永远都是概率统计而已,有些事情就是小概率或者不可能发生事件,但它就是发生了,所以解说员们说的还是很正确的……另外,NBA各方面之所以如此成功,有一个前提,商业化的成功,没有这个前提,和足球没什么区别!

0

……我都不知道你想说啥,第一,你最好搞清楚啥叫概率。第二,这和商业开发有个鸡毛关系?谁要跟你说哪个联盟更成功更能赚钱?这说的是其他行业如何引入数据分析,你能不能照猫画虎去做,如果不能,原因是啥。NBA 就算有一天变成一坨屎,这些经验也希望存在,跟商业开发有个毛关系?

举报 14楼 2020-02-14 01:03 发表于直播吧苹果客户端 回复

不像重庆人的重庆人 发表于 2020-02-13 22:56
数据永远都是概率统计而已,有些事情就是小概率或者不可能发生事件,但它就是发生了,所以解说员们说的还是很正确的……另外,NBA各方面之所以如此成功,有一个前提,商业化的成功,没有这个前提,和足球没什么区别!

0

还有,你觉得数据不对有局限这都没问题,但前提是你得清楚局限是啥,究竟在哪。足球暂且不说,篮球这帮解说,我不说数据,就连读场分析也是一团糟,业务约等于没有。杨毅曾经晒了一个自己赛前研究数据的图,结果,那个espn页面,是多少年前就被淘汰掉的……你连数据分析发展到哪一步都不知道,就说人没用?

举报 15楼 2020-02-14 01:07 发表于直播吧苹果客户端 回复

r唯a心u所l识 发表于 2020-02-14 00:57
没人说那个影响力可以用数据衡量,但注意,你看一万场比赛,意志力之类的东西,你也永远无法衡量。那个东西存在,但你作为外人永远看不见摸不着,所以,最好存而不论

0

既然如此,数据并不能代表一切,解说员们说的这句话哪里错了?

举报 16楼 2020-02-14 01:57 发表于直播吧安卓客户端 回复

不像重庆人的重庆人 发表于 2020-02-13 22:45
起码球员意志力、球队领袖的影响力是没法用数据来表现的,红黄牌?跑动距离?

1

作为外行,我都知道跑动距离是衡量球员体能的一个重要参考数据,居然不用?起码医生会参考这个数据?一个防守球员的红黄牌的数据,是球队不会用还是裁判不会参考这个数据?

举报 17楼 2020-02-14 02:02 发表于直播吧安卓客户端 回复

不像重庆人的重庆人 发表于 2020-02-14 02:02
作为外行,我都知道跑动距离是衡量球员体能的一个重要参考数据,居然不用?起码医生会参考这个数据?一个防守球员的红黄牌的数据,是球队不会用还是裁判不会参考这个数据?

0

因为跑动距离目前没人知道具体怎么用,球队内部有的是反映身体机能的数据,根本没必要用第三方提供的跑动距离。你别说作为外行你都知道这种话,事实上不用跑动距离就是最顶级内行说的,那玩意更多是媒体用的噱头,以后可能会有用,但目前没人知道怎么用。至于红黄牌,有啥可分析的你告诉我?分析犯规很简单,犯规数和防守对抗做比就完事了,红黄牌怎么用?红牌样本小的可怜,黄牌你知道是战术原因还是动作太大还是不服判罚?

举报 18楼 2020-02-14 10:46 发表于直播吧苹果客户端 回复

不像重庆人的重庆人 发表于 2020-02-14 02:02
作为外行,我都知道跑动距离是衡量球员体能的一个重要参考数据,居然不用?起码医生会参考这个数据?一个防守球员的红黄牌的数据,是球队不会用还是裁判不会参考这个数据?

0

再说医生参考跑动距离干啥?核磁共振一做哪伤哪不舒服不是一清二楚么,你跑10米拉伤和10000米拉伤有啥区别?

举报 19楼 2020-02-14 10:48 发表于直播吧苹果客户端 回复

2

我认可评分不准确的说法,而且任何一种评分机制根本无法做到服众,甚至让大部分人认可!我不认可,除了一些看起来很明显的表现不好,和很明显的表现好在评分上没有体现以外,还有一点就是不能经常评10分。。就跟灌篮大赛一样,你给了10分,接下来有差不多的发挥你不给10分就没说服力了,可是10分是什么?10分是满分啊,哪有满分的!还有一点就是,门将如果一整场没啥表现机会,肯定给不了高分,而如果被射正一次,丢球了,分肯定低,但也没考虑射门的难扑程度啊!还有就是如果因为某个球员丢球导致球队丢分了,他在剩下时间内表现再好都很难挽回评分机制对他的制裁!
这玩意参考参考就是了

举报 20楼 2020-02-14 10:53 发表于直播吧PC网页版 回复

2

数据分析,赔率能代表一切的话 曼城巴萨年年欧冠冠军

举报 21楼 2020-02-14 11:56 发表于直播吧安卓客户端 回复

r唯a心u所l识 发表于 2020-02-14 01:00
自己看文章,英格尔曼现在是独行侠高级数据分析师,正负值有用没用我不跟你废话,事实NBA 30支球队,绝大多数都认为它有用。前几年一直嘴硬不用的,都是万年乐透

0

比烂的好一点不代表好。简单数据肯定无法量化复杂运动。这是必然。或许需要几百上千种数据结合看。然而球迷看不懂的。足球这个就更简陋了。

举报 22楼 2020-02-14 12:02 发表于直播吧安卓客户端 回复

0

简单数据肯定无法量化复杂运动。这是必然。或许需要几百上千种数据结合看。然而球迷看不懂的。足球这个就更简陋了。你可以说它需要发展,你不能说它不烂。烂就是烂。

举报 23楼 2020-02-14 12:03 发表于直播吧安卓客户端 回复

蔡徐坤是我女神 发表于 2020-02-13 22:15
梅西评分高,证明在那个评分标准和机制下,梅西确实比其他人厉害,这也是事实

0

去把文章读读好吗

举报 24楼 2020-02-14 12:05 发表于直播吧安卓客户端 回复

蔡徐坤是我女神 发表于 2020-02-13 22:15
梅西评分高,证明在那个评分标准和机制下,梅西确实比其他人厉害,这也是事实

1

梅西确实厉害,但这个评分系统确实偏向进攻球员,尤其是拿球比较多的,很多后卫其实踢得贼好了,也基本上不了9分

举报 25楼 2020-02-14 12:20 发表于直播吧苹果客户端 回复

0

双黄连给多少,我西瓜霜出双倍

举报 26楼 2020-02-14 12:22 发表于直播吧苹果客户端 回复

2

哈哈,楼主好搞笑,拿篮球那一套生搬硬套足球,不嫌水土不服吗?

举报 27楼 2020-02-14 12:23 发表于直播吧苹果客户端 回复

2

你说的都赞同,但是能不能别拿篮球举例,有参考价值但也可能被带进沟里

举报 28楼 2020-02-14 12:24 发表于直播吧安卓客户端 回复

蔡徐坤是我女神 发表于 2020-02-13 22:15
梅西评分高,证明在那个评分标准和机制下,梅西确实比其他人厉害,这也是事实

2

梅西评分高,比很多人厉害这是事实,梅西有比赛值得评10分这是事实,但更多的是梅西不值得评10分的比赛确得了10分,这也是事实!!!这就是为什么现在很多人看到梅西又评10分呵呵一笑的原因!

举报 29楼 2020-02-14 12:29 发表于直播吧安卓客户端 回复

r唯a心u所l识 发表于 2020-02-14 00:58
那个系统打分的球员累积恐怕超过5000人了,你只盯着一个梅西,那请问你要那个系统干啥?

1

超过5000人怎么会盯着梅西呢?花那么大人力物力?你太看得起梅西了,人家有人人家标准,在人家那标准下,梅西就高分,标准不是为梅西定的,只能说明梅西适合那个标准,

举报 30楼 2020-02-14 12:31 发表于直播吧安卓客户端 回复

蔡徐坤是我女神 发表于 2020-02-13 22:15
梅西评分高,证明在那个评分标准和机制下,梅西确实比其他人厉害,这也是事实

1

现在说梅西是把评分印在身上的球员,这句话本来是夸他,现在都快变成讽刺了。

举报 31楼 2020-02-14 12:31 发表于直播吧安卓客户端 回复

回帖数:{{107 | number}}浏览量:{{4366 | number}}
天下足球
回复 图片 表情
{{em['name_cn']}}
确定要删除记录吗?
删除理由: