【西海岸】深度解析|华丽的骗局,NBA的阵容数据是如何欺骗你的

header
关注

前言:在这个数据爆炸的NBA时代,比赛的方方面面几乎都有数据统计的参与,基础数据、高阶数据、效率值、正负值......五花八门;个人的、球队的、三叉戟、四人组、五人先发,无所不包;这些数据有时候可以帮助我们更直观的理解比赛中球员球队表现的好坏,但有时不尽然。这些看似精密的数据统计有时却有容易被忽视的漏洞,本文摘自体育门户网站The Ringer记者Zach Kram,在这篇文章中他将为我们详细分析NBA关于阵容的数据是怎么欺骗我们的。


在周二湖人队和森林狼队的附加赛第二节转播中,TNT用一张图片来祝贺湖人队的新首发阵容的成功。这确实值得庆祝:在常规赛中,勒布朗-詹姆斯、安东尼-戴维斯、德安吉洛-拉塞尔、奥斯汀-里夫斯和贾里德-范德比尔特是一股连接攻防两端的强劲力量,根据NBA高阶数据,他们每百回合的净效率高达+20.6。

“看看时间和正负值,”雷吉·米勒在转播中说:“太棒了。”

然而,在NBA智能分析领域存在着一种流行病,就像花粉过敏和期末考试一样,它在春天季后赛进入高潮时出现得最频繁,也最令人沮丧。TNT的这张图表只是最新的、最明显的例子,阵容数据旨在通过五人先发或更少球员组合的表现来展示一支球队的整体实力,但它几乎总是比它所展示的更令人困惑。

所以,在2022-23赛季季后赛开始之前,在这样的分析淹没NBA之前,让我们来探索一下阵容数据存在欺骗性的五个原因,以及更好地了解哪种阵容组合最有效的五个秘诀。


1. 样本的数量问题

阵容数据的第一个主要问题与困扰许多体育统计分析的问题是一样的:没有足够的样本数据来得出有意义的结论。

在一个赛季整整82场比赛中,每支球队的总时间约为4000分钟,回合数超过8000次,围绕一支球队表现的环境往往是均衡的。但在有限的样本中,对手质量、伤病、负荷管理和比赛地点等因素可能会使结果向一个或另一个方向急剧倾斜,一场非常好的或非常糟糕的比赛可能会产生极大的影响。

想想湖人的新首发五人组,他们在常规赛的167个回合中得分超过对手37分。其中超过一半的差值——16分钟内领先对手22分——来自对阵公牛的一场比赛。这支湖人的首发五人组在赛季的最后阶段对阵火箭和爵士的替补时正负值是+8和+10,他们在之前的比赛中还对阵过太阳的替补。

阵容的构建是有道理的,因为它围绕着勒布朗和戴维斯,搭配的球员都能投篮和空切,而且有凶猛的护筐者来保护内线。不管对手的质量如何,该首发阵容的早期回报率与预期相符,这是有希望的。但如果把背景拆开来看,令人瞠目的+20.6就没那么光鲜亮丽了。

所以为了以一定程度的确定性来分析阵容,我们需要等待所有这些额外的变量都确定下来。分析师克斯特亚-梅德韦多夫斯基去年计算过,五人组的阵容进攻效率“稳定”下来大约需要550个回合,防守效率“稳定”下来大约需要850个回合。(防守需要更长的时间,因为球队对自己的命中率比对手的有更多的控制。)

然而,本赛季只有25套阵容达到了550个回合,每个球队还不到一套阵容,只有11套阵容达到了850个回合。但这并不意味着在一个阵容达到这些阈值之前分析它没有价值——500个回合仍然比100或200个回合能提供更多的信息,但这确实意味着任何分析都应该是有限和精确的。

“我怀疑,”梅德韦多夫斯基写道,“这意味着你很难通过简单的五人阵容的效率来判断哪些阵容是正确的组合。即使你足够幸运,拥有一个有大量回合数的阵容,你也会将其与其他几乎没有任何回合数的阵容进行比较。”

“问题是,阵容数据很容易在网上获得,即使是在小得多的样本中,但它没有呈现这些数据的门槛。”与梅德韦多夫斯基一起研究DARKO数据系统的安德鲁-巴顿说:“因为登陆NBA.com太容易了,所以很容易无意中误用。”

因此,自称为“76人队的狂热粉丝”的数据科学家巴顿决定采取积极主动的方法来应对这种困境。他帮助创建了一个名为“Should I Use This Rating?”的在线工具。输入一个阵容的进攻效率、防守效率和样本量,它就会像神奇的8号球一样给出一个常规答案,以判断信息是否有意义。

把湖人的常规赛阵容数据输入到“Should I Use This Rating?”工具,它在亮红色背景下用大黑字回答:“Absolutely Not”

建议:在引用阵容数据之前仔细检查样本大小

好消息是,样本量的信息和净效率本身一样容易获得,人们可以使用这些信息来问:“Should I Use This Rating?”巴顿说,这个工具最有用,可以用来衡量拥有适量样本的阵容,这些样本不能轻易丢弃或明显信任:“100个回合是不够的,把它扔掉吧。1500个回合绝对够了,但在这个中间地带,事情就开始变得棘手了。”

插入不同的阵容统计数据会显示不同程度的有用性。在“Absolutely Not”的基础上,描述词从“Caveat Heavily”(比如骑士队的阵容四人组加上勒维尔)到“Meaningfulish”(比如公牛队的首发阵容中帕特里克-贝弗利和亚历克斯-卡鲁索搭档的后场),一直到“Actually, Yes”,阵容样本足够大,足够稳定。


2. NBA是一个不成功就失败的联盟

由于随机性的增加,这个问题与小样本量有关,但它的重要性足以保证另一个方面。正如The Athletic的赛斯-帕特诺在推特上关于阵容分析所指出的那样,“当你深入研究时,你会发现,‘表现的巨大变化’反映的是异常投篮的倒退或进步。”

让我们继续以湖人的首发球员为例,深入研究。

在常规赛中,当湖人的新首发五人组同时在场时,投篮命中率高达52%(46投24中)——根据NBA高阶数据,这在出场时间至少75分钟的五人组中排名第二。但他们很幸运地达到了这一目标:例如,勒布朗在他的16次三分球出手中投进了11个,但在这个赛季剩下的时间里,他的三分命中率只有30%。总的来说,考虑投篮位置和防守者距离等因素,湖人在这样的阵容下,根据Second Spectrum的数据,“预计”一共只能投进16个三分。

另一方面,湖人得益于对手冰冷的投篮手感,对手的三分命中率只有29%(56投16中),在所有出场时间至少75分钟的球队中排名倒数第五,但他们的对手本来“预计”会在相同的出手数中投进21个三分球。

综合这些数据——湖人队多投进了8个三分,对手投丢了5个三分——单靠投篮运气就能多得39分。记住,湖人新阵容的总正负值是+37,这意味着投篮运气本身就可以解释这一切。

所以你看,在这场比赛中,湖人队反常的投篮优势消失了。有了新的首发,但湖人的三分球只有9投2中,而森林狼12投8中。被大肆宣传的湖人新阵容队在17分钟内就被拉开了15分,而且在第三节过半后他们这套阵容就没有任何发挥。

建议:要仔细检查反常的投篮命中率

对于任何规模的阵容,NBA高阶统计都会显示本队的命中率和对手的命中率。利用这些数据进行直觉检验:如果三分命中率在进攻端或防守端都下降到20%或接近50%,那么这些异常值可能会在之后的时间里回归到接近35%的水平。

投篮的质量自然会影响这些基准。在所有高使用率的五人阵容中,本赛季三分球命中率最高的是勇士队,达到47%——这是有道理的,因为斯蒂芬-库里和克莱-汤普森命中了这些投篮中的大部分。


3.高使用率的阵容会受到选择偏差的影响

突击检查:在NBA的高使用率阵容中,有多少人得分超过了对手,又有多少人得分超过了自己?

你的第一种逻辑上的冲动可能是假设这是一种平均分配。但篮球是零和游戏,如果一个队领先,另一个队就会落后。因此,联盟中大约一半的高使用率阵容应该是积极的,大约一半应该是消极的。

但在现实中,我们并没有看到一个漂亮的、均匀的曲线来说明高使用率阵容的表现。相反,我们看到的是正方向的巨大倾斜。

根据NBA高阶数据的分析,在过去的六个赛季中,三分之二的出场时间至少达到100分钟的阵容都取得了积极的正负值优势。对于出场时间至少达到250分钟的阵容,这一比例上升到80%。而对于出场时间超过500分钟的球队来说,这一比例是不可思议的90%——这些球队每百回合的平均净胜分是+6

作为参考,凯尔特人本赛季以+6.7的净效率领跑NBA。这意味着平均上场时间很长的阵容几乎和联盟中最好的阵容一样好。

放大到本赛季,我们发现在出场至少250分钟的31套阵容中,有25套(81%)的净效率为正。在剩下六套阵容中,有四套阵容的净效率勉强为负(比如开拓者的净效率为-0.5),最差的两套阵容属于火箭。

这个结果乍一看似乎不符合逻辑,但经过进一步的分析会发现它是有道理的,因为它代表了选择偏差的一个例子。 阵容的选择必须是积极的。 在大多数情况下,如果阵容不起作用,教练就会停止使用他们。 无论如何,净效率落后的五人阵容可能无法发挥足够的作用来达到”有意义“的门槛。

(这个分析规则的一个例外是汤姆-锡伯杜,他固执地坚持他喜欢的阵容,即使他们不起作用。 尼克斯在2021-22赛季和2020-21赛季都拥有NBA上场时间最长的阵容,净效率为负;2016-17赛季的森林狼也是如此。 )

建议:只有在极端情况下才引用净效率

由于这种偏差,值得注意的东西的标准应该更高。例如,老鹰队的首发阵容本赛季的净效率为+6,这表明只要这些球员留在球场上,他们就会成为季后赛的黑马——但要知道+6是超高使用率阵容的平均水平,这让老鹰队的核心阵容看起来就不那么令人兴奋了。

作为一个粗略的经验法则——不要太关注一个特定阵容的净效率(至少在关注积极方面时),谨慎行事至关重要。这个更高的标准也适用于掘金的首发阵容——根据Cleaning the glass的数据,本赛季掘金的首发阵容在近1500个回合中的净效率为+12.7,显得更加特别,因为很明显,他们的整体表现远远高于平均水平,这已经超出了运气的范畴。


4. 特定的阵容一起打的时间其实不多

好吧,所以你已经把前三点牢记于心了:你会分析大样本的阵容,你会检查他们的投篮命中率,以确保极端的运气没有发挥作用,你会关注那些净效率非常高的阵容。

然而,你所选择分析的任何特定阵容都没有多大意义,因为现实生活并不是2K,球员必须休息,而且球队轮换的模式意味着即使是最常用的阵容五个人也不会经常在一起同时上场。本赛季出场时间最长的五人阵容(至少20场比赛)是掘金的首发阵容,在41场比赛中,他们场均共同出场时间为17.2分钟。

在常规赛中,缺少比赛时间的问题在一定程度上是因为它阻止了阵容积累更大的样本量,这使得数据不那么可靠。但是一套首发阵容的上场时间在季后赛中也没有增加那么多,即使每个首发的上场时间都增加了。在2021-22赛季的季后赛中,出场时间最多的五人阵容平均每场只打13.5分钟。在2020-21赛季,平均每场14.3分钟。在2018-19赛季(泡泡园区季后赛之前),这个数字是13.4。季后赛中任何一套阵容的最高上场时间是每场20分钟。

换句话说,即使是最常用的五人阵容,在一场比赛中共同出场的时间也不到一半,而在剩下的34分钟左右的比赛时间里发生的事情,与首发球员一起登场的14分钟左右的时间里发生的事情一样重要。

建议:不要只看单个赛季的首发阵容,而是要看看这个阵容的历史,多个人员重叠的阵容,或者短轮换下的球员组合。

在本赛季出场至少100分钟的五人首发阵容中,勇士队的库里、汤普森、安德鲁-维金斯、德雷蒙德-格林和凯文-卢尼的净效率最高,根据NBA高阶数据,他们每百回合的净效率为+21.9。由于伤病的影响,这套阵容并没有打足够多的比赛,但因为他们的这套阵容在本赛季之前也有如此出色的表现,所以我们可以对他们的实力更有信心。

这一经验适用于更广泛的阵容分析:查看当前赛季的阵容的历史可以帮助添加有用的信息和背景,并有助于增加样本量。捕捉这一过程的工具是DARKO数据系统,该系统根据过去和现在的结果发布了五人阵容的估计净效率(分为进攻效率和防守效率),以解释上面讨论的所有问题。

自然地,这个体系显示了勇士队拥有到目前为止最好的首发阵容。根据DARKO的数据分析,以下是目前的阵容排行榜。

想知道为什么数据模型认为凯尔特人是夺冠最大热门吗?他们的阵容组合在排名前六的阵容中占据了三个席位——这是另一个帮助分析阵容数据的线索。如果不同球员搭配的阵容都很出色,比如凯尔特人的布朗、塔图姆和罗伯特-威廉姆斯,或者掘金的顶级球员的不同组合,那么这些组合可以覆盖一场比赛或系列赛的更大一部分。

将你的分析扩展到更小的球员组合也能提供更多的信息。本赛季,乔尔-恩比德、詹姆斯-哈登和托拜厄斯-哈里斯三人组场均上场时间为26.2分钟,上赛季季后赛,哈登、哈里斯和泰瑞斯-马克西三人组场均上场时间为30.3分钟。将五人组分割成更少的球员组合有助于解决时间和样本大小的问题——尽管它也有自己的问题。


5.选择阵容组合太容易了

到目前为止,我们主要关注的是5人组,但净效率的滥用也延伸到了更小的阵容组合中。体育记者们(包括我自己——我有时也会感到内疚!)用来提供信息的一个技巧是这样的:斯宾塞-丁威迪、卡梅隆-约翰逊和米卡-布里奇斯在一起的净效率是+7.1,这将是联盟最高的净效率——所以要注意篮网,因为即使没有凯文-杜兰特和凯里-欧文,当他们最好的球员在场上时,他们仍然是很棒的。

从技术上讲,这部分信息是正确的:+7.1的净效率高于凯尔特人联盟最好的+6.7,但这种框架有一个内在的缺陷。挑选包括丁威迪、布里奇斯和约翰逊在内的篮网阵容,意味着我们只比较了新面貌的篮网的最佳阵容和其他球队的最佳阵容、最差阵容,以及介于两者之间的所有阵容。当然布鲁克林在这种不平衡的情况下看起来会更好。

篮网的例子可能看起来有点荒谬,因为几乎没有人认为布鲁克林会在首轮给予76人足够的挑战。但这很好地说明了这样一个事实:对于目前季后赛赛场上的14支球队(有两支未确定),我们可以从中挑选出三名最好的球员,在联盟顶级球员的框架下,让他们看起来令人难以置信地强大,具有误导性:

建议:与同类型的阵容进行比较

当被问及对更好地分析阵容数据的主要建议时,巴顿建议专注于择优选择的问题。“如果可能的话,”他说,“比较两个最相似的阵容。”

这意味着比较一名球员的在场/不在场数据和另一名球员的在场/不在场数据,而不是交叉比较球员效率和球队效率。或者,这意味着将三人组数据与三人组数据进行比较,或将五人组数据与五人组数据进行比较,或将整个球队与整个球队进行比较,而不是将一个球队的最佳阵容与另一个球队的最佳阵容、最差阵容进行比较,以及介于两者之间的所有阵容进行比较。

换句话说,如果你在分析首轮凯尔特人和老鹰之间的对决,不要只看老鹰队首发球员的净效率,然后得出这样的结论:“这几乎和凯尔特人的净效率一样好;这个系列赛可能会很焦灼。相反,如果你考虑老鹰最好的五人阵容,把它和波士顿最好的五人阵容放在一起比较——然后你会注意到凯尔特人最常用的五人阵容的净效率是+12.2,是亚特兰大的两倍。

幸运的是,季后赛本身就适合进行同类比较,因为球员、阵容和球队之间的正面交锋太多了。记住所有这些警告和提示,你的分析将在整个季后赛中更加精确和具有预测性。

湿乎乎的话题西海岸社团
阅读 137824

这些回复亮了

discusser-avatar

巅峰科比杜兰特

亮了(72)
查看回复(5)
回复

这不就是统计学问题吗,样本的选取,大样本,离散数据,误差,异常值,方差,协方差,变量选择,置信区间等等

GIF
discusser-avatar

争做Steve

亮了(81)
查看回复(3)
回复

看似专业,说了统计数据分析的局限性,没有任何解决问题的方法。浪费了十分钟

discusser-avatar

巅峰科比杜兰特

亮了(59)
查看回复(1)
回复
崖上生花数据统计还是有片面性,只是起到辅助作用,最终还是要看实际表现和结果收起

这帖子看似分析很复杂,很有干货,其实就是把统计学的一些基础知识结合篮球翻译过来,同时阐明了数据的局限性。我的建议还是看篮球,这帖子一般。