Incerteza. Essa é provavelmente a palavra que melhor define o que é o Draft da NBA. Nunca sabemos o que um jogador vai se tornar na liga antes de seu recrutamento: atletas considerados escolhas certeiras ao subir no palco podem não render nada em quadra e jogadores virtualmente desconhecidos entrando no recrutamento podem se tornar lendas do esporte. Muitas variáveis influenciam no sucesso ou não de um jogador, desde seus pontos fortes e fracos em quadra a aspectos como personalidade, ética de trabalho e situação em que foi colocado.
Desse modo, é naturalmente difícil o processo das equipes definirem quem devem escolher ou não e projetar quais serão suas habilidades futuramente. Um bom scouting, seguido de entrevistas e workouts , são as principais ferramentas para responder essas perguntas, mas o “analytics” tem se mostrado um importante aliado nesse processo.
Diversos times da NBA apresentam modelos estatísticos para tentar predizer qual será o desempenho de prospectos na liga a partir de seus dados e estatísticas no college/ligas internacionais. É claro que modelos com esse não são perfeitos (nenhum modelo estatístico é) e apresentam algumas projeções equivocadas, mas ainda assim apresentam uma precisão relevante e que ajuda a ter uma ideia do que esperar de determinado jogador.
De modo a ilustrar como esses modelos funcionam e trazer um pouco de informação do que esperar de jogadores da classe de 2024 a partir de como jogadores similares a eles se saíram no passado, o Bandeja de 3 criou um modelo para avaliar o desempenho esperado dos prospectos a partir de seus números no basquete universitário. O nosso sistema é com certeza bem mais simples e inferior aos das franquias, mas ainda assim apresentou certa precisão e informações interessantes.
Antes de mais nada, vale dizer que com certeza diversos jogadores irão ter performances muito diferentes do que os nossos números indicam, seja para bem ou para mal. Como já falamos, fatores externos a seus números em quadra e atributos físicos (sejam associados a sua personalidade ou ao encaixe no time para onde irá) têm grande impacto no desempenho e não são considerados a partir do viés analítico. Enxergue os números que apresentaremos como o valor esperado do desempenho do jogador a partir de como prospectos similares no passado se saíram na NBA e não como uma predição de futurologia. Dito isso, vamos falar sobre nossos dados.
O escopo de nosso modelo é o basquete universitário, isto é, só estão incorporados jogadores que jogaram na NCAA antes de se inscreverem no draft (portanto, jogadores como Alex Sarr, Zacharie Risacher e Ron Holland não farão parte dessa análise). Os motivos de fazermos isso são bem pragmáticos: em primeiro lugar, obter dados de prospectos espalhados pelo mundo é extremamente difícil, e em segundo, não é justo colocar na mesma caixa ligas diferentes na hora de predizer o que a performance nela iria refletir na NBA.
Para criar esse sistema, utilizamos estatísticas de jogadores draftados do basquete universitário para a NBA nos últimos dez anos obtidas do site barttovik.com. O nosso objetivo foi “prever” alguns números desses jogadores na liga profissional norte-americana usando as informações sobre eles. Vamos então às variáveis usadas:
As nossas variáveis resposta (o que tentamos prever), foram:
- Eficiência finalizando no aro (FG%),
- Eficiência na floater range (FG%),
- Eficiência na meia distância (FG%),
- Eficiência em Catch & Shoot Threes (FG%),
- Eficiência em Pull Up Threes (FG%),
- Percentual de Rebotes Defensivos,
- Percentual de Rebotes Ofensivos,
- Percentual de Assistências,
- Roubos de bola por 75 posses,
- Tocos por 75 posses,
- O “Outcome” do jogador – all-nba, estrela, titular, rotação ou fundo de banco.
Cremos que esses números indicam bastante sobre a performance de um jogador na NBA atual (mas admito que faltaram indicadores mais efetivos de defesa- que é extremamente difícil de avaliar a partir de números).
Falando um pouco mais de como foi definido o outcome atingido por um jogador, as definições da classe foram as seguintes:
- All NBA: Classificado para um time all-NBA ao menos duas vezes na carreira
- Estrela: Soma de número de all-NBA e all-Star maior ou igual a 2 (e não pertence à classe anterior)
- Titular: Média de mais de 1500 minutos por temporada e de mais de 26 minutos por jogo (e não pertence às classes anteriores)
- Rotação: Média de mais de 40 jogos por temporada e mais de 10 minutos por jogo (e não pertence às classes anteriores).
- Fundo de banco: Não atende a nenhuma das classes anteriores.
Dos jogadores draftados via college entre 2014 e 2021 (população de estudo), 16 foram categorizados como All NBA, 14 como estrela, 43 como titulares, 157 como jogadores de rotação e 139 como jogadores de fundo de banco. Vale destacar que como a maioria dos jogadores não chega a um nível aqui chamado de “titular”, consequentemente o modelo vai colocar a maioria dos jogadores com maiores chances de não alcançar esse nivel.
Para realizar essa difícil tarefa de projetar desempenho de prospectos, foram utilizadas variáveis específicas para cada uma das métricas em estudo. Isto é, as variáveis que usamos para predizer eficiência finalizando no aro, por exemplo, não foram as mesmas que foram consideradas para prever o desempenho em pull up threes. De qualquer modo, os atributos utilizados em ao menos um dos modelos foram:
- Altura
- Percentual de rebotes defensivos no college
- Percentual de rebotes ofensivos no college
- Percentual de assists no college
- Percentual de turnovers no college
- Percentual de tocos no college
- Enterradas feitas no college
- Volume e aproveitamento em arremessos de curta distância no college
- Volume e aproveitamento em arremessos de média distância no college
- Volume e aproveitamento em arremessos de três pontos no college
- Aproveitamento em lances livres no college
- ORtg e DRtg do seu time do college em sua presença
- USG% do jogador no college
- Box Plus Minus ofensivo e defensivo do jogador no college.
Escolhemos, para cada modelo, as variáveis que, a partir de análises descritivas e do senso comum, demonstraram ter impacto no desempenho de prospectos. Por exemplo, para predizer o aproveitamento no aro, utilizamos altura, enterradas tentadase o aproveitamento em enterradas, volume e aproveitamento em arremessos perto da cesta na NCAA e o número de tocos de um jogador, enquanto para predizer o desempenho em catch & shoot threes utilizamos o aproveitamento e volume na mid range, aproveitamento e volume de três pontos e aproveitamento de lances livres (que foi a variável mais impactante).
Não vou entrar muito na área técnica e na metodologia estatística/computacional do nosso sistema, mas, caso interesse aos curiosos e pessoas da área, utilizamos uma técnica de modelagem chamada XGBoost, que foi implementada no RStudio para fazer esse processo. Caso alguém deseje saber mais sobre esse lado mais teórico, pode entrar em contato que respondo sobre com o maior prazer.
Ainda no assunto mais técnico, utilizamos a técnica de validação cruzada para averiguar a capacidade preditiva do modelo, onde obtivemos as seguintes métricas:
O MAE é basicamente o erro mediano do modelo. Isto é, o modelo de aproveitamento de pull ups três pontos erra em média em 2.40% o aproveitamento real dos jogadores. O MAPE , por sua vez, indica quão grande é esse número considerando a escala da variável (no caso, 0.0737 indica que em geral o erro do modelo é de 7% da média da variável).
Já para a predição de outcome do jogador, a acurácia do modelo foi na faixa de 50% – basicamente, acertamos cerca de 50% das vezes se um jogador será all-nba, estrela, titular, jogador de rotação ou fundo de banco. Pode parecer um número baixo, mas se considerarmos que é um modelo de 5 classes (onde um palpite “às cegas” teria precisão na faixa 20%), é na realidade uma taxa de acerto interessante.
Veja que todos os modelos são ao menos razoáveis: especialmente os de eficiência de arremessos, que foram realmente bons, enquanto os de tocos e assistências tiveram desempenho inferior.
É claro que poucos números preditos serão de elite, pois números altíssimos são raros e quase sempre não são o mais provável que ocorra para um atleta específico (que é o que estamos projetando) – ainda mais nessa classe.
As nossas predições de estatísticas estão em escala de percentil – basicamente, um jogador colocado como um “90” em catch and shoot threes indica que ele será um chutador de catch and shoot superior a 90% dos atletas atuais da NBA, enquanto um com “30” indica que ele será superior a apenas 30% dos jogadores da liga atualmente. Já as predições de outcome estão em probabilidade – 80% em starter indica 80% de chances de se tornar um jogador categorizado pelo modelo como um titular.
Sem mais delongas, vamos às predições dos prospectos da classe de 2024 do draft da NBA:
Nas projeções de assistências, o modelo destaca especialmente Rob Dillingham, Isaiah Collier e Dillon Jones. Sleepers como Jamal Shead e Tristen Newton também se saem bem nas projeções. Destaco também Tyler Smith, que se projeta como um passador muito acima do projetado para um forward.
Em rebotes ofensivos, Zach Edey é projetado para ser um monstro (percentil 98), e Adam Bona também é visto como um jogador de alto potencial, enquanto nos de defesa, novamente Edey, Jonathan Mogbo e Donovan Clingan estão no topo.
Na bola de três no catch and shoot, o modelo acredita que Jared McCain e Cam Spencer serão de elite, e Reed Sheppard, Harrison Ingram e Baylor Scheierman tambem são vistos como ótimos arremessadores. Nos pull ups, os destaques são Sheppard, Scheierman e Ingram.
Em finalizações no aro, nem um jogador é visto como excelente, mas Donovan Clingan, Cody Williams, Bobi Klintman e Jonathan Mogbo tem boas marcas. Em floaters, por sua vez, os destaques são Reed Sheppard, Jared McCain e Tyler Kolek, enquanto na meia distância, o provável melhor da classe é inesperadamente Donovan Clingan, seguido por Kyle Filipowski.
Já em tocos,Clingan e o Sleeper PJ Hall são os grandes destaques, seguidos por Filipowski. Em roubos, fiquem de olho em Reed Sheppard, Jamal Shead e Harrison Ingram.
Em termos de projeções de carreira, o jogador que o modelo está mais alto “em média” é Reed Sheppard, que é colocado como 90% de chances de ser um titular. No mais, o único jogador colocado com mais de 50% de chances de ser titular ou algo acima é Isaiah Collier. Gostaria de destacar também Johnny Furphy, Jaylon Tyson, Kevin McCullar e Trey Alexander, jogadores cotados para mais abaixo no Draft, mas que pelo modelo tem alguma chance relevante de se tornarem titulares.
Nomes como Justin Edwards, Harrison Ingram, Jamal Shead e Jalen Bridges também são vistos como nomes bem certos de jogadores de rotação, o que é bem positivo para nomes cotados como escolhas de segunda rodada.
Como potenciais estrelas, o modelo acredita em Isaiah Collier (quase 20% de chance de all nba, e perto disso também para all star) e inesperadamente vê bastante upside em Zach Edey. Donovan Clingan, Rob Dillingham, Devin Carter e Jared McCain também são vistos com algum potencial nesse sentido.
No outro extremo, dentre nomes de primeira rodada, o algoritmo não confia em Dalton Knetch, Carlton Carrington e Tyler Kolek.
Falando mais em geral dos principais nomes, o modelo acredita muito no potencial de arremesso de Reed Sheppard, em seu floater touch, e em menor escala, na sua capacidade de passe. Ele é considerado a pick mais segura da classe. Stephon Castle é visto apenas como um jogador de rotação, que pode sim se tornar um arremessador mediano do catch and shoot, mas que não será espetacular em nada. Clingan é visto como bom passador, finalizador no aro decente, ótimo reboteiro e protetor de aro, e que até tem certo upside. O modelo não acredita em Knetch – o vê como bom arremessador de mid range e até um chutador do drible bom, mas não o vê como uma ameaça off ball de 3 pontos como é projetado. Dillingham é visto como ótimo passador, e finalizador digno da mid range, além de ter certo upside.
Devin Carter é visto como uma aposta incerta, podendo ir de fringe a estrela, e também é projetado como um grande ladrão de bolas. Jared McCain é visto como excelente chutador e como um possivel nome com upside, e o modelo definitivamente não gosta de Ja’Kobe Walter.
É claro que projeções como essas não simplesmente fazem equipes mudarem seus alvos, mas podem servir como indicadores de jogadores a se prestar mais atenção ou acender alguns sinais amarelos quanto a outros, podendo agregar informações junto a um scouting mais aprofundando em certos aspectos e ter um peso maior com relação a jogadores na segunda rodada.
O draft é extremamente impreciso, e com certeza ao menos um desses jogadores vai exceder muito o que projetamos para ele em alguma área. Mas isso é uma constante para scouting, entrevistas, workouts… toda avaliação de prospectos é imprecisa. O uso de analytics é uma ferramenta que pode ser útil nesse processo, é mais uma fonte de informações que junto a essas outras pode ajudar os times da NBA a selecionarem melhor na noite do draft.