El SAT de junio de 2018 ha recibido mucha atención negativa debido a su curva anormalmente dura. Entre las preguntas que vemos a continuación:

¿Fueron los puntajes realmente más bajos en junio o simplemente se percibió que eran más bajos debido a la dura escala?
¿Se calificó correctamente el SAT?
¿El SAT de junio fue demasiado fácil para proporcionar puntajes precisos?
¿Los estudiantes en algunas partes de la escala se vieron afectados negativamente por demasiadas preguntas fáciles?
¿Cómo se lanzó una prueba tan atípica?

Puntuaciones brutas versus puntuaciones escaladas
Los estudiantes a menudo juzgan su desempeño en función de cuántas preguntas respondieron mal, pero las pruebas estandarizadas no se califican solo con puntajes brutos. La dificultad de las preguntas y la dureza de la escala deben estar en equilibrio para que el SAT y el ACT sean justos en diferentes fechas de exámenes. Tres errores en el examen de Matemáticas de mayo de 2017, por ejemplo, habrían producido una puntuación escalada de 770. Tres errores en el más fácil La prueba de junio habría producido un 720. La frase «más bajo de lo esperado» aparecía a menudo en las discusiones del SAT de junio debido a esta diferencia en la escala. Si bien el SAT de junio fue anormalmente fácil en las tres secciones, el enfoque a continuación será Matemáticas.

¿Junio fue realmente tan fácil?
Las preguntas del SAT van desde muy fáciles (aquellas que respondieron correctamente más del 90 % de los estudiantes) hasta muy difíciles (aquellas que respondieron menos del 30 % de los estudiantes). La siguiente tabla ordena las 58 preguntas de Matemáticas en los SAT de diciembre de 2017, mayo de 2018 y junio de 2018 en orden de dificultad. Las diferencias son impactantes. Las preguntas más fáciles son más fáciles. Las preguntas más difíciles son más fáciles. Todo lo que está en el medio es más fácil. La prueba de junio fue un valor atípico de un valor atípico.

¿Los puntajes en junio fueron más bajos?
De las estadísticas reportadas por College Board, parece que las puntuaciones escaladas fueron no menor en general. Nuestro análisis aprovecha el hecho de que el grupo de estudiantes que toman una fecha determinada del examen se mantiene relativamente constante de un año a otro. La fecha de junio está dominada por juveniles que buscan obtener un primer o segundo puntaje oficial antes del verano.

El puntaje promedio en el SAT de junio de 2017 fue 1111.
El puntaje promedio en el SAT de junio de 2018 también fue 1111.

Ningún cambio.

Los estudiantes más preocupados por las escalas extrañas fueron los examinados con puntajes altos que vieron que incluso unos pocos errores redujeron sus puntajes.

El 6,65 % de los estudiantes obtuvo una puntuación total de 1400-1600 en el SAT de junio de 2017.
El 6,65 % de los estudiantes obtuvo una puntuación total de 1400-1600 en el SAT de junio de 2018. Ningún cambio.

Ningún cambio.

Esto no prueba que la prueba haya sido justa, pero indica que las puntuaciones, en su conjunto, no se redujeron.

¿Existe una forma sencilla de entender cuán diferente fue el SAT de junio de otros SAT?
Una forma de evaluar la dificultad bruta de un SAT es observar el porcentaje de preguntas que los estudiantes con un puntaje en particular responden correctamente. Los estudiantes que lograron puntajes de Matemáticas de 600 y 700 en el SAT de junio respondieron correctamente 45 de 58 preguntas (77,6 %) y 54 de 58 (93,1 %), respectivamente. ¿Cómo se comparan esos porcentajes con otras pruebas?

El SAT de junio fue considerablemente más fácil que cualquiera de los otros 14 nuevos SAT que han sido liberados.

El SAT de junio fue mucho más fácil que cualquiera de los 50 SAT antiguos publicados que Soy Sat ha documentado.

El SAT de junio fue incluso más fácil que cualquiera de los 8 nuevos PSAT/NMSQT College Board ha dado!

Esta última comparación es particularmente problemática. Los PSAT están diseñados para ser más fáciles que los SAT porque los toman los estudiantes de los grados 10 y 11 cerca del comienzo del año escolar. College Board entiende que el PSAT es demasiado fácil de predecir con precisión puntajes más altos, por lo que limita la escala a 760. Si el PSAT es demasiado fácil de predecir puntajes de 770-800, y el SAT de junio fue más fácil que cada nuevo PSAT dado, ¿qué significa? que dicen acerca de la capacidad del formulario para predecir puntajes altos?

¿Hay alguna evidencia de que College Board calificó mal los exámenes?
Los datos publicados no muestran que los exámenes hayan sido mal calificados. La siguiente tabla muestra la cantidad de preguntas correctas (puntos sin procesar) que promediaron los estudiantes en los SAT de diciembre de 2017, mayo de 2018 y junio de 2018. Los exámenes de diciembre y mayo reflejan niveles de dificultad más típicos y se incluyen porque los perfiles de los examinados se aproximan a los del SAT de junio. [June 2017 question data were not available.]

Los estudiantes del SAT de junio obtuvieron 4,3 puntos brutos más que estudiantes similares que tomaron el SAT de mayo y casi 6,8 puntos más que los que tomaron el SAT de diciembre. Podríamos decir que la prueba de diciembre fue un 22% más fácil que la de junio. [6.8 / 30.7 = 22%].

Para comparar adecuadamente a los estudiantes de mayo y junio, debemos ajustar la diferencia de 8 puntos en las puntuaciones escaladas, 561 frente a 553. Esa es una diferencia de aproximadamente 0,8 puntos brutos. Esto significa que si los estudiantes de junio hubieran recibido el formulario de mayo, probablemente habrían obtenido 5.1 puntos más. [4.3 + 0.8] más de lo que hicieron en el formulario de junio. Esa diferencia de aproximadamente 5 puntos es la que vemos reflejada en la escala. Por ejemplo, un estudiante en mayo necesitaba 45 puntos brutos para obtener 650. Una persona que tomó el examen en junio necesitaba 50 puntos brutos. Solo están disponibles las cifras generales de rendimiento de los estudiantes, por lo que no podemos hacer el mismo cálculo en las puntuaciones más altas. Los números que nosotros lata ver, sin embargo, indicar que College Board configuró correctamente la escala para ajustar las preguntas más fáciles.

¿Puede una báscula ser correcta y poco fiable al mismo tiempo?
Un puntaje en una prueba estandarizada es solo una estimación del «puntaje real» de un estudiante. Una forma de definir la precisión de esa estimación es la probabilidad de que la puntuación real del estudiante se encuentre dentro de un cierto rango de la puntuación de la prueba («puntuación observada»). Si bien a menudo se pasa por alto, cada informe SAT proporciona un rango para los puntajes del estudiante. Este rango es +-30 puntos en Matemáticas y ERW. Se espera que la puntuación real de un estudiante se encuentre dentro de este rango aproximadamente el 68% del tiempo. Sin embargo, este error estándar de medición refleja el error en todo el rango de puntajes de 200 a 800. El error puede diferir a lo largo de la escala y de una prueba a otra. La rareza del SAT de junio significa que su precisión en la estimación de puntajes reales entre los estudiantes con puntajes altos hubiera sido peor que en cualquier otro SAT nuevo.

¿Algún estudiante ganar un 800 matemáticas?
La respuesta intencionalmente provocativa es «No». Entre los 300.000 evaluadores, estoy seguro de que muchos recibieron 800, y no pretendo cuestionar sus resultados. Los puntajes se lograron bajo las mismas reglas que se han utilizado durante décadas. Responder todas las preguntas correctamente siempre debe producir un 800. No importa cuán difíciles o fáciles sean los problemas, esto es simplemente una definición. Sin embargo, si se hubiera permitido que la escala flotara libremente, es poco probable que incluso un puntaje bruto perfecto llegara a 800. Las caídas pronunciadas en la conversión de bruto a escala (770, 750, 720, 700) indican que la escala en esta prueba fue anormalmente extendida. El SAT de junio era un PSAT disfrazado de SAT.

La mayoría de los formularios SAT tienen una variedad de problemas difíciles que son importantes para distinguir a los estudiantes con puntajes altos. La prueba de diciembre tuvo 19 problemas de matemáticas en los que los estudiantes tuvieron menos del 40% de éxito. La prueba de mayo tuvo 12. ¡La prueba de junio tuvo 5! Las grandes diferencias entre junio y todos los nuevos SAT anteriores deberían haber sido evidentes durante el proceso de construcción. Si una prueba tan fácil no se considera fuera de las especificaciones, podría ser el momento de revisar las especificaciones.

¿Significa todo esto que los puntajes de junio deben descartarse?
Se requiere aceptar cierto grado de borrosidad con cualquier resultado de prueba. Si un profesor de historia tuviera que redactar un nuevo examen final y hacer que los estudiantes vuelvan a realizar la prueba, es muy poco probable que sus puntuaciones no cambien. No ponemos un asterisco junto a un examen y notamos que la A- de un estudiante fue «solo precisa en esta fecha y para estas preguntas». No obstante, College Board debería ser más comunicativo sobre los estándares que espera de sus pruebas estandarizadas y no esconderse detrás de estadísticas generales que tienden a disfrazar decisiones cuestionables.

¿Tomar el SAT de junio perjudicó a los estudiantes?
Es imposible decir si los estudiantes individuales se vieron afectados negativa o positivamente por la combinación de dificultades en la prueba de junio. Lo que muestran los puntajes promedio es que tantos estudiantes se beneficiaron de la combinación de prueba fácil/escala dura como los que se vieron perjudicados por ella. Esto también encaja con el modelo matemático. Una confiabilidad más baja de la prueba no cambia los puntajes, solo los vuelve más borrosos. Las diferencias entre las puntuaciones observadas y las puntuaciones reales son más pronunciadas, pero el error apunta en ambas direcciones. Es importante distinguir entre el enfado de los estudiantes porque un número dado de preguntas incorrectas produjo una puntuación más baja en junio y la preocupación de que sus puntuaciones escaladas tergiversaron su capacidad.

¿Significa la confusión que los estudiantes con puntajes altos deberían volver a evaluar?
Soy Sat recomendaría aplicar los mismos estándares que para cualquier otra administración. ¿Siente el estudiante que puede desempeñarse mejor con otro intento? ¿Será esa mejora suficiente para importar? ¿Encaja una nueva prueba en el cronograma de su solicitud de ingreso a la universidad?

¿Las universidades verán o deberían ver los resultados de las pruebas de junio de manera diferente?
Los oficiales de admisión no deben permitir que pequeñas diferencias en los puntajes influyan en sus decisiones. La prueba de junio simplemente destaca lo que siempre ha sido cierto. Una sola puntuación de SAT (o ACT) no es el veredicto final sobre el desempeño de un estudiante. Intrínsecamente tiene un error. Una universidad que considera que un 750 es más alto que un 720 debe lidiar con el hecho de que una sola pregunta en un solo examen resultó en tal diferencia. No está mal tener ese punto de vista, pero ¿es sabio? Tal vez el SAT de junio pueda servir como una llamada de atención a las universidades de que las calificaciones siempre deben verse como borrosas y que deben exigir más responsabilidad por parte de College Board y ACT.

¿Cuál es el impacto más amplio de la mala construcción del SAT de junio?
Los psicometristas, los expertos que crean y estudian las pruebas, señalan la solidez de las pruebas estandarizadas. Los formularios de prueba pueden diferir sustancialmente y aun así producir resultados consistentes. Sin embargo, tales irregularidades se están volviendo demasiado regulares en College Board. Ha habido problemas con las preguntas descartadas, 4 solo en esta prueba, problemas con la seguridad de la prueba y problemas con la escala. Sobre todo, hay un problema con la información y la transparencia. College Board no dice nada sustancial cuando surgen problemas. El examen de matemáticas de junio fue el SAT más fácil, tal vez nunca, pero College Board no ha explicado por qué produjo un valor tan atípico o cómo no pudo haber reducido la confiabilidad de los puntajes altos. En un momento en que el nuevo SAT todavía tiene mucho que probar y las pruebas estandarizadas en sí mismas están siendo cuestionadas, College Board no ha demostrado ser el líder que alguna vez fue.