Una oportunidad perdida.

College Board ha utilizado un lenguaje elevado para describir sus objetivos para el nuevo SAT: equidad, equidad, preparación universitaria y profesional. Sin embargo, anunció el rediseño de la prueba en 2014 como parte de un «compromiso renovado para brindar oportunidades», sin indicar cómo proporcionaría la confirmación de la entrega. College Board ha tomado medidas para brindar oportunidades adicionales a los estudiantes: su asociación con Khan Academy y su compromiso de ampliar la disponibilidad de exenciones de tarifas se destacan como dos ejemplos, al tiempo que evita en gran medida el tema de las brechas en el desempeño de los subgrupos. Este artículo pretende desafiar este silencio y demostrar cómo los cambios en el SAT tuvieron un impacto negativo en las mujeres que tomaron el examen.

Esta pieza es más parecida a un informe de investigación que a una publicación regular. Para aquellos que deseen una visión más breve y menos sobria sobre este tema, recomiendo comenzar con «La desventaja de las evaluadoras femeninas: una reprobación de College Board».

Primero no hacer daño.

El rendimiento diferencial en el SAT entre subgrupos (género, raza y etnia e ingresos, entre otros) ha sido durante mucho tiempo un área de preocupación para los críticos de la prueba y para el mismo College Board. Durante la revisión anterior del SAT en 2005, College Board hizo una promesa notable, como se resume en su informe de 2007 «Una visión histórica de la diferencia de rendimiento de los subgrupos en la prueba de razonamiento del SAT», por Kobrin, J. et al..

Ya sea que College Board hizo la misma promesa para el nuevo SAT (edición de 2016) y no cumplió con ella o si abandonó la promesa por completo, el resultado es el mismo. Un análisis de las diferencias de puntaje muestra que al menos un grupo, las mujeres que tomaron el examen de alto rendimiento, se ha visto perjudicado por el nuevo examen. Evaluar esta afirmación requiere datos, metodología y paciencia. Las notas expandibles están disponibles en el camino para aquellos con aún más paciencia.

Las partituras, como los gatos, deben vivirse durante varios años antes de que se entiendan.

La reelaboración de las puntuaciones significa que las universidades, los consejeros y los estudiantes tienen más dificultades para interpretarlas. Las tablas de concordancia se pueden usar para comparar puntajes individuales, pero ¿qué significa que la diferencia en los puntajes promedio del SAT entre hombres y mujeres en el nuevo SAT es de 20 puntos: 1081 para hombres y 1061 para mujeres? ¿Es eso mejor o peor que la diferencia de 24 puntos en el antiguo SAT: 1503 versus 1479? ¿Importa que la diferencia del nuevo SAT aumente a por lo menos 40 puntos cuando se observa a estudiantes masculinos y femeninos con puntajes superiores al promedio? ¿Debería esperarse o desalentarse que proporcionalmente un 45 % más de hombres se encuentran en el rango de puntuación de 1400-1600 que de mujeres?

Este artículo aborda estas preguntas principalmente a través de la comparación. El autor no está equipado, por ejemplo, para responder la pregunta final, porque profundiza en una discusión más compleja de, entre otras cosas, rendimiento escolar versus rendimiento en pruebas, estereotipos y expectativas de género, y validez curricular, constructiva y predictiva. Existe un extenso cuerpo de investigación sobre estos temas.

Al evaluar exclusivamente el nuevo SAT en comparación con el antiguo SAT, se puede abordar una pregunta más específica. Tomando prestado el lenguaje de Kobrin, et al.:¿Se ampliaron las brechas en el desempeño?

El siguiente gráfico muestra la ampliación de las brechas de desempeño a medida que uno avanza hacia grupos de estudiantes con puntajes más altos. La propia investigación del College Board a menudo puede minimizar estas diferencias al observar el medio de las distribuciones. Este gráfico se desglosará gradualmente a lo largo de este informe.

Desdibujando la misión del SAT

Un cambio en evolución en la misión del SAT ha creado una cierta disonancia. Con el reposicionamiento del SAT como una prueba de «preparación universitaria y profesional», hay un énfasis adicional en los estándares curriculares, los puntos de referencia y la expansión del grupo de examinados para brindar un camino de oportunidad para todos los estudiantes. Estos son objetivos loables, probablemente esenciales, pero no coinciden con el uso tradicional del SAT como examen de admisión. Para muchos estudiantes, la preparación no lo es todo. No se presentan con los ojos llorosos los sábados por la mañana para demostrar que tienen “un 75 % o más de probabilidades de obtener una C en el primer semestre de un curso con créditos en una materia relacionada” (la definición de matemáticas y lectura). puntos de referencia en el SAT). Quieren ingresar a las universidades de su elección, y obtener buenos resultados en el SAT puede ayudarlos a alcanzar esa meta. El desempeño relativo es importante en el caso de la admisión, y poner en desventaja o ignorar a las alumnas —u otros subgrupos— que buscan puntajes competitivos viola los principios de equidad. No se debe permitir que College Board ignore a estos estudiantes, y su retórica a menudo lo hace.

Un cambio simple con consecuencias complejas

Quizás el cambio más fundamental en el nuevo SAT no fue el tema sino la puntuación. La lectura, la escritura y las matemáticas todavía se evalúan por separado, pero los puntajes SAT más utilizados, los rangos familiares de 200 a 800, ahora combinan las medidas de lectura y escritura en un solo puntaje de lectura y escritura basado en evidencia (ERW). Este cambio permitió a College Board volver a la puntuación de 400-1600 después de una década de resultados de 600-2400. David Coleman, presidente de College Board, hizo este anuncio en 2014 como una línea de aplausos—una especie de guiño a los años de gloria cuando el SAT todavía era el principal examen de ingreso a la universidad. Sin embargo, la escala 1600 ha sido un contribuyente clave a la brecha cada vez mayor en los resultados de puntuación de hombres y mujeres.

College Board dejó de informar la información completa de percentiles por género con la clase de 2015 y eliminó incluso las comparaciones de rango de puntaje en su informe anual de 2017 sobre estudiantes de último año que irán a la universidad. Gran parte de los datos históricos detallados también se han eliminado, ya sea mediante una poda intencional o fortuita. Afortunadamente, parte de esa información se ha archivado o está disponible en fuentes alternativas.

Los números que College Board no publicó.

Ampliar para ver una nota sobre fuentes de datos y comparaciones

La comparación de datos similares se enfrenta a múltiples desafíos. Durante varios años, College Board y ACT siguieron la política de publicar datos para una clase en función de las pruebas realizadas hasta junio del año de graduación. Para la clase de 2016, College Board truncó los datos en enero del último año para evitar mezclar resultados SAT antiguos y nuevos. Esto tuvo el efecto de hacer que el informe de 2016 fuera algo atípico. El informe de 2015 tiene más datos (crucialmente, percentiles completos por género) y es más típico de un ciclo completo de informes de cohortes, por lo que se usa aquí como una medida del antiguo SAT.

El informe anual de College Board sobre la clase de 2017 enfrentó el problema de cómo informar sobre los estudiantes que dejaron de evaluar con el antiguo SAT. Terminó simplemente descartando a esos 124.000 estudiantes e informó sobre los 1,72 millones que tomaron el nuevo examen. Esto tuvo el efecto de reducir los puntajes informados en comparación con un año de clase completo. Los estudiantes que toman el SAT antes tienden a tener una puntuación más alta. Los estudiantes que terminaron las pruebas con el antiguo SAT a menudo lo hicieron porque estaban satisfechos con sus calificaciones. Si bien no se publicó con su informe anual, College Board hace un seguimiento de la cohorte de 2017 como grupo y concuerda con los puntajes anteriores del SAT con los nuevos puntajes del SAT para los 124000 estudiantes adicionales, el 53 % de los cuales eran mujeres (esencialmente, la misma proporción que en el grupo total) . Las cifras de este artículo utilizan los 1,83 millones de estudiantes completos que tomaron el SAT antiguo o nuevo. Este número (a) refleja mejor a toda la cohorte y (b) es la única opción para comparar los resultados de las puntuaciones de hombres y mujeres, a menos que College Board vuelva a publicar tablas de datos completas. Las cifras presentadas aquí no coinciden directamente con el informe publicado de la clase de 2017 debido a las diferentes definiciones utilizadas. Como ejemplo de la diferencia, College Board informa que los 1,72 millones de estudiantes que tomaron el nuevo SAT promediaron 1060. Los datos sobre los 1,83 millones de estudiantes reflejan un promedio anual de clase de 1070 una vez que se incluyen los puntajes anteriores concordados. El autor no cree que ninguna de las conclusiones cambiaría en función de los diferentes grupos de estudiantes.

Si bien este artículo cuestiona algunas de las decisiones del College Board sobre la publicación de datos y la investigación, se debe tener en cuenta que ACT no ha proporcionado regularmente (¿nunca?) estadísticas detalladas de desempeño por género. En su lugar, se ha basado en informar puntuaciones medias, que pueden ocultar diferencias importantes en el rendimiento de los subgrupos.

Cálculo de la proporción de probadores masculinos y femeninos.

En términos absolutos y porcentuales, los hombres están más representados en los rangos de puntuación superior e inferior. Una medida simple de las diferencias de puntaje es la proporción de evaluadores masculinos y femeninos en una banda de puntaje dada (referida aquí como el índice masculino/femenino – sin procesar). Por ejemplo, 65.528 hombres obtuvieron una puntuación de 1400 o superior, mientras que 50.647 mujeres alcanzaron esa puntuación o la superaron, para un índice de 1,29.

Dos refinamientos de esta relación son útiles. Más mujeres toman el SAT (representan alrededor del 53% de los examinados). Tenga en cuenta que el índice masculino/femenino general – sin procesar es 0,89. Comparar el porcentaje de estudiantes masculinos y femeninos en lugar de los recuentos brutos ajusta esta diferencia y permite una discusión de resultados proporcionales. En el ejemplo utilizado anteriormente, el 7,6 % de los hombres que tomaron el examen estaban en el rango de 1400-1600. Para las mujeres examinadas, la cifra es del 5,2%. La proporción de 7,6% a 5,2% es 1,45 [the exact percentages have been rounded for presentation.] Esta cifra se denomina índice masculino/femenino (ajustado). El índice ajustado es favorecido por el autor por su reflejo de resultados proporcionales. En cambio, si se utilizara el índice bruto, los resultados seguirían siendo los mismos tanto en dirección como en magnitud, porque el porcentaje de mujeres que tomaron el examen cambió poco del antiguo SAT al nuevo. A menos que se indique lo contrario, el «Índice M/F» se referirá al Índice masculino/femenino (ajustado) en el resto de este artículo.

Otro refinamiento es observar el rendimiento acumulativo. En lugar de aislar bandas individuales, el porcentaje acumulativo permite la comparación de estudiantes en o por encima de un puntaje determinado. Esto refleja mejor cómo los estudiantes interpretan las puntuaciones. “Estoy en el tercio superior de los examinados” es una declaración más probable que “Mi puntaje me ubica entre el 12% y el 33% más alto de los resultados”. También evita el problema estadístico de que una alta representación en una banda puede enmascarar una caída en la representación en otra.

Las siguientes tablas comparan los resultados del nuevo SAT y el antiguo SAT.

La tabla muestra que el 30 % de los estudiantes varones (7.6 + 22.5 = 30.1) obtuvo 1200 o más en el nuevo SAT. La cifra equivalente para estudiantes mujeres es del 24,9%. El índice M/F para ese grupo de estudiantes es 30/24,9 = 1,21. Los datos demuestran que el cambio en los exámenes ha cambiado los resultados a favor de los hombres que obtienen puntajes altos. El índice M/F aumentó de 1,31 a 1,45.

Los índices pueden parecer abstractos, pero si el nuevo SAT hubiera mantenido las mismas diferencias de género que el antiguo SAT, la cantidad de estudiantes mujeres en el rango de 1400-1600 habría sido aproximadamente un 7 % más alta de lo que realmente era.

Interpretación del índice M/F

Para cuando las puntuaciones se acercan a la media de cada prueba [1070 on the new SAT, 1490 on the old]ambos exámenes ven índices M/F que se acercan a 1. El número de estudiantes, especialmente mujeres, en el medio de la curva comienza a superar las diferencias en la parte superior.

El índice AM/F de 1 indica la misma proporción de estudiantes masculinos y femeninos en o por encima de un puntaje dado. Es tentador pensar en un valor constante de 1 como el nivel ideal. En la práctica, ninguna prueba académica se desempeña de manera idéntica en todos los subgrupos en todos los niveles de puntaje. Además, no se debe suponer que la composición de las poblaciones de prueba de hombres y mujeres sea idéntica. La autoselección puede desempeñar un papel. El hecho de que más mujeres elijan tomar el SAT y asistir a la universidad puede producir un grupo más diverso de examinandos. Estas advertencias no implican que las organizaciones examinadoras no tengan el deber de monitorear y evaluar la imparcialidad de sus exámenes, especialmente cuando se trata de la ampliación de las brechas. Una suposición del análisis aquí es que la población de examinados para el nuevo SAT es similar a la del antiguo SAT. Esta es una suposición comúnmente hecha por College Board en su propia investigación.

Vincular partituras antiguas a nuevas

El cambio en la puntuación del SAT presenta el problema de cómo comparar los nuevos rangos del SAT con los del antiguo SAT. ¿Por qué, por ejemplo, las puntuaciones de 1400 y más en el nuevo SAT se comparan en la tabla anterior con las de 2020 y más en el antiguo SAT? Las bandas de puntaje se crearon haciendo coincidir, lo más cerca posible, el porcentaje de todos los estudiantes en los exámenes antiguos y nuevos. Por ejemplo, el 6,3 % de los evaluadores obtuvo entre 1400 y 1600 en el nuevo SAT, mientras que el 6,2 % anotó entre 2020 y 2400 en el antiguo SAT. En el nuevo SAT, el 27,3 % obtuvo una puntuación de 1200 o más, lo que se compara con el 27,4 % que obtuvo una puntuación de 1690 o más en el examen anterior. Se puede decir que los rangos son (aproximadamente) equipercentiles. Esta vinculación es necesaria porque las puntuaciones no se pueden transformar a través de una ecuación simple como nuevo = dos tercios de edad.

Ampliar para una nota sobre el uso de concordancias

Las concordancias son un método para vincular exámenes que miden habilidades similares. El ACT y el SAT han estado vinculados durante mucho tiempo a través de una concordancia para que las universidades puedan comparar a los estudiantes que presentan cualquiera de los exámenes. College Board desarrolló una concordancia de percentil de equipo para comparar el SAT nuevo y el SAT antiguo. Este artículo, sin embargo, no utiliza esa concordancia.

Por lo general, se desarrolla una concordancia haciendo que el mismo grupo de estudiantes tome ambos exámenes y haciendo coincidir los percentiles en los exámenes. College Board hizo esto en un estudio piloto completado antes de que se administrara el nuevo SAT y, lo que es más importante, ha publicado poca información sobre el piloto. Al elegir entre una medida que se puede analizar y compartir (los desempeños de las clases de 2015 y 2017) frente a una que solo requiere fe (la concordancia del College Board), el autor ha elegido lo visible. También se examinaron las puntuaciones concordantes y se demostró que producían índices M/F casi idénticos.

¿La reestructuración por sí sola aumentó las diferencias observadas o jugaron un papel otros cambios?

La explicación más obvia para la ampliación general de la brecha de puntuación es la mayor ponderación de la materia con la brecha más grande, Matemáticas, y la disminución de la ponderación de la materia con la brecha más pequeña, Escritura. Sin embargo, el análisis muestra que las decisiones de construcción de pruebas tomadas incluso dentro de un área temática en particular pueden y han dado forma al desempeño de los subgrupos. La brecha puede ampliarse o reducirse según lo que se incluye, lo que se excluye y cómo se empaquetan y ensamblan las cosas.

Las matemáticas en Matemáticas. Una disminución en el Índice M/F.

Matemáticas sigue teniendo el Índice M/F más alto y el peso de Matemáticas ha aumentado de un tercio a la mitad de la puntuación total. Sin embargo, las matemáticas en el SAT no han sido estáticas. College Board revisó drásticamente el examen. La geometría cayó en desgracia. El álgebra recibió un abrazo adicional. Gran parte de lo que había caído en «Números y operaciones» se dejó de lado para probabilidad y estadística. La aplicación de conceptos en el mundo real pasó a primer plano. A continuación se muestra una tabla que compara el rendimiento de SAT Math nuevo con el anterior.

El impacto neto de los cambios fue más bajo el índice M/F para matemáticas (tenga en cuenta que la línea continua del nuevo SAT cae debajo de la línea punteada en el gráfico). Proporcionalmente, el número de mujeres en las puntuaciones más altas del examen aumentó en lugar de disminuir. Cuando el SAT cambió en 1994 y nuevamente en 2005, los investigadores no encontraron un cambio significativo en la brecha entre estudiantes masculinos y femeninos, por lo que esto podría representar un nuevo desarrollo. Sin embargo, las metodologías no son directamente comparables. Los investigadores del College Board dependieron de las diferencias de medias estandarizadas entre las versiones del examen. Esa medida analiza la diferencia de las puntuaciones medias dividida por la desviación estándar. No separa a los estudiantes con puntajes más altos que el promedio como se hace aquí. Las diferencias estandarizadas pueden ocultar brechas importantes.

¿Las subpuntuaciones de matemáticas explican el cambio en el índice M/F?

El nuevo SAT proporciona tres subpuntuaciones: Heart of Algebra (lo que más o menos podría considerarse Álgebra I), Passport to Advanced Math (Álgebra II) y Resolución de problemas y análisis de datos (Probabilidad y Estadística). Desafortunadamente, las decisiones de College Board sobre la puntuación han hecho que las subpuntuaciones sean difíciles de comparar. Se proporcionan a continuación para completar.

El problema inherente a las calificaciones parciales del SAT es que College Board no ha propuesto una teoría unificada de calificación. Por ejemplo, no ha escalado las puntuaciones para que haya una media y una desviación estándar comunes. O lo hizo utilizando un grupo piloto que no coincidía con la población real. El resultado es que el porcentaje de estudiantes en un grupo de puntajes es diferente en cada dominio. Passport to Advanced Math tiene la mayor cantidad de estudiantes en el rango de 13 a 15, lo que también puede explicar el índice más bajo. La técnica utilizada para comparar el SAT nuevo y el SAT anterior (percentiles coincidentes) no está disponible porque los datos publicados no son lo suficientemente granulares.

¿Por qué aumentó la proporción de alumnas con puntuaciones altas en la nueva sección de matemáticas?

Una teoría es que el esfuerzo del nuevo SAT en la alineación académica hizo que el desempeño en las pruebas fuera más similar al desempeño en la escuela. Los investigadores han encontrado consistentemente que las estudiantes femeninas tienen GPA más altos en la escuela secundaria y la universidad que sus contrapartes masculinas. Ya sea que se trate de álgebra de la escuela secundaria o cálculo universitario, las mujeres con los mismos puntajes en el SAT que los hombres obtienen calificaciones más altas. En pruebas como NAEP y ACT Matemáticas, las diferencias estandarizadas (medias masculinas menos femeninas) también son más bajas que en el antiguo SAT. De hecho, la diferencia media estandarizada (ver más abajo) para el nuevo SAT Math se encuentra entre la del antiguo SAT y el ACT.

El cambio en el desempeño y las diferencias entre las materias y los exámenes sirven como recordatorios de que no existe una habilidad «matemática» monolítica. Las habilidades computacionales, de conceptualización, de visualización y verbales, por ejemplo, pueden afectar el desempeño de los estudiantes. Qué estándares de contenido incluir y cómo deben probarse son decisiones tomadas por comités y no son estrellas fijas.

Al observar problemas individuales en un examen, los psicometristas analizan la «función diferencial de elementos» (DIF) para detectar preguntas que son valores atípicos en el desempeño de los subgrupos. Sin embargo, cuando se cambia la prueba completa, la definición misma de un valor atípico es ambigua.

Separar la lectura de la escritura.

El puntaje ERW de 200-800 oscurece la división entre los puntajes de lectura y escritura y lenguaje al sumarlos. Afortunadamente, también se proporcionan puntajes de exámenes (10-40) en cada área. A diferencia de los subpuntajes, que no tienen análogos en el antiguo SAT, los puntajes de las pruebas se pueden vincular a través de un percentil equivalente a las secciones de lectura y escritura críticas del antiguo SAT (200-800).

Los índices M/F para los nuevos puntajes de lectura y escritura del SAT se presentan como líneas continuas en el gráfico a continuación. Los índices SAT antiguos son las líneas punteadas. Las divergencias de las líneas continuas y punteadas reflejan cambios en las proporciones de hombres y mujeres examinados en esos rangos de puntuación.

Expandir para leer y escribir tablas de datos

Si bien los cambios en los índices M/F para lectura son pequeños, el cambio en las puntuaciones de escritura es similar al observado en la sección de matemáticas. La diferencia crucial es que el cambio es en la dirección opuesta. En el antiguo SAT, la sección de Escritura era el único puntaje en el que el índice M/F era inferior a 1 en las bandas de puntaje más altas (es decir, una representación femenina proporcionalmente más alta). En el nuevo examen, el índice de Escritura y Lenguaje ahora está por encima de 1 (representación masculina proporcionalmente más alta). Esto equivaldría a una disminución de aproximadamente un 5 % en las alumnas en la banda superior en comparación con el antiguo SAT.

¿Qué modificaciones de escritura explican el cambio?

Los subpuntajes no existían en el SAT anterior, por lo que el cambio en los puntajes de escritura no se puede ubicar definitivamente. Una explicación parcial puede implicar la eliminación del ensayo de la sección de escritura. Las alumnas superaron a los alumnos varones en el ensayo original del SAT, que representó casi un tercio de la puntuación de escritura de 200-800 en el examen anterior.

Resumiendo los cambios

El impacto en la admisión

El porcentaje de alumnas en los rangos de puntuación más altos ha disminuido en el nuevo SAT. El impacto de este cambio no se refleja automáticamente en la admisión a la universidad. El GPA de la escuela secundaria sigue siendo el factor de admisión dominante, y las universidades selectivas tienden hacia una evaluación holística de los solicitantes. Además, las universidades no están restringidas a usar puntajes de manera establecida. Pueden aplicar pesos diferenciales a las puntuaciones de las secciones, por ejemplo. El impacto de los cambios en las pruebas en las candidatas parece un área madura para el estudio del College Board y las universidades.

Algunas universidades nunca adoptaron la escala 2400 del antiguo SAT en su totalidad y usaron solo las secciones de Lectura Crítica y Matemáticas (1600, CR+M). En estas situaciones, la dirección del cambio se invierte y el Índice Hombre/Mujer se mueve de 1,56 a 1,45. El cambio en el índice M/F para el nuevo SAT Math y la adición del componente de escritura y lenguaje (aunque solo sea como ¼ de la puntuación total) aumentan la proporción de alumnas con puntuaciones altas en comparación con una prueba CR+M. En este caso específico, la brecha se redujo frente al nuevo SAT.

Las consecuencias no deseadas de los puntajes de corte

Es posible que las universidades que usan puntajes de corte para las decisiones de admisión o becas hayan cambiado involuntariamente los recursos a los estudiantes varones el año pasado. La mayoría de estas universidades ajustaron sus puntos de corte para el nuevo SAT aplicando las tablas de concordancia del College Board. En la medida en que los puntajes de corte anteriores se basaban en puntajes de 2400 y los puntajes de corte nuevos se basaban en puntajes de 1600, las mujeres se vieron afectadas de manera desventajosa. Esto es especialmente cierto cuando se utilizan puntos de corte altos, por ejemplo, en premios al mérito o para universidades con honores. Los resultados son ambiguos cuando las decisiones involucran puntajes de sujetos individuales. El Programa Nacional de Becas por Mérito utiliza un puntaje de corte de «Índice de selección» del nuevo PSAT, pero el Índice de selección conserva la misma ponderación de Lectura, Escritura y Matemáticas del antiguo PSAT. La Corporación Nacional de Becas al Mérito no ofrece desgloses por género.

Los puntajes de corte vincularon efectivamente las decisiones a nivel institucional sobre la distribución equitativa de la ayuda por mérito o la admisión a las opciones no relacionadas de College Board sobre qué estándares incluir y qué puntajes ponderar.

El avance de la misión del SAT y el PSAT ha extendido la importación de diferencias de resultados de puntaje a un nuevo terreno. Una justificación popular para la introducción temprana del PSAT es su uso para predecir el rendimiento de AP. College Board publica «tablas de expectativas» por puntaje de corte y ofrece su juicio, sobre los informes PSAT a las escuelas, de la probabilidad de éxito de un estudiante en 21 cursos AP diferentes. College Board es cauteloso al expresar cómo se utilizará esta información, pero los eufemismos de «Tiene potencial» y «Aún no demuestra potencial» no deben enmascarar el propio potencial del PSAT para la dirección basada en el género.

¿Es el ACT una mejor prueba para las estudiantes mujeres?

Es difícil escribir extensamente sobre el SAT sin mencionar al menos el ACT.

A nivel de grupo, la cuestión de si el ACT es una mejor prueba para las mujeres no se aborda en suficientes investigaciones disponibles (la parte «mejor» es particularmente susceptible a una mala investigación). Las diferencias de medias estandarizadas son una forma de normalizar las puntuaciones en diferentes escalas. ¿Cómo, por ejemplo, se comparan 0,8 puntos en Matemáticas del ACT (la diferencia entre las puntuaciones de hombres y mujeres) y 22 puntos en la sección de Matemáticas del SAT? Al dividir esas diferencias por la desviación estándar de cada examen, se obtienen diferencias de medias estandarizadas de 0,15 y 0,21, por lo que la brecha en el rendimiento masculino/femenino es más amplia en SAT Math. La diferencia media estandarizada en los puntajes totales del SAT es 0.11, donde es esencialmente 0 en el ACT. De hecho, el puntaje promedio de ACT Composite en 2017 fue más alto para las mujeres que para los hombres: 21.1 versus 21.0, y los puntajes han sido similares durante varios años.

El problema de esta comparación es que se centra en las diferencias de medias y no examina lo que ocurre en los extremos de la curva. También ignora el hecho de que no se puede suponer que la población de examinados sea idéntica. El uso extensivo de ACT como un examen exigido por el estado puede producir una curva de distribución diferente a la del SAT (aunque se parecen más con cada año que pasa). Muchos estudiantes han optado por el ACT sobre el SAT en los últimos años o están tomando ambos exámenes. El aumento de los que toman ACT en el extremo superior de la escala (30-36) ha sido particularmente notable. El desglose por género de estos nuevos evaluadores de ACT sería interesante, pero ACT no lo ha puesto a disposición. Las limitaciones producen un veredicto diluido: entre los estudiantes que toman los exámenes respectivos, los puntajes promedio de hombres y mujeres están más cerca en el ACT que en el nuevo SAT.

A nivel individual, la pregunta sobre el incumplimiento de ACT debe abordarse con cautela. Los padres se ofenderían con razón si les dijeran que su hija debe evitar AP Physics porque los estudiantes varones superan a las mujeres en el examen. Las estadísticas grupales se usan o malinterpretan con facilidad, y las pruebas estandarizadas difícilmente tienen un historial intachable en la acentuación de los estereotipos de género. El examen de las diferencias entre el antiguo SAT y el nuevo SAT puede ayudar a recordar a los estudiantes que, si bien las universidades aceptan indistintamente el SAT y el ACT, el desempeño en las pruebas no siempre es intercambiable. La mejor decisión para un estudiante individual es hacer una comparación entre los exámenes basada en la puntuación de la prueba real o de práctica.

El peligro de la insularidad y las cuestiones pendientes

La evidencia respalda la conclusión de que el cambio del antiguo SAT al nuevo ha puesto en desventaja a las mujeres que obtuvieron puntajes altos al evaluar los puntajes combinados. Hasta qué punto el cambio en los resultados de la puntuación tuvo un impacto en el mundo real es el tipo de pregunta que el College Board debería abordar. Una preocupación es que el hecho de que el ganador se lo lleve todo en las pruebas financiadas por el estado ha hecho que College Board sea más prudente a la hora de atacar problemas difíciles, y remediar las diferencias de subgrupos es uno de los más difíciles, para que no proporcione una oportunidad para el ACT. Parece haber una tendencia creciente hacia una narrativa estrictamente controlada y una investigación menos expansiva.

Las décadas de escrutinio y crítica del antiguo SAT tuvieron el efecto beneficioso de convertirlo en una de las pruebas más investigadas del mundo. Ahora es uno de los menos investigados. Su actualidad significa que no existen documentos revisados por pares en el nuevo examen, y College Board no ha ido más allá del nivel de comunicado de prensa al analizar el desempeño de los subgrupos. ¿College Board aplicó los mismos estándares que tenía en el pasado para garantizar que «las brechas que existen en la prueba actual no se amplíen?» De no ser así, ¿cómo se alinea su misión con el objetivo declarado de David Coleman de “confrontar las desigualdades que rodean la evaluación”? La medición del rendimiento de los subgrupos es fundamental para el diseño de pruebas, por lo que la investigación se encuentra en un archivo en alguna parte. ¿Encontró moho durante el proceso de renovación? ¿Se reemplazaron las paredes? ¿Se revelarán todos los planos? ¿Qué se ha hecho o se puede hacer para prevenir la recurrencia?

Cómo el nuevo SAT ha perjudicado a las mujeres evaluadoras

Una oportunidad perdida.

Primero no hacer daño.

Las partituras, como los gatos, deben vivirse durante varios años antes de que se entiendan.

Desdibujando la misión del SAT

Un cambio simple con consecuencias complejas

Los números que College Board no publicó.

Ampliar para ver una nota sobre fuentes de datos y comparaciones

Cálculo de la proporción de probadores masculinos y femeninos.

Interpretación del índice M/F

Vincular partituras antiguas a nuevas

Ampliar para una nota sobre el uso de concordancias

¿La reestructuración por sí sola aumentó las diferencias observadas o jugaron un papel otros cambios?

Las matemáticas en Matemáticas. Una disminución en el Índice M/F.

¿Las subpuntuaciones de matemáticas explican el cambio en el índice M/F?

¿Por qué aumentó la proporción de alumnas con puntuaciones altas en la nueva sección de matemáticas?

Separar la lectura de la escritura.

Expandir para leer y escribir tablas de datos

¿Qué modificaciones de escritura explican el cambio?

Resumiendo los cambios

El impacto en la admisión

Las consecuencias no deseadas de los puntajes de corte

¿Es el ACT una mejor prueba para las estudiantes mujeres?

El peligro de la insularidad y las cuestiones pendientes

Sobre Aserrador de arte

Pagar por la universidad 101: la bola curva de CSS

¿Qué puntaje SAT® necesito para ingresar a la universidad?

Políticas y rangos de puntaje de SAT y ACT para colegios y universidades populares

Consejos de redacción de ACT English y SAT: Preposiciones paralelas

Por qué los estudiantes necesitan tomar exámenes de práctica

Cómo sobresalir en la sección de lectura del SAT

Una oportunidad perdida.

Primero no hacer daño.

Las partituras, como los gatos, deben vivirse durante varios años antes de que se entiendan.

Desdibujando la misión del SAT

Un cambio simple con consecuencias complejas

Los números que College Board no publicó.

Ampliar para ver una nota sobre fuentes de datos y comparaciones

Cálculo de la proporción de probadores masculinos y femeninos.

Interpretación del índice M/F

Vincular partituras antiguas a nuevas

Ampliar para una nota sobre el uso de concordancias

¿La reestructuración por sí sola aumentó las diferencias observadas o jugaron un papel otros cambios?

Las matemáticas en Matemáticas. Una disminución en el Índice M/F.

¿Las subpuntuaciones de matemáticas explican el cambio en el índice M/F?

¿Por qué aumentó la proporción de alumnas con puntuaciones altas en la nueva sección de matemáticas?

Separar la lectura de la escritura.

Expandir para leer y escribir tablas de datos

¿Qué modificaciones de escritura explican el cambio?

Resumiendo los cambios

El impacto en la admisión

Las consecuencias no deseadas de los puntajes de corte

¿Es el ACT una mejor prueba para las estudiantes mujeres?

El peligro de la insularidad y las cuestiones pendientes

Sobre Aserrador de arte

Publicaciones Similares