Designing AI-Resistant Technical Evaluations: Anthropic's Approach

Diseñando Evaluaciones Técnicas Resistentes a la IA: El Enfoque de Anthropic

## El Desafío Creciente: Evaluar el Talento Técnico en la Era de la IA Como las capacidades de la IA avanzan rápidamente, evaluar a los candidatos técnicos se vuelve cada vez más complejo. Las evaluaciones técnicas tradicionales que diferencian eficazmente los niveles de habilidad hoy, podrían ser resueltas fácilmente por modelos de IA mañana, volviéndolas obsoletas. Anthropic, una empresa líder en investigación de IA, ha enfrentado este desafío de frente, particularmente dentro de su equipo de ingeniería de rendimiento. Este artículo detalla su recorrido en el diseño y rediseño de una prueba para llevar a casa para permanecer robusta contra la asistencia de la IA, compartiendo valiosas lecciones aprendidas en el camino. ## El Diseño Original para Llevar a Casa: Un Desafío de Ingeniería de Rendimiento En noviembre de 2023, Anthropic necesitaba evaluar eficientemente un gran número de candidatos de ingeniería de rendimiento. Diseñaron una prueba para llevar a casa centrada en la optimización de código para un acelerador simulado, que se asemeja a las TPUs. Más de 1,000 candidatos la han completado desde entonces, y docenas ahora contribuyen significativamente a la infraestructura de Anthropic, incluidos ingenieros que construyeron y mantienen el clúster Trainium.

Características Clave de la Prueba Original

  • Simulación Realista: Un simulador de Python que imita una TPU con características como memoria caché administrada manualmente, VLIW, SIMD y capacidades multinúcleo.
  • Recorrido Paralelo de Árbol: La tarea principal implicaba optimizar un algoritmo de recorrido paralelo de árbol, evitando deliberadamente las especificidades del aprendizaje profundo para evaluar habilidades fundamentales.
  • Componente de Depuración: La versión inicial incluía un error que los candidatos necesitaban depurar, probando sus herramientas y habilidades para la resolución de problemas.
  • Restricciones de Tiempo: Un límite de tiempo de 4 horas (posteriormente reducido a 2 horas), que refleja las presiones de las tareas reales de ingeniería de rendimiento.
  • Uso de la IA Permitido: Se permitió explícitamente a los candidatos utilizar herramientas de IA, reflejando su posible uso en el trabajo.

El Desafío de Claude Opus: Iteraciones y Rediseños

Cada nuevo modelo de Claude presentó un desafío significativo. Claude Opus 4 inicialmente superó a la mayoría de los solicitantes humanos dentro del límite de tiempo. Si bien aún permitía la diferenciación entre los mejores candidatos, Claude Opus 4.5 posteriormente igualó su rendimiento. Esto impulsó a Anthropic a iterar a través de tres versiones de la prueba para llevar a casa.

Iteración 1: Claude Opus 4

La solución inicial de Claude Opus 4 fue notablemente eficiente, lo que destacó la necesidad de una evaluación más compleja.

Iteración 2 y 3: Aumentando la Complejidad

Las iteraciones posteriores se centraron en aumentar la complejidad y el matiz de la tarea, pasando más allá de las optimizaciones sencillas para incorporar desafíos más sutiles y requiriendo una comprensión más profunda del sistema subyacente. El objetivo era crear problemas que requirieran creatividad e ingenio, áreas donde los humanos aún tienen una ventaja.

Lecciones Aprendidas: Construyendo Evaluaciones Resistentes a la IA

La experiencia de Anthropic reveló varios principios clave para diseñar evaluaciones robustas a la asistencia de la IA:

  • Concéntrese en los Fundamentos: Priorice la evaluación de habilidades y conocimientos básicos en lugar de herramientas o técnicas específicas.
  • Abraza la Complejidad: Diseñe problemas con múltiples capas de optimización y matices sutiles.
  • Fomente la Creatividad: Incorpore tareas que requieran soluciones innovadoras y pensamiento fuera de lo común.
  • Permita el Uso de la IA: Reconozca que las herramientas de IA se están convirtiendo en parte integral del flujo de trabajo y permita su uso, al mismo tiempo que evalúa las habilidades subyacentes del candidato.
  • Problemas de Largo Alcance: La IA tiene dificultades con los problemas que requieren un esfuerzo sostenido y una comprensión profunda durante períodos prolongados.

El Desafío Abierto: ¿Puedes Vencer a Opus 4.5?

A pesar de los avances en la IA, los ingenieros humanos aún pueden superar a los modelos cuando se les da tiempo ilimitado. Anthropic está publicando la prueba original para llevar a casa como un desafío abierto. Si puede lograr una puntuación mejor que Claude Opus 4.5 con tiempo ilimitado, le animan a ponerse en contacto: https://daic.aisoft.app?network=aisoft

Conclusión: Adaptándose al Futuro de la Evaluación Técnica

El recorrido de Anthropic destaca el panorama en evolución de la evaluación técnica en la era de la IA. Al adaptar continuamente sus métodos de evaluación y centrarse en las habilidades fundamentales, la creatividad y las habilidades para la resolución de problemas, están garantizando que puedan identificar y contratar a los mejores ingenieros de rendimiento. Las lecciones aprendidas de esta experiencia brindan información valiosa para cualquier organización que busque evaluar el talento técnico en un mundo que cambia rápidamente.

Regresar al blog