Diseñando Evaluaciones Técnicas Resistentes a la IA: El Enfoque de Anthropic
Share
Características Clave de la Prueba Original
- Simulación Realista: Un simulador de Python que imita una TPU con características como memoria caché administrada manualmente, VLIW, SIMD y capacidades multinúcleo.
- Recorrido Paralelo de Árbol: La tarea principal implicaba optimizar un algoritmo de recorrido paralelo de árbol, evitando deliberadamente las especificidades del aprendizaje profundo para evaluar habilidades fundamentales.
- Componente de Depuración: La versión inicial incluía un error que los candidatos necesitaban depurar, probando sus herramientas y habilidades para la resolución de problemas.
- Restricciones de Tiempo: Un límite de tiempo de 4 horas (posteriormente reducido a 2 horas), que refleja las presiones de las tareas reales de ingeniería de rendimiento.
- Uso de la IA Permitido: Se permitió explícitamente a los candidatos utilizar herramientas de IA, reflejando su posible uso en el trabajo.
El Desafío de Claude Opus: Iteraciones y Rediseños
Cada nuevo modelo de Claude presentó un desafío significativo. Claude Opus 4 inicialmente superó a la mayoría de los solicitantes humanos dentro del límite de tiempo. Si bien aún permitía la diferenciación entre los mejores candidatos, Claude Opus 4.5 posteriormente igualó su rendimiento. Esto impulsó a Anthropic a iterar a través de tres versiones de la prueba para llevar a casa.
Iteración 1: Claude Opus 4
La solución inicial de Claude Opus 4 fue notablemente eficiente, lo que destacó la necesidad de una evaluación más compleja.
Iteración 2 y 3: Aumentando la Complejidad
Las iteraciones posteriores se centraron en aumentar la complejidad y el matiz de la tarea, pasando más allá de las optimizaciones sencillas para incorporar desafíos más sutiles y requiriendo una comprensión más profunda del sistema subyacente. El objetivo era crear problemas que requirieran creatividad e ingenio, áreas donde los humanos aún tienen una ventaja.
Lecciones Aprendidas: Construyendo Evaluaciones Resistentes a la IA
La experiencia de Anthropic reveló varios principios clave para diseñar evaluaciones robustas a la asistencia de la IA:
- Concéntrese en los Fundamentos: Priorice la evaluación de habilidades y conocimientos básicos en lugar de herramientas o técnicas específicas.
- Abraza la Complejidad: Diseñe problemas con múltiples capas de optimización y matices sutiles.
- Fomente la Creatividad: Incorpore tareas que requieran soluciones innovadoras y pensamiento fuera de lo común.
- Permita el Uso de la IA: Reconozca que las herramientas de IA se están convirtiendo en parte integral del flujo de trabajo y permita su uso, al mismo tiempo que evalúa las habilidades subyacentes del candidato.
- Problemas de Largo Alcance: La IA tiene dificultades con los problemas que requieren un esfuerzo sostenido y una comprensión profunda durante períodos prolongados.
El Desafío Abierto: ¿Puedes Vencer a Opus 4.5?
A pesar de los avances en la IA, los ingenieros humanos aún pueden superar a los modelos cuando se les da tiempo ilimitado. Anthropic está publicando la prueba original para llevar a casa como un desafío abierto. Si puede lograr una puntuación mejor que Claude Opus 4.5 con tiempo ilimitado, le animan a ponerse en contacto: https://daic.aisoft.app?network=aisoft
Conclusión: Adaptándose al Futuro de la Evaluación Técnica
El recorrido de Anthropic destaca el panorama en evolución de la evaluación técnica en la era de la IA. Al adaptar continuamente sus métodos de evaluación y centrarse en las habilidades fundamentales, la creatividad y las habilidades para la resolución de problemas, están garantizando que puedan identificar y contratar a los mejores ingenieros de rendimiento. Las lecciones aprendidas de esta experiencia brindan información valiosa para cualquier organización que busque evaluar el talento técnico en un mundo que cambia rápidamente.