RF-DETR es un modelo de detección de objetos en tiempo real, de código abierto y de vanguardia, desarrollado por el equipo de Roboflow. Si te preocupa que YOLO sea demasiado lento o que su precisión no sea suficiente, ¡felicidades, has encontrado la solución!

RF-DETR apunta al liderazgo en el campo de la detección en tiempo real, y generosamente ha optado por ser de código abierto, lo que significa que puedes usarlo gratuitamente e incluso modificarlo para crear tu propio "ojo de águila".

QQ_1742784819915.png

Imagina un sistema de monitoreo inteligente que, como un detective experimentado, detecta instantáneamente cada objeto clave en una transmisión de video, con una velocidad asombrosa. RF-DETR es ese detective eficiente. No solo iguala o supera la velocidad de los modelos en tiempo real anteriores, sino que también logra un salto cualitativo en la precisión.

Según datos oficiales, RF-DETR es el primer modelo en tiempo real que supera el 60% de media de precisión media (mAP) en el conjunto de datos COCO. COCO es la "olimpiada" de la visión por computadora, por lo que este logro demuestra la potencia de RF-DETR.

QQ_1742784834384.png

Más importante aún, RF-DETR no sacrifica la velocidad por la alta precisión. Alcanza una latencia sorprendentemente baja en la GPU, haciendo posible la detección en tiempo real. Esto es una gran ventaja para aplicaciones que requieren respuestas rápidas, como la conducción autónoma, el control de calidad industrial y la seguridad inteligente. ¡Imagina la mejora de eficiencia cuando tu robot identifica y agarra objetos a una velocidad increíble!

Los modelos YOLO basados en CNN han ocupado un lugar importante en la detección de objetos en tiempo real. Pero la tecnología avanza. RF-DETR, como miembro de la familia DETR (Detection Transformer), utiliza una arquitectura basada en Transformer. La ventaja de esta arquitectura es su capacidad para modelar mejor la información global, lo que permite una mayor precisión en escenarios complejos.

A diferencia de los modelos YOLO, que requieren supresión de no máximo (NMS) para filtrar los cuadros delimitadores después de la predicción, la arquitectura DETR no necesita este paso, lo que mejora la eficiencia general. El equipo de Roboflow consideró la latencia de NMS en sus evaluaciones, utilizando el concepto de "latencia total" para comparar de manera justa el rendimiento de diferentes modelos. Los resultados muestran que RF-DETR presenta una gran competitividad en velocidad y precisión, siendo estrictamente Pareto óptimo con respecto a los modelos YOLO en el conjunto de datos COCO.

Por supuesto, RF-DETR no abandona completamente las ventajas de las CNN. De hecho, muchos métodos excelentes de visión por computadora, incluidas algunas variantes avanzadas de DETR, combinan inteligentemente las ventajas de las CNN y los Transformer. RF-DETR logra un rendimiento excepcional y una gran adaptabilidad a diferentes dominios al combinar LW-DETR con una red troncal DINOv2 preentrenada. Esto significa que RF-DETR puede ofrecer un rendimiento excelente, ya sea en la detección de objetos comunes o en dominios más especializados, como imágenes aeroespaciales, entornos industriales o paisajes naturales.

QQ_1742784847722.png

Lo más emocionante es que RF-DETR es de código abierto. Sigue la licencia Apache 2.0, lo que significa que los desarrolladores pueden usar, modificar e incluso aplicarlo en proyectos comerciales sin preocuparse por los derechos de autor. El equipo de Roboflow no solo ha publicado el código del modelo, sino que también proporciona un Cuaderno de Colab para guiarte en el proceso de ajuste fino (fine-tuning) en conjuntos de datos personalizados. En el futuro, la plataforma Roboflow ofrecerá un soporte aún más sencillo para el entrenamiento y la implementación de modelos RF-DETR.

Actualmente, el equipo de Roboflow ha lanzado dos tamaños de modelo: RF-DETR-base (29 millones de parámetros) y RF-DETR-large (128 millones de parámetros), para adaptarse a diferentes necesidades de potencia de procesamiento. Además, RF-DETR admite el entrenamiento de múltiples resoluciones, lo que permite ajustar la resolución del modelo en tiempo de ejecución para encontrar el mejor equilibrio entre precisión y latencia.

Proyecto:https://top.aibase.com/tool/rf-detr