Índice
A IA ya es un concepto intrínseco en nuestra vida cotidiana. Casi todos los procesadores de los equipos digitales actuales utilizan algún mecanismo de Generación de Contenidos para realizar sus tareas de manera más rápida y eficiente. Desde el reconocimiento facial hasta las listas de reproducción personalizadas en tus apps de streaming, la Inteligencia Artificial trabaja para hacernos la vida más fácil.
Sin embargo, IA son programas que están en constante desarrollo y, como un niño, aprenden y necesitan que se evalúen sus conocimientos. De esta manera, el Qualcomm preparó una presentación, el Taller de referencia de IA, para mostrar qué parámetros debe usar un programa de referencia para evaluar una IA y cómo los programas más populares realizan este procedimiento.
La evaluación de los programas de referencia de IA
Normalmente IA son capaces de realizar TOPS (operaciones de tera por segundo, Tera operaciones por segundo, en inglés). Esto significa que el programa puede hacer millones de cálculos en solo un segundo, y esta es una medida importante que debe evaluar un punto de referencia. Sin embargo, no todos TOPS de IA son iguales.
Es necesario tener en cuenta que tal medida puede ser informada arbitrariamente (sin ningún sustento de evaluación científica), no ser la medida real (datos manipulados por las empresas), o ser nada más que una vaporware (software anunciado por un desarrollador con características únicas pero nunca lanzado).
Por lo tanto, es esencial que el programa de referencia utilice un modelo de información pública y conocida como entrada de prueba (como el "Inicio v3" u otros) y que podrá medir el desempeño de manera igualitaria y justa para cualquier IA.
Sin embargo, incluso esta alternativa tiene algunas desventajas, como la incapacidad de indicar el mejor rendimiento que puede lograr el hardware; el hecho de que algunos modelos son irrelevantes para casos de uso comercial; y la dificultad de usar este método para comparar IA de diferentes desarrolladores.
Esto plantea una serie de retos para la creación y desarrollo de un programa de referencia para IA con fines comerciales. Dichos programas suelen utilizar redes heredadas (modelos consolidados pero antiguos) en lugar de "Estado del arte" (modelos actualizados). Además, nuevo hardware y IA están surgiendo y los programas de referencia no siguen esta evolución dinámica, a menudo sin tener los requisitos necesarios para evaluar el IA de manera satisfactoria.
A Qualcomm enumera tres categorías principales de factores (tipo de datos, marco de ejecución y ponderación de la puntuación) que un programa de evaluación comparativa debe tener en cuenta:
- enteros vs. punto flotante: Los enteros son tipos de datos numéricos que están en el rango de 0 a 65535, mientras que los números de punto flotante están en el rango de 3,4 x 10^(-38) a 3,4 x 10^(38) (estos son números con casi cuarenta dígitos). Debido a esta gran diferencia en los tipos de datos, el rendimiento y la potencia de un programa de referencia IA pueden ser afectados.
- SDK de proveedor vs. API de redes neuronales: A menudo, los sistemas operativos de los teléfonos inteligentes y otros dispositivos inteligentes basados en Android utilice el propio SDK del proveedor para realizar tareas que requieran el uso de Inteligencia Artificial. Esto crea una diferencia muy grande entre los tipos de análisis realizados por un programa de referencia de IA, ya que se estandariza con el uso de la API de redes neuronales de IA. Android solucionaría este problema.
- Diferencias significativas en la puntuación: la puntuación final de una IA cuando se analiza mediante un programa de referencia puede estar muy influenciada por el caso de prueba utilizado o una categoría específica de datos. El uso de un conjunto estandarizado de pruebas evitaría diferencias tan grandes en la puntuación al observar el desempeño de las mismas IA en diferentes programas de referencia.
Con respecto a los problemas de puntuación, el Qualcomm sugiere encarecidamente que se compruebe que los programas de referencia estén practicando una puntuación ponderada justa que refleje los usos del mundo real. Ejemplos de casos de uso son a través de redes informáticas, comparando datos enteros con datos de coma flotante, núcleos de CPU/GPU, etc.
Además, la composición de esta puntuación debe ser transparente (clara para interpretar) y utilizar los tipos de redes y casos de prueba más actuales (sin diferencias significativas para conjuntos de chips obsoletos o redes y casos de prueba).
El mejor ejemplo que podemos utilizar para contextualizar el problema de las diferencias en puntuaciones sería si realizáramos una prueba que involucrara dos conjuntos de datos: manzanas y naranjas. Al ser dos frutos diferentes, no es posible comparar estos dos conjuntos entre sí y cualquier análisis no representaría la realidad.
Programas mostrados en el taller Benchmark AI de Qualcomm
Durante el taller, el Qualcomm se centró en dos de los programas más utilizados por empresas y desarrolladores para evaluar el desempeño de los IA presente en sus procesadores: la marca AI e actitud (actualmente bloqueado Play Store). A continuación, conoceremos más en profundidad estos programas y entenderemos sus principales características y diferencias.
marca AI
El programa desarrollado por Empresa de software Ludashi Holdings Utiliza una serie de modelos para IA y casos de prueba. Para la clasificación de datos utiliza los modelos OrigenV3 e Resnet34, para la detección de objetos, el MobilenetV1_SSD y para la segmentación de datos el DeeplabV3.
Mediante el uso de modelos de prueba comunes que la mayoría de los proveedores de conjuntos de chips utilizan para acelerar sus procesadores, el marca AI garantiza una evaluación con el menor sesgo posible en su puntuación.
Además, el marca AI permite, al utilizar el SDK de procesamiento neuronal de Qualcomm Es posible utilizar simultáneamente el Extensiones vectoriales hexagonales de Qualcomm al lado de Hexagon Tensor Accelerator para mostrar la capacidad de rendimiento total de IA da Qualcomm.
actitud
O actitud, desarrollado por la Comisión Antutu, es otro programa popular que compara IA y se especializa en casos de prueba relacionados con la clasificación y detección de objetos. Por lo tanto, el programa tiene sólo dos modelos de prueba: el OrigenV3 (clasificación) y la MobilenetV2_SSD (detección de objetos).
Además de permitir la ejecución simultánea de las Extensiones vectoriales hexagonales de Qualcomm al lado de Hexagon Tensor Accelerator,el actitud También incluye una herramienta que te permite organizar las partituras de los IA en términos de precisión (qué tan bien la IA pudo hacer bien las pruebas).
Rendimiento de IA en procesadores Qualcomm
Al realizar pruebas usando el mismo SDK (paquete de herramientas) como referencia, tanto en el marca AI cuanto en actitud, los procesadores Snapdragon 865 e 765 da Qualcomm logró un excelente rendimiento, destacándose por su rendimiento superior al promedio en comparación con otros conjuntos de chips.
¿Cómo elegir el mejor programa de referencia para IA?
Desafortunadamente, la respuesta a esa pregunta es: depende. No existe una solución perfecta para comparar hardware basado en IA, pero algunos programas de referencia pueden representar con mayor precisión el rendimiento real que otros. Hay que tener en cuenta los modelos utilizados, los casos de prueba y si no se produce una diferencia muy significativa en la puntuación final del IA🇧🇷 Sin embargo, ciertamente entre las sugerencias para el uso de Qualcomm Podemos recomendar con seguridad el uso de Marca IA y el Artículo.
Descubra más sobre Showmetech
Regístrate para recibir nuestras últimas novedades por correo electrónico.