Los mitos en torno al Machine Learning

Los mitos en torno al Machine Learning

Compartir

Easy Solutions publicó hoy un análisis sobre los mitos que existen alrededor del popular concepto de Machine Learning.  Según Javier Vargas, Gerente de Investigación de Easy Solutions, el Machine learning nunca ha sido tan común y accesible como hoy, pero aún hay mucho desconocimiento al respecto.

Esta tecnología ha influenciado e impulsado varias industrias y mercados. Por ejemplo, las cadenas de retail la emplean para recomendaciones de productos, los proveedores de email la usan para filtrar spam, las redes sociales la aplican en reconocimiento facial y análisis de emociones, y la lista continúa. La industria de la seguridad informática está realizando importantes inversiones en este campo con el fin de fortificar su arsenal contra los cibercriminales. “Hoy en día es muy raro encontrar un proveedor de seguridad que no ofrezca algún producto de machine learning”, puntualiza el ejecutivo.

En el pasado, una gran parte del esfuerzo humano era dirigido hacia el desarrollo de sólidos conocimientos de dominio, los cuales eran luego traducidos en firmas, reglas, listas o patrones de correlación que a su vez pudieran ser integrados en un producto comercializable. Hoy en día, los niveles de protección están recibiendo un refuerzo adicional mediante los análisis predictivo basado en poderosos algoritmos capaces de extraer información de conjuntos de datos aparentemente caóticos y creando relaciones a través del tiempo, el espacio y los comportamientos.

Las Verdades:

La tecnología de machine learning está destinada a conquistar aquellos retos antes inalcanzables para las capacidades humanas y los sistemas estáticos. Machine learning nos brinda una habilidad sin precedentes para interpretar grandes volúmenes de datos desestructurados provenientes de diversas fuentes, incluyendo interacción de usuarios, datos transaccionales, actividad en redes, historiales de phishing y sistemas de detección en puntos finales.

Desafortunadamente, y gracias a su ilimitado potencial y enorme éxito al enfrentar difíciles retos, machine learning produce grandes expectativas, presentándose como una caja mágica capaz de resolver cualquier problema. De esta forma, la tecnología crea esperanzas de desempeño irreales en usuarios no muy bien informados. Usualmente, la aplicación de técnicas de machine learning a la ciberseguridad produce una serie de preconcepciones.

Los siguientes 4 puntos resaltan algunas de estas ideas, las cuales deben ser tenidas en cuenta por los usuarios para evitar decepciones a la hora de adoptar la tecnología de machine learning:

  1. Machine learning extrae conocimiento, no lo crea. Las soluciones basadas en machine learning solo alcanzan su verdadero potencial cuando cuentan con suficientes datos de calidad. El tamaño y la precisión de los datos son críticos para la exitosa aplicación de machine learning.

Si su compañía decide invertir en esta tecnología, es importante desarrollar una conciencia de datos a través de toda la organización, especialmente en aquellas áreas involucradas en la detección y mitigación de incidentes. Todos los datos relacionados con la ciberseguridad e incidentes de fraude (normales y anómalos) deben ser clasificados meticulosamente.

  1. Es tecnología adicional, no un fundamento. Si bien las campañas de marketing quieren hacernos creer que machine learning supera a todos los sistemas existentes, es importante ser cauteloso y tener expectativas razonables. No hay necesidad de tirar a la basura los mecanismos tradicionales y reemplazarlos por un nuevo y brillante algoritmo de machine learning. Las estrategias exitosas nunca dependen de un solo nivel de protección, y esto no va a cambiar pronto. Asegúrese de incorporar la tecnología de machine learning en una robusta estrategia multinivel. Recuerde que así tendrá mayores probabilidades de detectar ataques diseñados para evadir defensas estáticas. Machine learning es un buen complemento para aquellos sistemas a los cuales se les ha invertido tanto tiempo y dedicación para ajustar.
  1. Las evaluaciones de desempeño realizadas por científicos de datos tienden a ser ambiguas, por lo cual asegúrese de entender su esencia.  Acostúmbrese a términos como tasas de falsos positivos, falsos negativos, precisión y F-Score. Estos términos son de gran importancia al ajustar el modelo de acuerdo a sus necesidades.

Una de las causas más frecuentes de decepción en lo concerniente a machine learning parte de los falsos positivos y la tasa de alertas. El análisis predictivo siempre tiene un costo y puede ser muy frustrante implementar un algoritmo que supuestamente provee un desempeño inigualable, solo para descubrir que está consumiendo toda su capacidad operacional.

Evaluar un modelo de machine learning con base en solo dos ejemplos no representativos es injusto y engañoso. Un modelo de machine learning debe ser evaluado con pruebas estadísticas cuidadosamente diseñadas y empleando muestras significativas de datos. Esto significa que el desempeño debe ser evaluado al aplicar el algoritmo varias veces sobre un conjunto de datos, el cual represente con precisión un problema de la vida real. Al evaluar un modelo de machine learning, pregúntele a su proveedor cómo lo hacen ellos y solicítele un proceso con sus propios datos.

  1. Los resultados de los procesos de machine learning no siempre son fáciles de explicar. La industria de la ciberseguridad está acostumbrada a reglas, listas, huellas dactilares e indicadores de afectación. Esto permite explicar fácil y naturalmente por qué una determinada alerta se activó. En contraste, los modelos de machine learning identifican patrones en grandes conjuntos de datos, extrapolan respuestas y hacen predicciones basándose en composiciones no triviales. Todo esto hace que sea difícil entender sus procesos internos. Actualmente se están realizando grandes esfuerzos para encontrar formas de explicar los resultados ofrecidos por modelos de machine learning. Sin embargo, estos avanzados sistemas solo ofrecen estimados en términos de explicaciones interpretables, los cuales no pueden ser seguidos al pie de la letra.

Conclusión

Al ser aplicada correctamente, la tecnología de machine learning aumenta dramáticamente la capacidad de una organización para combatir amenazas sofisticadas, mientras saca mayor provecho de los datos de seguridad y la inteligencia de amenazas. Pero prepárese para evolucionar rápidamente. Nuestros adversarios son inteligentes, y cada día su conocimiento en machine learning aumenta. En poco tiempo estarán listos para tratar de evadir las más avanzadas defensas. Machine learning es capaz de mejorar con el tiempo, solo si las organizaciones están dispuestas a permitir su evolución mediante datos actualizados. Asegúrese de que su infraestructura operacional está al tanto de las predicciones falsas y exitosas del modelo. Esto permitirá ajustarlo y que evolucione más ágilmente. Concluye Javier Vargas.