Visión por Computadora – Una aproximacion a su uso en los vehículos – Parte III

Bueno, ya sé que ando desaparecido, pero más o menos como que me desarmo en mocos todos los días, para despertarme al siguiente entre una nube de tos, dolor de cabeza e hinchabolez muy alta…

Pero acá me voy reincorporando, de a poco, despacito.

Seguimos con la tercera parte de este informe.

Detección por dos pasos

En las aplicaciones de asistencia al conductor, los algoritmos de reconocimiento de vehículos tienen que procesar las imágenes en tiempo real (o muy cercano). Escanear la imagen por completo tratando de localizar los potenciales objetos en movimiento simplemente, no es realista. La mayoría de los métodos que aparecen en la literatura siguen dos pasos básicos:

  1. la Generación de Hipótesis (HG), donde se hipotetiza acerca de las posibles localizaciones de vehículos en la imagen.
  2. la Verificación de la Hipótesis (HV), donde se realizan tests para verificar dicha presencia.

 

 

I. Generación de Hipótesis (HG)

El objetivo del paso HG  es encontrar candidatos en una imagen rápidamente para que sean analizados luego, y la forma en que lo hace se clasifica en tres:

  • conocimiento adquirido anteriormente
  • visión estéreo
  • reconocimiento basado en el movimiento

Emplean conocimiento a-priori para hipotetizar las locaciones de los vehículos en una imagen, de acuerdo por lo general con estos enfoques:

 

Conocimiento adquirido anteriormente

a) Simetría

Vehículos observados desde el frente o desde el posterior por lo general son simétricos en direcciones horizontales y verticales. Esta observación era la más común en ser utilizada a principio de la década 1990. Un problema que se presentó es la detección como falso positivo en áreas homogéneas, muy susceptibles al ruido. La información de los bordes fue incluida en la estimación simétrica para filtrar estas áreas homogéneas. Aún con la inclusión de este sub-método, lo falsos positivos aún pueden observarse con objetos simétricos del fondo, o vehículos parcialmente ocultos.

b)Color

Más allá del hecho que pocos sistemas utilizan la información del color para extender la generación de la HG, esta es sumamente útil para la detección de obstáculos, detección de líneas, seguimiento del camino, etc. Gracias a esto se puede identificar fácilmente sectores del fondo contra sectores del camino, por la diferencia de colores. La falta de implementación sobre la comparación de color se debe a dificultades que se desprenden del reconocimiento de objetos que no sean parte del fondo o del camino, ya que el color de cada objeto depende de la iluminación, la reflexión y refracción de la luz, la geometría de visualización y el correcto ajuste de los focos. Consecuentemente, la temperatura del color aparente de un objeto puede variar en diferentes momentos del día, bajo diferentes condiciones climáticas y diferentes poses.

c) Sombras

Usar la información de las sombras como patrón para detección de vehículos fue inicialmente discutida en 1993, mediante la investigación de la intensidad de sectores de la imagen, se encontró que el área debajo de un vehículo es distintivamente más oscura que otras áreas del camino. La primera cuestión en aparecer tuvo que ver en la elección de los valores treshold o umbral, ya que la intensidad de la sombra depende de la iluminación de la imagen, que depende hasta de las variaciones climáticas. Por lo cual, se terminó concluyendo que dichos máximos y mínimos no podían ser fijos, tomando una distribución normal que se juntaba con el cálculo del espacio libre de manejo, se formó una distribución estimada de máximos afines. Todo muy lindo hasta que se vio que si partes del pavimento estaban mojadas daba falsos positivos.

d) Esquinas

Explotando el hecho que la mayoría de los vehículos en general tiene forma rectangular (en 2D, prisma rectangular en 3D), se propuso un método de HG basado en el reconocimiento de dichas esquinas. Cuatro plantillas, cada una correspondiente a cada una de las esquinas, son utilizadas para detectar todas ellas, seguimos de un método de búsqueda correlación entre ellas, por ejemplo, una esquina superior-izquierda debe tener correlación con una esquina inferior-derecha.

e) Bordes verticales/horizontales

Diferentes distas de un vehículo, especialmente en vistas posteriores, contienen muchas estructuras verticales y horizontales (como las lunetas, el parachoques, etc.). El uso de “constelaciones” de bordes verticales y horizontales ha demostrado en las últimas décadas ser una forma efectiva para hipotetizar la presencia de un vehículo. Por eso existen en este caso múltiples métodos, mediante por ejemplo picos máximos y mínimos luego del uso de un filtro triangular, o con LOC (local orientation coding), o hasta segmentación de la imagen. El problema inherente aquí está dado por lo valores de umbrales para la detección de los bordes, ya que un conjunto que puede funcionar la mayoría de las veces, puede fallar en casos diferentes (semejante a lo que pasa con el color y las sombras).

f) Textura

La presencia de vehículos en una imagen hace que la intensidad local de esos píxeles varíe. Debido a las similaridades entre casi todos los vehículos, sus texturas siguen un cierto patrón. Esta información puede ser usada para reducir el área de detección. Esta técnica de HG conlleva muchos falsos positivos ya que alguna textura del fondo puede llegar a confundirse ampliando está área de segmentación.

g) Luces de los vehículos

Mucho de lo descripto anteriormente no es efectivo para la detección de vehículos en la noche, es casi imposible detectar sombras, bordes o esquinas en imágenes nocturnas. Más allá del uso de cámaras infrarrojas, las luces vehiculares son una gran fuente de información para utilizar en la noche, utilizando análisis morfológico para detectar pares de luces en áreas de inspección reducidas.

 

Visión estéreo

Dos métodos sobresalen para utilizar esta información para la detección de vehículos. Una mediante mapa de disparidad y la otra con transformación anti-perspectiva.

a) Mapa de Disparidad

La diferencia entre cada uno de los píxeles de las imágenes izquierda y derecha se llama disparidad. Las disparidades entre todos los pixeles de una imagen a la otra se llaman “Mapa de Disparidad”. Si los parámetros de la colocación de las cámaras es conocida, entonces este mapa puede ser convertido en un mapa 3D de la escena. Sin embargo, computar este mapa de disparidades consume mucho tiempo. Por eso se han propuesto métodos que emplean dicho mapa pero que “esquivan” los procesamientos pesados, por ejemplo con clasificaciones de estructuras o dándole más autonomía a las cámaras.

b) Mapeo de Perspectiva Inversa (anti-perspectiva)

No, no es un argumento de Marvel y no, tampoco se refiere a la inversión del mapeo de la perspectiva real. En realidad, denota la inversión bajo restricciones adicionales que inversamente mapean puntos a un plano horizontal. Asumiendo un camino plano, se puede utilizar entonces la visión estéreo para predecir la imagen derecha de acuerdo a lo visto en la imagen izquierda, para luego ser comparadas. En esta forma se pueden encontrar los contornos de objetos que se encuentran por sobre el plano. Aunque sólo dos cámaras son requeridas, existen ventajas de utilizar más cámaras, pero también sube el costo computacional, por ello siempre se prefiere el uso de dos.

En general, los métodos basados en la visión estéreo son precisos y robustos sólo si los parámetros de las entradas han sido estimados correctamente previamente, lo cual es bastante difícil de realizar en escenarios reales de un vehículo que se mueve por distintos caminos. Además, las vibraciones propias del trajín vehicular pueden variar la posición delas cámaras más allá de lo que pueden manejar los amortiguadores. Los métodos de auto calibración de las cámaras más modernas aumentan la fidelidad de ambas imágenes.

 

Reconocimiento Basado en el Movimiento

Las anteriores técnicas que he presentado dependen de las características espaciales para distinguir vehículos y el fondo. Otra forma muy desarrollada y discutida es obtener el movimiento relativo obtenido mediante los cálculos del flujo óptico (la secuencia de imágenes obtenida). Este provee una gran cantidad de información para que establezcamos la HG de manera rápida y precisa.

Vehículos que se aproximan en dirección contraria producen un flujo divergente que se puede distinguir del flujo causado por el movimiento del propio vehículo (llamado ego-montion). Por el otro lado, vehículos que se alejan o siguen la misma dirección que el ego-montion, producen un flujo convergente.

Debido a las dificultades que se presentan en un escenario de una cámara que se mueve para tomar un flujo óptico denso y confiable, se convirtió en situación de estudio y discusión donde la tarea a resolver no era sencilla.

En general, estos métodos también fallan con los objetos que están o parecen estáticos.

 

 

La semana que viene seguimos con el segundo paso, la verificación de la hipótesis

 

Deja un comentario