Ramón Moreno Jiménez Miguel Ángel Veganzones Bodón María Teresa García Sebastián

Transcripción

1 Ramón Moreno Jiménez Miguel Ángel Veganzones Bodón María Teresa García Sebastián

2 PREFACIO Este volumen en CD recoge las actas de las Jornadas de Inteligencia Computacional que se han celebrado en Torre Arbide (Norte) en el Parque Tecnológico de Miramón, los días 24 y 25 de octubre de. Estas jornadas son el primer mini-congreso a nivel de Campus de Gipuzkoa del Grupo de Inteligencia Computacional. La idea de realizar un mini-congreso del grupo de investigación surgió como un desafío y como una actividad formativadivulgativa, tras la exitosa realización del congreso IWANN en el Palacio de Miramar, en el contexto de los Cursos de Verano de la UPV/EHU, en Junio de. El desafío era llegar a reunir un número de trabajos que justificasen una estructura de congreso en un track único, en un tiempo muy breve. Este objetivo se ha cubierto con una treintena de trabajos que se reúnen en este volumen que se edita como un CD. Las contribuciones construyen una instantánea (si se me permite utilizar esta expresión demodé) que presenta el estado actual de los intereses de los miembros del grupo de investigación y de personas cercanas o relacionadas de alguna manera con el grupo, ya sea como codirectores de proyectos de tesis doctoral, como colaboradores de proyectos, como doctorandos o como amigos. Esta instantánea nos da la posibilidad de presentarnos de un modo global a nuestro entorno inmediato, las empresas del Parque Tecnológico de Miramón, empresas cercanas espacialmente, como Ikusi, y el propio entorno universitario, en el que el día a día hace difícil conocerse unos a otros. Esperamos que la experiencia de este evento abra las puertas para nuevas colaboraciones dentro de la propia UPV/EHU, o al menos para que se inicie un foro regular de presentación y discusión de los trabajos en materias que pueden crear sinergias importantes en el futuro. i

3 Las JIC 07 acogen a investigadores de seis departamentos de la UPV/EHU, tres centros tecnológicos y un par de empresas. Esperamos la presencia de personas de las unidades I+D+i de empresas cercanas e incluso alguna presentación que no se recoge en este volumen porque no tiene estructura formal de artículo de investigación. Dada la diversidad de los orígenes de los contribuyentes, nos permitimos considerar que este acto va a constituir un auténtico evento multidisciplinar y multicentro. La premura de la realización del trabajo (la convocatoria inicial se realizó en el mes de julio) hace que la exigencia de la calidad haya tenido que relajarse en algunos aspectos como la uniformidad del estilo de los trabajos, la lengua en la que están escritos y algunos defectos de forma o contenido que prometemos mejorar y solucionar para la próxima edición, que trataremos sea en la primavera de Precisamente uno de los aspectos más interesantes de esta actividad es el formativo. Un congreso lleva consigo el doble aspecto de preparación de la presentación propia y el enriquecimiento al escuchar a otros. La realización del congreso ha sido educativa en múltiples aspectos para los jóvenes investigadores involucrados: La realización de un trabajo de redacción en un tiempo record, compartiendo este tiempo con otras obligaciones relacionadas con la organización y otras tareas relacionadas. La revisión formal de los trabajos para adecuarlos a un mínimo estándard de calidad. La búsqueda de fuentes de financiación para soportar el evento. La organización de los detalles, como el catering o los posters de publicidad. El contacto con la editorial de la UPV/EHU, que, por otra parte, ha realizado un excelente trabajo. ii

4 La edición final del volumen, recopilando todas las variopintas contribuciones. La organización espacio temporal del evento y la implantación de la infraestructura hard-soft para la recogida de los trabajos. Los futuros investigadores no pueden considerarse como objetos frágiles en una torre de cristal en la que realizan sus delicadas creaciones intelectuales. Deben mantenerse comprometidos con todos los aspectos de la gestión y búsqueda de recursos. La realización de estas jornadas es un éxito del comité organizador que proporciona confianza para futuras ediciones todavía más ambiciosas si cabe. La expresión Inteligencia Computacional tiene su origen en la transformación de la Sociedad Redes Neuronales del IEEE en la Sociedad de Inteligencia Computacional. Esta transformación parece tener su base en la progresiva difuminación de las fronteras entre las redes neuronales artificiales y otras áreas relacionadas como la de los sistemas borrosos o difusos (fuzzy systems). En las ciencias de la computación han existido y existen, distintas aproximaciones a la construcción y análisis de sistemas que muestran inteligencia o que implementan comportamientos inteligentes. El área clásica de la Inteligencia Artificial fue colonizada durante los años 60/70 por las ramas de la Matemática más cercanas a la Lógica, dando lugar a los sistemas expertos basados en reglas y a los sistemas de demostración de teoremas. Sin embargo estos sistemas se estrellaban en la realidad con problemas derivados de la incertidumbre y de la inexistencia de conocimiento formal. El omnipresente ruido y el problema del aprendizaje construyen los límites para este tipo de sistemas. Las aproximaciones basadas en la metáfora de las redes neuronales, que habían sido masacradas en los años 60, demostraron que era factible construir sistemas no lineales que realizaban eficientemente tareas de clasificación, control predictivo, compresión, reducción de dimensiones y un largo etcétera de tareas iii

5 computacionales asociadas con la inteligencia, en ambientes ruidos y a partir de datos. Concurrentemente, las áreas de la estadística matemáticas reconocieron en las redes neuronales artificiales las contrapartes no lineales de técnicas y procedimientos estadísticos establecidos, y se produjeron los éxitos de los modelados probabilísticos para procesos de reconocimiento de patrones en diversos dominios de lo que anteriormente se reconocía como Inteligencia Artificial, así como la explosión de los métodos de optimización globales basados en el paradigma evolutivo. En este contexto, la Inteligencia Computacional abarca técnicas que van desde los sistemas borrosos hasta la minería de datos con técnicas estadísticas diversas, incluyendo la interacción con materias como la psicología experimental o la biología de las que obtiene inspiración. Nuestro grupo de investigación, el Grupo de Inteligencia Computacional de la UPV/EHU, ha estado relacionado durante años con estas corrientes de investigación, y el presente volumen recoge una muestra de temas entroncados directamente en la Inteligencia Computacional o en su entorno inmediato. Realizar un clustering estricto de las contribuciones no es fácil, pero una agrupación en grandes temas, aunque sea con flecos, solapamientos y agujeros, es necesaria para secuenciar las presentaciones y dar estructura al volumen de actas. Un tema clásico en Inteligencia Computacional son los sistemas de clasificación tanto supervisados como no supervisados. En este volumen se recogen algunos trabajos de revisión. Uno de ellos dedicado a los índices de validación de algoritmos de clustering. Otro que se concentra en los índices para clasificación no supervisada borrosa (fuzzy clustering). También incluimos una revisión de las técnicas basadas en lo que se ha dado en llamar lattice computing y de los algoritmos semisupervisados, y iv

6 trabajos sobre la convergencia de redes neuronales no supervisadas. El proceso de imágenes digitales, incluyendo procesos de reconocimiento y minería de datos, también están representados por trabajos sobre la recuperación de imágenes hiperespectrales, el análisis multirresolución, el seguimiento de objetos sin marcadores y la detección de zonas quemadas en imágenes de reconocimiento remoto. Dentro de las aplicaciones de la Inteligencia Computacional, las aplicaciones en biotecnología, muchas derivadas de la estadística médica o del tratamiento de imagen digital, constituyen un campo extenso de trabajo. La imagen de Resonancia Magnética Nuclear (IRMN) es una de las modalidades de imagen médica y biológica con mayor impacto actual. En este volumen se recogen trabajos basados en IRMN sobre inspección de cítricos, diagnóstico de enfermedades cerebrales (Enfermedad de Alzheimer), planificación de cirugía hepática. Dentro de las aplicaciones biotecnológicas incluimos la monitorización de ratones en experimentos de psicobiología y el reconocimiento visual de setas en un entorno de comunicación móvil. El análisis de los resultados de experimentos psicobiológicos, como los que tratan de evaluar estrategias de afrontar el estrés o la familiarización con el consumo de sustancias, puede considerarse más bien en el terreno de la estadística, salvo que se utilicen herramientas novedosas (como las redes morfológicas). De todas maneras, la interacción con la psicología y la biología ha demostrado ser una fuente de inspiración para el desarrollo de nuevas tendencias computacionales. El área de control y robótica cae también dentro de las actividades en las que se aplican procedimientos y técnicas de Inteligencia Computacional. Incluimos trabajos sobre control de sistemas dinámicos estocásticos, control predictivo, la realimentación visual de un robot con patas multípodo, el control de manipuladores y las v

7 potenciales utilidades de una cámara 3D para la localización y mapeado simultaneo (SLAM). El modelado de sistemas incluye una infinidad de aproximaciones y metodologías, así como aplicaciones. En este volumen recogemos trabajos sobre el modelado simbólico de agentes sociales, el coste energético de la transmisión de información entre neuronas biológicas y entre sistemas caóticos, el modelado de redes de interconexión. Un área de importancia creciente es la de los sistemas de interacción avanzados, que incluyen reconocimiento multimodal. En este volumen se incluyen trabajos sobre reconocimiento visual de emociones, reconocimiento de voz multilingüe, tutorización de personas con discapacidades y modelado de emociones no perceptibles. Un último paquete de contribuciones lo constituyen las relacionadas con tecnologías emergentes en estos momentos, como son los desarrollos de visión artificial sobre plataformas móviles, las aplicaciones industriales de la realidad aumentada y las de los marcadores de radiofrecuencia. Manuel Graña Romay Responsable del Grupo de Inteligencia Computacional San Sebastián, 16 de octubre de vi

8 Agradecimientos No Author Given No Institute Given A Manuel Graña y al resto de los integrantes del Grupo de Inteligencia Computacional de la Universidad del País Vasco (UPV/EHU) por su conanza y por la oportunidad de llevar a cabo la edicción de este libro y la organización de las I Jornadas de Inteligencia Computacional. A todos los autores por sus contribuciones, sin las cuales esta publicación no hubiera sido posible. Al personal investigador y administrativo de las instalaciones en Torre Arbide (Norte) por las facilidades prestadas. Los editores vii

9 Índice de artículos No Author Given No Institute Given A. Clasicación A1 Fuzzy clustering e índices de validación de particiones fuzzy. Josune Gallego (Grupo de Inteligencia Computacional). A2 Algoritmos de graduación de la no-convexidad en el estudio de la convergencia de las redes neuronales articiales competitivas. Ana Isabel González (Grupo de Inteligencia Computacional). A3 Lattice computing and articial intelligence applications. Manuel Graña (Grupo de Inteligencia Computacional). A4 Revisión bibliográca de índices de validación para la evaluación de algoritmos de clasicación. Survey of clustering perfomance indices. Carmen Hernández, Manuel Graña, Josune Gallego (Grupo de Inteligencia Computacional). A5 Algoritmos de clasicación automática semisupervisados. Carmen Hernández (Grupo de Inteligencia Computacional). B. Procesado de Imagen B1 Spectral indexing for hyperspectral image CBIR. José Orlando Maldonado, Manuel Graña, Miguel Angel Veganzones (Grupo de Inteligencia Computacional), David Vicente (Innovae Vision). B2 On the study of visual texture patterns for recycled paper surface quality characterization using Gabor texture features. José Orlando Maldonado, Manuel Graña (Grupo de Inteligencia Computacional). B3 Evaluation of random forest classiers for feature point matching. Iñigo Barandiarán, Charlotte Cottez, Céline Paloc (VICOMtech). B4 Automatic methodology for mapping burnt areas using Landsat TM/ETM+ data: identication of burn scars using logistic regression models. Aitor Bastarrika (Surveying Engineering Department, UPV/EHU), E. Chuvieco (Departamento de Geografía, Universidad de Alcalá), M. P. Martín (Instituto de Economía y Geografía, CSIC). C. Aplicaciones en biotecnología e informática médica C1 Desarrollo de una herramienta para planicación en cirugía hepática. Ivan Macia, Diana Wald, Céline Paloc (VICOMtech). viii

10 C2 Técnicas para la detección de diferencias estructurales en imágenes de Resonancia Magnética Nuclear. Hallazgos en la enfermedad de Alzheimer. Maite García (Grupo de Inteligencia Computacional). C3 Evaluación de la calidad de cítricos a partir de imágenes de Resonancia Magnética. Elsa Fernández (Grupo de Inteligencia Computacional). C4 Clasicación de conductas animales mediante modelos ocultos de Markov. Flavio Banterla (Nesplora), Carmen Hernández (Grupo de Inteligencia Computacional). C5 Uso de las Memorias Morfológicas Asociativas para el análisis de estrategias de afrontamiento en el estrés social en ratones. Miguel Angel Veganzones (Grupo de Inteligencia Computacional), Zurine de Miguel (Procesos Psicológicos Básicos y su Desarrollo). C6 Efecto de la familiaridad sobre el consumo y la palatabilidad de una sustancia sápida en crías de ratas. Elena Díaz, Gabriela Chotro (Procesos Psicológicos Básicos y su Desarrollo). C7 Visión por computador y clasicación aplicadas a la micología. Ramón Moreno (Grupo de Inteligencia Computacional). D. Robótica y control D1 Control de sistemas dinámicos estocásticos basado en series. Ekaitz Zulueta, José Manuel López Guede, Karmele López (Ingeniería de Sistemas y Automática). D2 Una introducción a los controladores predictivos neuronales. José Manuel López Guede, Ekaitz Zulueta, Karmele López (Ingeniería de Sistemas y Automática, UPV/EHU). D3 Modeling a legged robot for visual servoing. Zelmar Echegoyen, Alicia D'Anjou, Manuel Graña (Grupo de Inteligencia Computacional). D4 3D camera for mobile robot SLAM. Ivan Villaverde (Grupo de Inteligencia Computacional). D5 Integración de controladores de redes neuronales en manipuladores robóticos industriales. Josu Larrañaga (Fatronik). E. Modelado de sistemas E1 Energy cost of the transmission of information between biological neurons. C. Sarasola (Dpto. Física y Materiales), Francisco Javier Torrealdea (Grupo de Inteligencia Computacional). E2 Modelo estocástico para una red de interconexión. Jose A. Pascual (Facultad Informática, UPV/EHU), F. Xabier Albizuri (Grupo de Inteligencia Computacional). E3 A dynamical model of social agents following the mode. Blanca Cases (Grupo de Inteligencia Computacional), Pablo González-Nalda (Dpto. Lenguajes y Sistemas Informáticos). ix

11 E4 Aspectos energéticos de la sincronización bidireccional de sistemas caóticos. Abdel Malik Moujadih, Alicia D'Anjou, Francisco Javier Torrealdea (Grupo de Inteligencia Computacional). F. Interacción hombre-máquina avanzada F1 Emotion recognition based on the analysis of facial expressions. A survey. Andoni Beristáin (Grupo de Inteligencia Computacional). F2 First experiments on acoustic-phonetic decoding for multilingual speech recognition in the basque context. I. Ariztimuño, N. Barroso, Aitzol Ezeiza, N. Gilisagasti, Karmele López (Ingeniería de Sistemas y Automática). F3 Intelligent tutoring system to integrate people with disabilities into social and work environments. Karmele López, Eloy Irigoyen, Nestor Garay, Ekaitz Zulueta (Ingeniería de Sistemas y Automática). F4 Desarrollo de un sistema de medida de emociones humanas no perceptibles a través del modelado mediante ordenadores de la conducta humana basada en el aprendizaje de emociones. Eloy Irigoyen, Karmele López (Ingeniería de Sistemas y Automática), Carmen Hernández (Grupo de Inteligencia Computacional). G. Tecnologías emergentes G1 Aplicaciones de RFID. Israel Rebollo (Grupo de Inteligencia Computacional). G2 Knowledge based industrial maintenance using portable devices and augmented reality. Carlos Toro (VICOMtech), César Sanín (Faculty of Engineering and Built Environment, University of Newcastle), Javier Vaquero, Jorge Posada (VICOMtech), Edward Szczerbicki (Faculty of Engineering and Built Environment, University of Newcastle). G3 Inteligencia ambiental, sistemas ubícuos y visión por computador en telefonía móvil. Ramón Moreno (Grupo de Inteligencia Computacional). x

12 Índice de autores No Author Given No Institute Given Albizuri, F. Xabier (Grupo de Inteligencia Computacional) [E2] Ariztimuño, I. (Ingeniería de Sistemas y Automática, UPV/EHU) [F2] Banterla, Flavio (Nesplora) [C4] Barandiarán, Iñigo (VICOMtech) [B3] Barroso, Nora (Ingeniería de Sistemas y Automática, UPV/EHU) [F2] Bastarrika, Aitor (Surveying Engineering Department, UPV/EHU) [B4] Beristáin, Andoni (Grupo de Inteligencia Computacional) [F1] Cases, Blanca (Grupo de Inteligencia Computacional) [E3] Chotro, Gabriela (Procesos Piscológicos Básicos y su Desarrollo) [C6] Cottez, Charlotte (VICOMtech) [B3] Chuvieco, E. (Departamento de Geografía, Universidad de Alcalá) [B4] D'Anjou, Alicia (Grupo de Inteligencia Computacional) [D3] [E4] De Miguel, Zurine (Procesos Piscológicos Básicos y su Desarrollo) [C5] Díaz, Elena (Procesos Piscológicos Básicos y su Desarrollo) [C6] Echegoyen, Zelmar (Grupo de Inteligencia Computacional) [D3] Ezeiza, Aitzol (Ingeniería de Sistemas y Automática, UPV/EHU) [F2] Fernández, Elsa (Grupo de Inteligencia Computacional) [C3] Gallego, Josune (Grupo de Inteligencia Computacional) [A1] [A4] Garay, Néstor (Ingeniería de Sistemas y Automática, UPV/EHU) [F3] García-Sebastián, Maite (Grupo de Inteligencia Computacional) [C2] Gilisagasti, N. (Ingeniería de Sistemas y Automática, UPV/EHU) [F2] González, Ana Isabel (Grupo de Inteligencia Computacional) [A2] González-Nalda, Pablo (Departamento de Lenguajes y Sitemas Informáticos, UPV/EHU) [E3] Graña, Manuel (Grupo de Inteligencia Computacional) [A3] [A4] [B1] [B2] [D3] Hernández, Ma Carmen (Grupo de Inteligencia Computacional) [A4] [A5] [C4] [F4] Irigoyen, Eloy (Ingeniería de Sistemas y Automática, UPV/EHU) [F3] [F4] Larrañaga, Josu (Fatronik) [D5] López, Karmele (Ingeniería de Sistemas y Automática, UPV/EHU) [D1] [D2] [F2] [F3] [F4] López, José Manuel (Ingeniería de Sistemas y Automática, UPV/EHU) [D1] [D2] Macia, Ivan (VICOMtech) [C1] Maldonado, José Orlando (Grupo de Inteligencia Computacional) [B1] [B2] Martín, M. P. (Instituto de Economía y Geografía, CSIC) [B4] Moreno, Ramón (Grupo de Inteligencia Computacional) [C7] [G3] Moujahid, Abdelmalik (Grupo de Inteligencia Computacional) [E4] xi

13 Paloc, Céline (VICOMtech) [B3] [C1] Pascual, José A. (Facultad de Informática, UPV/EHU) [E2] Posada, Jorge (VICOMtech) [G2] Rebollo, Israel (Grupo de Inteligencia Computacional) [G1] Sanín, César (Faculty of Engineering and Built Environment, University of Newcastle, Australia) [G2] Sarasola, C. (Departamento de Física y Materiales, UPV/EHU) [E1] Szczerbicki, Edward (Faculty of Engineering and Built Environment, University of Newcastle, Australia) [G2] Toro, Carlos (VICOMtech) [G2] Torrealdea, Francisco Javier (Grupo de Inteligencia Computacional) [E1] [E4] Vaquero, Javier (VICOMtech) [G2] Veganzones, Miguel Ángel (Grupo de Inteligencia Computacional) [B1] [C5] Vicente, David (Innovae Vision) [B1] Villaverde, Iván (Grupo de Inteligencia Computacional) [D4] Wald, Diana (VICOMtech) [C1] Zulueta, Ekaitz (Ingeniería de Sistemas y Automática, UPV/EHU) [D1] [D2] [F3] xii

14 A. Clasicación No Author Given No Institute Given A1 Fuzzy clustering e índices de validación de particiones fuzzy. Josune Gallego (Grupo de Inteligencia Computacional). A2 Algoritmos de graduación de la no-convexidad en el estudio de la convergencia de las redes neuronales articiales competitivas. Ana Isabel González (Grupo de Inteligencia Computacional). A3 Lattice computing and articial intelligence applications. Manuel Graña (Grupo de Inteligencia Computacional). A4 Revisión bibliográca de índices de validación para la evaluación de algoritmos de clasicación. Survey of clustering perfomance indices. Carmen Hernández, Manuel Graña, Josune Gallego (Grupo de Inteligencia Computacional). A5 Algoritmos de clasicación automática semisupervisados. Carmen Hernández (Grupo de Inteligencia Computacional). 1

15 Índices de validación fuzzy Josune Gallego Grupo de Inteligencia Computacional Resumen El método de Clasificación No Supervisada se utiliza para encontrar un conjunto de clases que mejor se ajustan a las clases naturales de un conjunto dado sin la ventaja de utilizar ninguna información a priori de las clases. Para verificar la bondad de la clasificación se utilizan los índices de validación cluster. Estos índices se utilizan para determinar el número de clases óptimo, esto es, la mejor c-partición del conjunto de datos. En particular, vamos a evaluar los métodos de clasificación no supervisada fuzzy. 1. Introducción El objetivo de la clasificación no supervisada fuzzy es particionar un conjunto de datos en c clases hom*ogéneas. El algoritmo de clasificación fuzzy más ampliamente utilizado es el algoritmo fuzzy c- means (FCM) propuesto por Bezdek (1). Este algoritmo requiere que el usuario le pase como parámetro el número de clases c; sin embargo, no siempre es posible determinar este número por adelantado. Esto hace que sea necesario validar cada una de las c-particiones fuzzy obtenidas (2) mediante un índice de validación fuzzy que evalua cada una de las c-particiones fuzzy y determina la partición óptima ó número de clases óptimo en el conjunto de datos. En este artículo hablaremos sobre el algoritmo FCM y los índices de validación cluster más usados en la literatura. 2. Clasificación No Supervisada Fuzzy. Validación El algoritmo de clasificación fuzzy c-means Este algoritmo se encuadra dentro de los métodos de clasificación basados en funciones objetivo. Normalmente, estos métodos permiten la formulación más precisa del criterio de clasificación no supervisada. Para cada clase c, se utiliza un criterio que mide la idoneidad 2

16 de las clases candidatas a formar la partición fuzzy definida sobre el conjunto de datos X. El criterio general suele ser considerar los extremos locales de la función objetivo como clases óptimas de la partición. Por ejemplo, si se toma la distancia euclídea como medida de similitud de los datos y como medida de la calidad de la clasificación la suma del error cuadrático interno de todas las clases (el sumatorio para todas las clases de su error cuadrático) (Within-Group Sum of Squared errors), la función objetivo es la suma cuadrática de las distancias entre el representante de la clase y los elementos correspondientes a la misma por lo que el criterio de clasificación busca los mínimos de dicha función o, lo que es lo mismo, la partición con las clases más compactas. Este criterio de clasificación se denomina criterio de la función objetivo de mínima varianza. A la hora de utilizar este algoritmo hay una serie de consideraciones a tener en cuenta (Bezdek (1)): Distintas elecciones de los parámetros del algoritmo pueden dar diferentes particiones óptimas del conjunto de datos X. Un número diferente de clases puede dar un mejor valor de la función objetivo para esa partición del conjunto de datos X. Los puntos estacionarios de la función objetivo se pueden obtener mediante el método de los multiplicadores de Lagrange usando la función J m : J m (X; U, Q, λ) = ) n c n (u ik ) m x k Q i 2 + u ik 1 k=1 i=1 k=1 λ k ( c i=1 Algoritmo FCM 1. Dado un número c de clases (2 c < n), una métrica de la norma del producto interno de R p d ; y un valor del exponente ponderador m, 1 m <. Se inicializa la matriz de partición fuzzy U (0). Entonces en los l pasos siguientes, l = 0, 1, 2, Calcular los c centros de las clases fuzzy {Q (l) i } a partir de la ecuación: 3

17 Q i = n k=1 (u ik) m x k n k=1 (u ik) m i 3. Actualizar la matriz de pertenencia U (l) utilizando la ecuación: u ik = 1 ( ) 2/(m 1) c d ik j=1 d jk 4. Comparar las matrices de pertenencia de la iteración anterior y de la iteración actual, U (l) y U (l+1), mediante una norma matricial adecuada y, en caso de que la diferencia sea menor que un valor de error determinado, ɛ L, parar. Si no, volver al paso 2. Este algoritmo tiene una serie de parámetros como el número de clases c, el valor del exponente ponderador m, la matriz de partición inicial U (0), la métrica usada para medir la similitud A y el criterio de parada ɛ L Índices de validación fuzzy más utilizados Consideraremos una c-partición fuzzy del conjunto de datos X = {x 1, x 2,..., x n }, esto es, la división del conjunto de datos en c subconjuntos o clases. Donde el grado de pertenencia fuzzy del elemento j-ésimo (también llamado vector j) a la clase i-ésima viene representado por u ij (i = 1,..., c; j = 1,..., n) y el centroide o representante del grupo i-ésimo se denota por Q i (i = 1,..., c). Dado un conjunto de n datos X, un algoritmo de clasificación fuzzy calcula una partición P de c clases del conjunto de datos X en base a la matriz U = (u ij ) n c donde u ij indica el grado de pertenencia del elemento i-ésimo del conjunto de datos, (x i X), a la clase j- ésima (C j ) de la partición P. La matriz U cumple las siguientes restricciones: c u ij = 1 i = 1,..., n j=1 n i=1 c u ij = n j=1 4

18 Decimos que el elemento i-ésimo del conjunto de datos pertenece a la clase j -ésima de la partición si j = máx u ij. j El índice de validación sirve para calificar la calidad de la partición obtenida con el algoritmo FCM y poder comparla con otras particiones fuzzy así obtenidas. Vamos a describir a continuación los índices de validación más usados en la literatura sobre clasificación no supervisada fuzzy. Coeficiente de la partición. Bezdek (1) (38) caracteriza el coeficiente de la partición (IF CP ) como una medida del solapamiento entre diferentes clases de una misma partición U y se calcula mediante la siguiente expresión: IF CP (U) = 1 n n i=1 c j=1 u 2 ji Los valores de este índice están entre [1/c, 1]. Un valor cercano a uno de este índice equivale a una buena partición del conjunto original. Un valor cercano a 1/c indica una falta de estructura en el dataset o que el algoritmo no ha sido capaz de encontrar ninguna. Las desventajas de este criterio (38) son la falta de conexión directa con alguna propiedad geométrica del conjunto de datos y su tendencia a decrecer con el aumento del número de clases. Entropía de la Partición. Dada una partición P del conjunto de datos y la matriz U de pertenencia, podemos calcular la entropía de la clasificación, Bezdek (1), como: IF EP (P ) = 1 n n c u ji log a (u ji ) i=1 j=1 Los valores de este índice están entre [0, log a c] y la base logarítmica entre a (1, inf) Un valor cercano a cero de este índice equivale a una buena partición del conjunto original. Un valor cercano a log a c indica una falta de estructura en el dataset o que el algoritmo no ha sido capaz de encontrar ninguna. 5

19 Coeficiente de Xie-Beni. Xie y Beni (38) (18) definen una función de validación de clases fuzzy similar al índice de separación de Dunn. c n i=1 j=1 IF XB(P ) = u2 ij x j Q i 2 n Dmín 2 donde x j Q i es la distancia euclídea entre el elemento x j y el centro Q i de la i-ésima clase (C i ) de la partición P. Este índice mide la razón entre la compacidad y la separación fuzzy de las clases de la partición. El numerador indica la varianza total de cada clase fuzzy (compacidad de la clase, σ ) y el denominador indica la separación entre clases. Para buscar el número óptimo de clases se minimiza la función sobre el número de las mismas. Índice Kwon. Una variación del índice de Xie-Beni es el índice de Kwon (18) que elimina la tendencia monotonamente decreciente del mismo introduciendo una función de penalización en el numerador de la siguiente forma: c n i=1 j=1 IF K(P ) = u2 ij x j Q i c c i=1 Qi Q 2 D 2 mín siendo Q el valor medio de todos los centros de la partición. En la ecuación anterior el primer sumando del numerador se corresponde con la definición de variación total de la partición, (compacidad de la clase, σ) y el denominador indica la separación entre clases. Al igual que en el índice anterior, un valor pequeño indica una mejor partición. Índice de f*ckuyama-Sugeno. El índice de f*ckuyama-Sugeno ((18), (19)) también toma en cuenta medidas de compacidad y separación y viene dado por: IF F S(P ) = c i=1 n j=1 u m ij ( x j Q i 2 Q i Q 2) siendo Q el valor medio de todos los centros de la partición. En este caso también indica la mejor c-partición el valor mínimo sobre el número de clases. 6

20 Índice de Rezaee. Una función de validación de confianza debe tener en cuenta la compacidad y separación de las c-particiones fuzzy. La partición óptima requiere compacidad máxima para cada clase de tal modo que los datos se encuentren lo más cerca posible de sus centros. Pero si sólo tenemos en cuenta este criterio, la mejor partición es aquella que se obtiene cuando cada dato tiene su propia clase. Nada es más compacto que una clase con un único punto en su interior. Por otro lado, si sólo tenemos en cuenta el criterio de la separación óptima entre clases, la mejor partición fuzzy será el mismo dataset puesto que la distancia entre la clase única, el conjunto de datos, y ella misma será cero. Se define entonces el índice de validación de la siguiente manera (25) (18): IF R(P ) = αscat(c) + Dis(c) = ( c i=1 α σ (Q i) + D c c máx Q i Q k c σ (X) D mín i=1 k=1 ) 1 El primer término de la ecuación anterior, Scat(c), indica la dispersión media dentro de las clases para un número c de clases. Un valor pequeño indica una partición compacta. A medida que la dispersión aumenta se vuelven menos compactas, esta medida no necesita ninguna suposición sobre la geometría del prototipo. Para su cálculo se incluye (Rezaee (25)) la varianza de las clases de la partición, σ (Q i ), así como la varianza del conjunto de datos, σ (X), como se indica en la ecuación anterior. El segundo término del índice, Dis(c), indica la dispersión total entre las clases. Generalmente, este término se incrementará según aumente el número de clases y está influenciado por la geometría de los centros de clase. Puesto que los valores de ambos términos están en diferentes rangos, se introduce un factor ponderador α para equilibrar su influencia, α = Dis(c max ) donde c max es el máximo número de clases. El valor mínimo del índice indica el número óptimo de clases. Índice de Boudraa. En el artículo original (5) se utiliza este índice para estimar el número correcto de clases, c cor, en la clasificación no 7

21 supervisada. El número de clases que minimiza el índice de validación se considera el número correcto de clases. Un análisis de validación eficaz debería ser capaz de determinar si existe o no una estructura en los datos y si las clases identificados poseen algún significado real. Las definiciones de clases perfectas usualmente incluyen un índice de compacidad, que mide la cohesión entre los datos, y/o un índice de aislamiento/separación, que mide la separación entre las clases. El índice de Boudraa es función de ambos pero no hace ninguna suposición sobre la distribución de los vectores de características. La expresión del índice es la siguiente: IF B (P ) = B crit (c) = G(c) + αv wt (c) Donde G(c) está relacionado con la geometría del dataset y V wt (c) tiene en cuenta la hom*ogeneidad de cada clase. Puesto que ambos términos tienen distintos rangos de valores, G(c) >> V wt (c), se introduce un factor de mezcla, α para conseguir una relación equitativa entre la contribución de cada término. Las expresiones de G(c) y V wt (c) en función de la varianza de los datos y las bandas son las siguientes: V wt (c) = 1 c P c var q (k) q=1 k=1 P var t (q) q=1 G(c) = máx δ(q i, Q j ) i,j mín δ(q i, Q j ) i j Donde var q (i) y var t (q) son la varianza de la banda q-ésima para la clase i-ésima de la partición P y la varianza de la banda q-ésima para todo el conjunto de datos X. La expresión V wt (c) es la razón entre la varianza intraclase y la varianza total. En este índice (18) se tienen en cuenta las características de los datos (en nuestro caso, el número de bandas de los píxeles) a la hora de estimar un índice de validación de la clasificación. Si utilizamos la notación vista en Rezaee (25), la expresión del índice quedaría: IF B (P ) = D máx D mín + αscat(c) 8

22 Índice de Gath y Geva. Este método lleva a cabo la clasificación fuzzy sin necesidad de saber el número de clases a priori (13). El examen de la validez de la clasificación se basa en medidas tomadas durante la ejecución, en concreto, el cálculo del hipervolumen de la clase y su densidad, conceptos que explicaremos más abajo. Para calcular estas medidas se utiliza la siguiente estrategia de clasificación divida en las siguientes etapas: 1. Ejecuta un algoritmo fuzzy c-means modificado. No hay condiciones iniciales sobre la localización de los centroides y los prototipos de clasificación se identifican durante un proceso de aprendizaje no supervisado. 2. En esta etapa se utilizan los prototipos anteriores en un segundo algoritmo de clasificación, clasificación FMLE, para lograr obtener la partición fuzzy óptima. 3. Cálculo de las medidas de validación. 4. Incremento del número de clases y repetición de los pasos 1 a 3 hasta lograr un valor óptimo. Este esquema se repite para un número de clases creciente, calculando en cada ejecución las medidas de validación correspondientes, hasta obtener una partición con un número óptimo de clases. Esta estrategia clasificatoria se comporta bien en situaciones en las que la forma de las clases, su densidad y el número de elementos en cada una es muy desigual. A la hora de realizar una clasificación fuzzy encontramos tres dificultades principales: El número de clases puede no estar definido a priori por lo que hay que encontrar un criterio de validación de la clasificación para determinar el número óptimo de clases presentes. No se conoce a priori el carácter y la localización de los centroides y hay que hacer suposiciones iniciales. La gran variedad de formas de los clases, sus diferentes densidades y número de elementos. 9

23 El Hipervolumen de la clase y su Densidad Durante la clasificación de datos reales hay que hacer suposiciones acerca del número de subgrupos subyacentes presentes en el conjunto de datos. Cuando no existe información a priori sobre la estructura interna del los datos, o en caso de evidencia conflictiva sobre el posible número óptimo de subgrupos, hay que formular unas medidas de comparación de los resultados de las particiones con diferente número de clases. Se puede escoger una aproximación al problema guiada por el objetivo, el objetivo aquí es la clasificación, en el sentido de tratar de minimizar la tasa de error de clasificación. Para determinar el error hay que saber a qué clase han sido asignados los datos, no basta con el grado de pertenencia. Por esto, se puede aceptar que las buenas clases son hard. Así, aunque el entorno es fuzzy, el objetivo de la clasificación es la generación de subgrupos bien definidos. De ahí que el criterio para la definición de partición óptima de los datos en subgrupos se base en tres requisitos: 1. Separación clara entre los clases resultantes. 2. Volumen mínimo de los clases. 3. Máximo número de datos concentrados en la vecindad del centroide. Las medidas de comparación se basan en criterios definidos sobre el hipervolumen de la clase y su densidad. El hipervolumen fuzzy, F HV se define: c F HV = [det(f i )] 1/2 donde F i está definido por i=1 F i = n h(i x j )(x j Q i )(x j Q i ) T ) j=1 n h(i x j ) j=1 10

24 La densidad de partición media D P A se calcula mediante la expresión: D P A = 1 c c i=1 S i [det(f i )] 1/2 donde S i, la suma de los miembros centrales, viene dada por: S i = n j=1 u ij, x j {x j : (x j Q i ) T F 1 i (x j Q i ) < 1} tomando en consideración sólo a aquellos miembros dentro del hiperelipsoide cuyos radios son las desviaciones estándar de las características de la clase. La densidad de partición, P D, se calcula mediante la expresión: P D = S F HV donde S = c i=1 n j=1 u ij, x j {x j : (x j Q i ) T F 1 i (x j Q i ) < 1} Tenemos entonces dos medidas para determinar la bondad de la partición: el hipervolumen, que debe ser pequeño puesto que en las buenas particiones las clases deben estar bien separadas; y la densidad de las mismas, que debe ser alta puesto que eso demuestra que son compactas. 11

25 2.3. Resumen. Índices de validación para clasificación no supervisada fuzzy. Índices Fórmula Óptimo Referencia Partición 1 c ni n i=1 j=1 u2 ij máx{1/c, 1} (1) Entropía 1 n c i=1 ni j=1 u ij log (u ij ) mín{0, log a c} (1) XieBeni P c P ni i=1 j=1 u2 ij x j Q i 2 n d 2 mín mín (38) Kwon P c P n i=1 j=1 u2 ij x j Q i P p c i=1 Q i Q 2 d 2 mín mín (22) f*ckuyama-Sugeno c ni ( i=1 j=1 um ij xj Q i 2 Q j Q 2) mín (19) Rezaee P c i=1 σ(q i) + D máx p σ(x) D mín c i=1 ( c k=1 Q i Q k ) 1 mín (25) Boudraa P nb P c D máx D mín + 1 q=1 i=1 P c varq(i) nb mín q=1 vart(q) (5) F F HV D AP D D AP D = 1 c c i=1 F F HV = c i=1 [det(f i)] 1/2 mín S i [det(f i )] 1/2 máx (13) 12

26 Bibliografía [1] Bezdek J.C. Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press.(1981) [2] Pal N.R., Bezdek J.C., (1995) On cluster validity for the fuzzy c-means model. IEEE Transactions on Fuzzy Syst., 3(3), pp [3] Bezdek J.C., Pal N.R. (1998) Some new indexes of cluster validity. IEEE Transactions on System, Man and Cybernetics 28(3), pp [4] Bezdek J.C., Dunn J.C. (1975) Optimal fuzzy partitons: A heuristic for estimating the parameters in a mixture of normal distributions. IEEE Transactions on Computers, pp [5] Boudraa A.O. (1999) Dynamic estimation of number of clusters in data sets. Electronics Letters Vol.35 (19), pp [6] Chou C-H., Su M-C., Lai E. A New Clustering validity measure and its application to image compression. [7] Chou C-H., Su M-C., Lai E. A New Clustering validity measure for Clusters with Different Densities [8] Davies D.L., Bouldin D.W. (1979) A cluster separation measure. IEEE Transactions on Pattern Analysis Machine Intelligence 1 (4) [9] Dembélé D., Kastner P. (2003) Fuzzy C-means method for clustering microarray data. Bioinformatics, 19 (8) [10] Dubes R., Jain A.K. (1979) Validity studies in clustering methodologies. Pattern Recognition 11(1), pp [11] Dunn G., Everrit B.S. (1980) An introduction to mathematical taxonomy. New York. Cambridge University Press. p.152 [12] Dunn J.C. (1974) Well separated clusters and optimal fuzzy partitions. J.Cybern [13] Gath I., Geva A.B. (1989) Unsupervised optimal fuzzy clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 11(7). [14] Gunderson R. (1978) Application of Fuzzy ISODATA Algorithms to Star Tracker Pointing Systems. Proceedings of the Seventh Triennial World IFAC Congress, Helsinki. 13

27 [15] Halkidi M., Vazirgiannis M., Batistakis I. (2000) Quality scheme assessment in the clustering process. Proceedings of PKDD, Lyon, France. [16] Halkidi M., Batistakis I., Vazirgiannis M. (2001) On Clustering Validation Tecniques. Journal of Intelligent Information Systems, 17:2/3, [17] Dae-Won Kim, Young-Il Kim, Doheon Lee, Kwang H. Lee (1999) Assessing the quality of fuzzy partitions using relative intersection IEICE TRANS. INF. & SYST., VOL.E82-??, NO.1 JANUARY 1999 [18] Dae-Won Kim, Kwang H. Lee, Doheon Lee (2003) Fuzzy cluster validation index based on inter-cluster proximity Pattern Recognition Letters 24, pp [19] Dae-Won Kim, Kwang H. Lee, Doheon Lee (2004) On cluster validity index for estimation of the optimal number of fuzzy clusters Pattern Recognition 37, pp [20] Minho Kim, R.S. Ramakrishna (2005) New indices for cluster validity assessment Pattern Recognition Letters 26, pp [21] Young-Il Kim, Dae-Won Kim, Doheon Lee, Kwang H. Lee (2004) A cluster validation index for GK cluster analysis based on relative degree of sharing Information Sciences 168, pp [22] Kwon, S.H. (1998) Cluster validity index for fuzzy clustering. Electronics Letters Vol.34 (22), pp [23] Rand W.M. (1971). Objective criteria for the evaluation of clustering methods. Journal of the American Statistical Association, 66, [24] Rao R.C. (1952) Advanced statistical methods in biometric research. New York. John Wiley. p.390 [25] Rezaee R., Lelieveldt B.P.F., Reiber J.H.C. (1998) A new cluster validity index for the fuzzy c-mean. Pattern Recognition Letters, 19, pp [26] Van Rijsbergen C. (1979). Information Retrieval. Butterworth- Heinemann. [27] Rogers J.S., Tanimoto T.T. (1960) A computer program for classying plants. Science, n.132, pp

28 [28] Rousseeuw P.J. (1987) Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics [29] Ruspini, E. (1970) Numerical Methods for Fuzzy Clustering Inf. Sci. Vol2. pp [30] Russel P.F., Rao T.R. (1940) On habitat and association of species of anopheline larvae in south-eastern Madras. Journal of Malaria India Institute, n.3, pp [31] Strehl A. y Ghosh J. (2002). Cluster ensembles A knowledge reuse framework for combining multiple partitions. Journal on Machine Learning Research, 3, [32] Sneath P.H.A., Sokal R.R. (1973) Numeric taxonomy: the principles and practice of numerical classification. San Francisco. W.H. Freeman, p [33] Sokal R.R., Michener C.D. (1958) A statistical method for evaluating systematic relationships. Bulletin of the Society University of Kansas, n.38, pp [34] Sokal R.R., Sneath P.H.A. (1963) Principles of numeric taxonomy. San Francisco: W.H. Freeman, p. 359 [35] Tibshirani et al. (2001). Stanford Technical Report. wwwstat.stanford.edu/ tibs/lab/publications.html [36] Theodoridis S. and Koutroumbas K. (1999) Pattern Recognition. Academic Press. HURBERT [37] Topchy A., Jain A., Punch W. (2003) Combining multiple weak clusterings. Proc. Third IEEE International Conference on Data Mining (ICDM 03) [38] Xie X. L., Beni G. (1991) A Validity measure for Fuzzy Clustering. IEEE Transactions on Pattern Analysis and machine Intelligence, 13(8), pp [39] Wallace D. L. (1983) Comment. Journal of the American Statistical Association, 78(383):

29 Algoritmos de graduación de la no-convexidad en el estudio de la convergencia de las redes neuronales artificiales competitivas A.I. González Grupo de Inteligencia Computacional Facultad de Informática, UPV/EHU Apdo. 649, San Sebastián, España Resumen. El estudio de la convergencia del Self-Organizing Map (SOM) y del Neural Gas (NG) se centra generalmente en técnicas de descenso por el gradiente estocástico (SGD), caracterizadas por una velocidad de convergencia muy lenta. Sin embargo, algunos resultados obtenidos con ejecuciones one-pass de los algoritmos SOM y NG han dado unos resultados comparables a los logrados con otras ejecuciones más lentas, siendo la medida de rendimiento la distorsión en la cuantificación. En las ejecuciones one-pass cada elemento de la muestra de datos es presentado solamente una vez, imponiendo a los parámetros de aprendizaje un ajuste rápido que no concuerda con los requisitos de convergencia de los métodos de SGD. Esta realidad empírica nos conduce a proponer que un marco más apropiado para el análisis de la convergencia de SOM, NG y otros algoritmos similares de redes neuronales competitivas se encuentra dentro del ámbito de los algoritmos de graduación de la no-convexidad (GNC). 1. Introducción Las redes neuronales artificiales competitivas se pueden emplear en la Cuantificación Vectorial (VQ) [1-5], una técnica que busca la correspondencia de un conjunto de vectores de entrada con un conjunto finito de representantes predeterminados (codevectors). Al conjunto de representantes se le denomina codebook. En el diseño de un cuantificador vectorial el objetivo es construir un codebook que minimice la esperanza de la distorsión cuando se aproxima cada vector de entrada por un codevector; por lo que el cálculo de la distorsión sobre los datos de la muestra es lo que determina el rendimiento de los algoritmos VQ. Dos conocidas redes neuronales artificiales competitivas que pueden utilizarse son: Self-Organizing Map (SOM) [6,7,10] y Neural Gas (NG) [8]. En sus definiciones originales ambas tienen la apariencia de algoritmos basados en el descenso por el gradiente estocástico (SGD) [11], es decir, cuando un vector de entrada es presentado se produce un paso de aprendizaje (adaptación). En [8] se demuestra que las versiones online del algoritmo NG pueden encontrar mejores soluciones locales que las versiones online de SOM. Las ejecuciones online son muy largas debido a la velocidad lenta de convergencia del SGD. Para acelerar los cómputos, existen versiones batch de ambos algoritmos. Las ejecuciones batch se corresponden con algoritmos de descenso por el gradiente determinista. La estimación de los parámetros se realiza utilizando estadísticas calculadas sobre la totalidad de la muestra de datos. En [6] ya se propone la versión batch de SOM (BSOM) como una versión razonablemente acelerada de la versión online, con una mínima degradación en la calidad de la solución. En el análisis empírico divulgado en [12], las mayores desventajas de BSOM son su sensibilidad a las condiciones iniciales y la mala organización de los representantes finales de las clases que puede ser debido a una pobre preservación topológica. Utilizando buenas inicializaciones en BSOM se pueden mejorar las soluciones obtenidas por SOM. Por otro lado, SOM es robusto frente a malas inicializaciones y proporciona una buena ordenación topológica, si el esquema de adaptación es suficientemente suave. La versión batch del algoritmo NG (BNG) ha sido estudiada en [13] como un algoritmo para clustering data (agrupamiento de datos), proponiéndola como una adecuada versión acelerada de la online del NG. 16

30 Tanto la versión online como la versión batch de estos algoritmos implican iterar varias veces sobre toda la muestra. Por el contrario, la ejecución one-pass visita solo una vez los datos de la muestra. Esta forma de adaptación no es muy común en la literatura de las redes neuronales, de hecho, las pocas referencias sobre el tema que hemos encontrado está en [14-16]. Para lograr esta rápida adaptación, la secuencia de los parámetros de aprendizaje llevada a cabo se encuentra muy lejos de las condiciones teóricas de convergencia. Sin embargo, como veremos, en algunos casos los resultados de distorsión [17] pueden competir con las versiones online y batch de SOM y NG. Si consideramos el tiempo de cómputo, la superioridad de la ejecución one-pass llega a ser espectacular. Los algoritmos SGD son algoritmos de minimización local, por lo tanto, sensibles a las condiciones iniciales. Sin embargo, los trabajos divulgados en [10] demuestran que SOM puede ser muy insensible a la variabilidad de las condiciones iniciales cuando la meta es el diseño VQ. Estos resultados nos llevan a pensar que puedan ser más adecuados otros ámbitos para el estudio de la convergencia del SOM y del NG que la teoría de los algoritmos de SGD. Postulamos que SOM y NG son casos de algoritmos de graduación de la no convexidad (GNC) [18-22], que se relacionan con los métodos de continuación parametrizados [23]. Los algoritmos de GNC intentan solucionar la minimización de una función objetivo no-convexa con la búsqueda secuencial de los mínimos de una familia de funcionales que dependientes de un parámetro son transmutadas desde un funcional convexo hasta la función original no-convexa. En SOM y en NG, los parámetros de control de la vecindad se pueden entender que desempeñan el papel de graduar la no-convexidad de la función de energía minimizada. Por lo tanto, el entrenamiento del SOM y del NG se puede considerar como la consecución del mínimo en una secuencia de funciones de energía que empieza en una función convexa y que termina en una función altamente no convexa que es la distorsión. La sección 2 presenta la definición formal de los algoritmos SOM y NG. La sección 3 discute la formulación de SOM y de NG como algoritmos de GNC. La sección 4 muestra los resultados experimentales. La sección 5 se dedica a las conclusiones y a la discusión. 2. Definiciones de SOM y NG 2.1 Definiciones comunes Sea X = { x1, L, x n } el conjunto de vectores reales de la muestra de los datos de entrada y { } el conjunto de codevectors reales llamado codebook. El diseño del codebook se Y = y 1,..,y c realiza mediante la minimización de la función de distorsión E: n 2 2 E = x j y w( j) ; w( j)= argmin{ x j y i } (1) j=1 i=1,..,c Cada algoritmo descrito más adelante tiene algunos parámetros de control, como la velocidad de aprendizaje, el tamaño y la forma del vecindario, o la temperatura. Las ejecuciones online generalmente modifican los valores de estos parámetros después de la presentación de un dato de entrada y la adaptación del codebook. Las ejecuciones batch modifican sus valores después de la presentación completa de la muestra de los datos de entrada. Ambas ejecuciones, online y batch, implican que la muestra de entrada se presenta varias veces. Por el contrario, las ejecuciones onepass implican que cada dato de entrada es presentado a lo sumo una vez para la adaptación, y que los parámetros de control son modificados después de cada presentación. Tanto SOM como NG son casos particulares del algoritmo de Redes Neuronales Competitivas general: 17

31 ( )( x(t) y i (t)) (2) y i (t +1) = y i (t) +α(t) H i x(t),y(t),r donde t es el tiempo de cómputo. Denotamos por H i ( x,y,r) la función vecindad que tiene cierta dependencia de un parámetro r que controla la extensión del vecindario, y por α ( t) la velocidad de aprendizaje, que puede ser local a cada unidad de cómputo correspondiente a un codevector. En el proceso de entrenamiento en el caso de las ejecuciones convencionales online, o bien t se corresponde con el número de iteraciones realizadas sobre la muestra entera, y la velocidad de aprendizaje y el tamaño del vecindario es fijo durante cada iteración; o bien se corresponde con el número de presentación de los datos de entrada, y la velocidad de aprendizaje y el tamaño del vecindario es actualizado tras cada presentación. El primer esquema es compatible con una ejecución batch, donde la muestra entera se utiliza para estimar los parámetros de la red y el tiempo de cómputo es naturalmente el número de iteraciones de la muestra. En el caso especial de una ejecución one-pass, en el proceso de entrenamiento t es el número de presentación del dato de entrada y su valor máximo es el tamaño de la muestra. En su definición general, las redes neuronales competitivas se diseñan para realizar la minimización del gradiente estocástico de una función similar a la distorsión de la ecuación (1). Para garantizar la convergencia en probabilidad al mínimo de la función (si la función es convexa) o al mínimo local más cercano (si la función es no-convexa), la velocidad de aprendizaje debe atenerse a las siguientes condiciones: limα t t ( )= 0, α( t) =, α 2 (3) ( t) <. t= 0 t= 0 Sin embargo, estas condiciones implican procesos de adaptación muy largos, y para muestras finitas, generalmente, supone presentar toda la muestra varias veces. La idea de realizar una ejecución one-pass del proceso de minimización viola estas condiciones. Por otra parte, impone un fuerte ajuste a los parámetros de control del algoritmo. En los experimentos, utilizamos la siguiente expresión para la actualización de la velocidad de aprendizaje [24]: α( t)= α 0 ( α n α 0 ) t (5) n, donde α 0 y α n son, respectivamente, el valor inicial y final de la velocidad de aprendizaje. Por lo tanto, la velocidad de aprendizaje alcanza su valor final después de n presentaciones de vectores de entrada. 2.2 Definiciones de SOM En el SOM, la función de vecindad se define sobre la distancia en el espacio de los índices de los codevectors. Las funciones de vecindad más populares son la gaussiana, el sombrero mexicano y la vecindad absoluta (crisp). En esta última, el valor de la función vecindad es uno para las unidades dentro de una bola alrededor de la unidad ganadora y cero en otro caso. En los experimentos mostrados en este documento, asumimos una topología 1D de los índices de los codevectors. Las vecindades que hemos considerado decrecen exponencialmente atendiendo a la siguiente expresión: H i ( x,y)= 1 w( x)- i h 0( h n h 0 ) 8t n 1 ; 1 i c (6) 0 otherwise Donde. denota la distancia en el espacio de los índices de los codevectors, y se define como en la ecuación (1). El radio inicial y final de la vecindad son respectivamente h 0 y h n. La expresión en la ecuación (6) asegura que la función vecindad se reducirá al caso de una red neuronal competitiva simple (vecindad nula) después de la presentación del primer 1 8 de vectores de la muestra. Con esta reducción del radio de la vecindad, podemos conseguir que tras 18

32 una rápida ordenación inicial de los codevectors se produzca un ajuste suave localmente. Propusimos este esquema en [25] para acercarnos a las restricciones de las ejecuciones en tiempo real y otros autores han trabajado con esta idea [10] en el contexto de ejecuciones online convencionales. Kohonen definió en [6] la versión batch del algoritmo SOM. Sus ventajas son que no existe un parámetro de velocidad de aprendizaje y que el cómputo es más rápido que la ejecución online. Este algoritmo se ha interpretado como el algoritmo de LBG [5] más una función de vecindad. El espacio de entrada se divide en regiones de Voronoi asociadas a los codevectors, y la muestra de los datos de entrada se particiona según: V i ( t)= { x X w( x)= i (7) }, donde t se corresponde con el número de iteración sobre la muestra y el peso de las unidades y i es fijo durante cada iteración, de modo que w( x) es el índice del codevector ganador como en la ecuación (1). La estimación de los pesos de los codevectors se realiza calculando la media aritmética sobre la región de Voronoi del codevector ganador y las regiones de sus codevectors vecinos: x (8) y i (t +1) =, x U i ( t) t U i ( t)= j i h( t) V j ( t), (9) donde U i es el cardinal de U i. Para determinar el radio de la vecindad aplicamos la siguiente expresión: h( t)= h 0 ( h n h 0 ) t τ 1 (10) Esta expresión asegura que la función de vecindad decrezca a h n después de τ iteraciones. Con este radio final de vecindad se equipara al algoritmo LBG: el peso del codevector se calcula como la media aritmética de su correspondiente región de Voronoi. Se debe observar que la función de vecindad de BSOM es equivalente a la vecindad absoluta del aprendizaje online. 2.3 Definiciones de NG El algoritmo NG presentado en [8] comparte la estructura mostrada en la ecuación (2) caracterizada por la siguiente función de vecindad: H i ( x,y,λ)= exp( k i ( x,y) λ), (11) donde k i ( x,y) es la función rango que devuelve la posición { 0,...,c 1} del codevector y i en el conjunto de codevectors ordenados por sus distancias al dato de entrada x: (12) k i ( x,y)= { y j y j x y i x }. En el NG todos los codevectors son actualizados; no hay definidas vecindades, como tales, pero el parámetro de temperatura λ controla la magnitud del efecto que la presentación de un vector de entrada tiene sobre los pesos de los codevectors. Hay que observar que la función de vecindad en la ecuación (11) es igual a 1 para el codevector ganador sin importar el parámetro de temperatura. Mientras la temperatura se aproxima a cero, la función de vecindad también va a cero para los codevectors perdedores. La temperatura decae exponencialmente según la siguiente expresión: λ( t)= λ 0 ( λ n λ 0 ) t (13) n, donde λ 0 y λ n son su valor inicial y final, respectivamente. El valor final de la temperatura es equivalente a una vecindad nula, por lo tanto, el NG se reduce a SCL como ocurre con el SOM. U i ( ) 19

33 Una definición de BNG [13] surge al plantear que la contribución de cada vector de entrada a la estimación del peso del codevector como una función del orden del codevector en relación al vector de entrada, congelando la ejecución online del NG. La estimación de los pesos de las unidades en el BNG es como sigue: H i ( x,y( t),λ( t) )x x y i (t +1) =. x,y( t),λ ( t (14) ) x H i ( ) Al igual que BSOM, BNG converge al algoritmo LBG: cuando la temperatura alcanza su valor final, solamente la región de Voronoi que corresponde a cada codevector contribuye a su estimación. 3. SOM y NG como algoritmos GNC 3.1. Definiciones GNC Los algoritmos GNC aparecen en el campo del procesamiento de imagen y señal en aplicaciones para la segmentación, la restauración y filtrado. Como tal, hay cierta necesidad de adaptar el vocabulario y la formulación general al SOM y al NG. La formulación básica del enfoque GNC [18, 20, 22] es que la función que se minimiza es la estimación maximum a posteriori (MAP) de una superficie muestreada, corrompida por un ruido aditivo M( x)= D( x)+ N( x). Esta estimación MAP p( R = D M) se obtiene minimizando la energía: E[ R]= log p( M R = D) log( D = R)= E d [ R]+ E s [ R] (15) donde E d [ R] es el término de los datos y E s [ R] el de suavidad. El término de los datos es cuadrático bajo la asunción general de ruido gaussiano independiente de la señal, y el término de suavidad expresa cualquier información a priori sobre la superficie. En [20] el término de suavidad se formula sobre el gradiente superficial. La formulación general de la función GNC es: E[ R]= M( x) R( x) + E s [ R (16) ] ( ) 2 x donde el término de suavidad depende de un cierto parámetro E s [ R]= f σ ( R). La clave de los métodos GNC es que la función a minimizar E[ R] está enlazada en una familia de funcionales dependientes de un parámetro E σ [ R] de modo que el funcional inicial E σ 0 [ R] es convexo, y el funcional final es equivalente a la función original E 0 [ R] E[ R]. La minimización se realiza siguiendo el mínimo local de E σ [ R] desde el funcional inicial al final. Un problema clave en GNC es asegurarse de que el funcional inicial es convexo [20]. Otro problema es asegurarse de que no hay bifurcaciones u otros efectos que puedan afectar el proceso de continuación. Si el funcional inicial es convexo, el algoritmo se convierte en independiente de las condiciones iniciales ya que será factible obtener el mínimo global del funcional inicial sin importar dichas condiciones iniciales, a partir de entonces la continuación de los mínimos locales estará determinado fuertemente. Si no hay bifurcaciones u otros efectos en el proceso de continuación, entonces el mínimo global del funcional inicial se puede rastrear hasta el mínimo global del funcional objetivo. Hay que recordar que una de las características que SOM y NG mostraban sobre los algoritmos SCL es su robustez frente a malas condiciones iniciales [10], dando un argumento convincente para interpretarlos como algoritmos GNC. Parece que para NG y SOM es muy fácil asegurar la convexidad del funcional inicial y que la continuación sea también un proceso fácil. 20

34 3.2. Funcionales SOM y NG El NG fue propuesto en [8] como la minimización del siguiente funcional: N 1 E ng ( w,λ)= d D vp( v)h 2C( λ) λ ( k i ( v,w )( v w i ) 2 (17) i=1 que discretizamos y reescribimos según las definiciones anteriores de la muestra de datos X y del codebook Y, como c n 1 2 E ng ( X,Y,λ)= H i ( x,y,λ) x j y i (18) 2C λ donde H i sigue: ( ) i=1 j=1 ( x,y,λ) es la función de vecindad de la ecuación (11). Podemos reorganizarlo como n n ( ) x j y i 2 2 c E ng ( X,Y,λ)= x j y w ( x j ) + i=1, H i x j,y,λ (19) j=1 j=1 i w( x j ) dado que H w ( x j )( x j,y,λ)=1 el primer término en la ecuación (19) es equivalente al primer término en la ecuación (16). El segundo término en la ecuación (19) se corresponde con el término de suavidad en la ecuación (16). Para SOM, cuando la función de vecindad es la función de vecindad absoluta dada en la ecuación (6) se asume que el funcional minimizado por SOM es la distorsión extendida c n ( ) x j y i 2 E SOM ( X,Y,h )= H i x j,y,h, i=1 j=1 (20) H i ( x,y,h)= 1 w( x)- i h ; 0 otherwise Otra vez es fácil descomponer el funcional en una estructura similar al de la ecuación (16). n 2 (21) E SOM ( X,Y,h )= x j y w ( x j ) + j=1 n c 2 i=1, H i ( x j,y,h) x j y i, j=1 i w( x j ) Por lo tanto, parece que el SOM también se puede asimilar a un algoritmo GNC Convexidad de los funcionales iniciales de SOM y NG El siguiente problema es encontrar las condiciones para la convexidad con respecto a los parámetros de la vecindad, para poder fijarlas asegurando un funcional inicial convexo. Esto es una tarea trivial para SOM y NG. La segunda derivada del funcional de SOM relativa a la unidad y i es: 2 i E SOM ( X,Y,h)= 1 n (22) H i ( x j,y,h), 2 j=1 La condición para la convexidad es que todas estas segundas derivadas deben ser mayores de cero para cualquier dato dado de la muestra: X; i; 2 i E SOM ( X,Y,h )> 0, (23) Esta condición se asegura fijando un radio de vecindad que abarque la red entera. Con una topología 1D de los índices de los codevectors h = c 2 es una condición suficiente para la 21

35 convexidad del funcional inicial minimizado por SOM. Observese que si la función de vecindad no es siempre no-negativa (esto es: la función de vecindad del sombrero mexicano) esta condición funcionará. La segunda derivada del funcional de NG relativo a un codevector es como la ecuación (21). Puesto que la función de vecindad del NG es siempre positiva, aunque puede tomar valores muy pequeños, la condición para la convexidad es aún más general, cualquier temperatura no nula asegurará la convexidad teórica del funcional objetivo. Por otra parte, garantiza que los sucesivos funcionales minimizados cuando la temperatura decrece son convexos hasta el límite de la temperatura cero, lo que puede ser un motivo del buen funcionamiento del NG. Esto no es verdad para SOM. Un tema para un trabajo adicional es el estudio del proceso de continuación de la minimización realizada mientras se disminuye la vecindad. 4. Resultados experimentales Con los resultados experimentales presentados en esta sección queremos hacer hincapié en la idea de que SOM y NG se deben considerar como una clase de algoritmos GNC. Amplían los resultados divulgados en [17]. Demuestran que, contrariamente a lo que cabe esperar de un algoritmo de SGD, el funcionamiento de las secuencias rápidas de entrenamiento de las ejecuciones one-pass de SOM y NG son comparables a las secuencias más lentas de entrenamiento de las ejecuciones batch. Hemos utilizado un conjunto de datos experimentales en 4D. La versión 2D se ha utilizado en [16, 24] para la evaluación de clustering y de algoritmos VQ. El conjunto de tres niveles de Cantor se distribuye uniformemente en un fractal; este se construye comenzando con un intervalo unitario, eliminando el tercio central, y después repitiendo recurrentemente el procedimiento en las dos porciones del intervalo que resultan. Hemos generado un conjunto de datos de entrada con un tamaño de muestras. Dada la imposibilidad de visualizar datos 4D, hemos optado por mostrar resultados 2D tomando dos dimensiones cualesquiera, estos resultados se pueden extrapolar a cualquier otra combinación de dimensiones seleccionada. Figura 1: Representación del conjunto de Cantor ( ) y del codebook inicial (*) generado aleatoriamente, solo se muestran la 2º y 4º dimensión. La inicialización del codebook aplicada en este articulo y reflejada en la figura 1 es una generación aleatoria siguiendo una distribucion uniforme en el espacio entrada. El tamaño del codebook se fija en c = 16 codevectors. El número máximo de presentaciones de la muestra se ha establecido en n = 50 para las ejecuciones convencionales de los algoritmos online y batch. Sin embargo, introducimos un criterio de parada subordinado al decrecimiento relativo de la distorsión; el proceso parará si este no es mayor que ξ = En los algoritmos de SOM, los valores de los parámetros de vecindad inicial y final se han fijado en: h 0 = c /2 +1; h n = 0.1, y en los algoritmos de NG se han fijado en: 22

36 λ 0 = c /2; λ n = En las versiones one-pass de los algoritmos, los valores de la velocidad de aprendizaje son α = y α = n. Hemos ejecutado 20 veces cada algoritmo. Figura 2. Evolución de la distorsión de la quantificación como función del número de los vectores de entrada usados en su estimación, medida en múltiplos del tamaño de muestra. En la figura 2 se presentan, para un codebook inicial concreto, las gráficas de la evolución de la distorsión de la cuantificación, en función del número de vectores de entrada usados. En todas las gráficas hay un patrón común: (a) NG y BNG presentan una convergencia más suave que SOM y BSOM, no obstante, alcanzan resultados comparables, y (b) SOMOP y NGOP realizan una convergencia muy rápida a unos valores comparables con las otras ejecuciones. Figura 3. Resultado de veinte ejecuciones de los algoritmos a prueba. En la figura 3, el eje y se corresponde con la media aritmética y con el 0.99 del intervalo de confianza del producto de la distorsión final por el tiempo de cómputo según lo medido por Matlab. Cuando consideramos el tiempo de cómputo en los gráficos de la figura 3, la mejora de la ejecución one-pass sobre las ejecuciones batch y online convencionales son espectaculares. También se puede apreciar la mejora de la ejecución batch sobre la la ejecución online convencional. Hemos utilizado el producto del tiempo de cómputo por la distorsión en lugar del cociente distorsión/tiempo para mantener la interpretación cualitativa de los gráficos: el más pequeño es el mejor. 23

37 En la figura 4 se presentan los codebooks finales obtenidos por los algoritmos, a partir del mismo codebook inicial mostrado en la figura 2. Observando la posición de los codevectors finales de las ejecuciones one-pass se refuerza la idea sobre su buen comportamiento. Un algoritmo puro de SGD sin ninguna característica de GNC no podría obtener los resultados de las figuras 2, 3 y 4. Hasta el día de hoy, estos resultados se están repitiendo en todos los experimentos que estamos desarrollando. Los resultados demuestran variaciones muy pequeñas, por lo que las ejecuciones son muy insensibles a las condiciones iniciales como sucede con los algoritmos GNC. SOM NG BSOM BNG SOMOP NGOP Figura 4. Resultados obtenidos por los algoritmos a prueba, solo se muestran la 2ª y 4ª dimensión. 24

38 5. Conclusiones Los paradójicos resultados empíricos divulgados en [17], que han sido confirmados desde entonces por otros experimentos computacionales, algunos de ellos reproducidos en este articulo, demuestran que las ejecuciones one-pass de SOM y de NG pueden conseguir un funcionamiento competitivo en términos de distorsión, y mucho mejor que las ejecuciones convencionales batch y online en términos de eficacia computacional (distorsión x tiempo), reforzando la idea de que el funcionamiento de este algoritmo es más sensible a los parámetros de vecindad que al parámetro de aprendizaje. Los parámetros de vecindad se pueden considerar como el parámetro de una familia de funcionales cuyo límite sea la distorsión de la cuantificación. Por lo tanto, el entrenamiento de SOM y de NG se puede considerar no como una minimización directa de una función de energía sino como una continuación del proceso de minimización sobre una secuencia de funcionales afinado por el parámetro de control de la vecindad. Si el funcional inicial es convexo los algoritmos se pueden considerar como algoritmos de graduación de la noconvexidad(gnc). De hecho, hemos demostrado que los funcionales de la energía de NG y de SOM se pueden ver fácilmente como los funcionales canónicos de GNC [20-22, 25]. También, es facil encontrar suficientes condiciones en el radio de vecindad para que el funcional inicial sea convexo. Por otra parte, es facil verificar que los funcionales de NG son convexos hasta la temperatura límite de cero, lo que explicaría su comportamiento suave. Nuestro trabajo futuro lo enfocaremos en la ampliación de la base empírica de las afirmaciones hechas en este articulo, así como en la realización de estudios analíticos detallados de SOM y de otros algoritmos competitivos manteniendo este punto de vista. Referencias [1] S. C. Ahalt, A. K. Krishnamurthy, P. Chen, and D. E. Melton, "Competitive Learning Algorithms for Vector Quantization " Neural Networks, vol. 3, pp , [2] A. Gersho, "On the structure of vector quantizers," IEEE Trans. Information Theory, vol. 28, pp , [3] A. Gersho and R. M. Gray, Vector Quantization and signal compression: Kluwer, [4] R. M. Gray, "Vector Quantization," IEEE ASSP Magazine, vol. 1, [5] Y. Linde, A. Buzo, and R. M. Gray, "An algorithm for vector quantizer design," IEEE Trans. Communications, vol. 28, pp , [6] T. Kohonen, Self-Organization and associative memory. Berlin, Germany: Springer Verlag, [7] T. Kohonen, "The Self-Organising Map," Neurocomputing, vol. 21, pp. 1-6, [8] T. Martinetz, S. Berkovich, and K. Schulten, "Neural-Gas network for vector quantization and his application to time series prediction," IEEE trans. Neural Networks, vol. 4, pp , [9] A. I. Gonzalez, M. Graña, A. d'anjou, F. X. Albizuri, and M. Cottrell, "A sensitivity analysis of the Self Organizing Map as an Adaptive One-pass Non-stationary Clustering algorithm: the case of Color Quantization of image sequences," Neural Processing Letters, vol. 6, pp [10] E. de Bodt, M. Cottrell, P. Letremy, and V. M., "On the use of self-organizing maps to accelerate vector quantization," Neurocomputing, vol. 56, pp , [11] K. f*ckunaga, Statistical Pattern Recognition: Academic Press, [12] J. C. Fort, P. Letrémy, and M. Cottrell, "Advantages and Drawbacks of the Batch Kohonen Algorithm," presented at ESANN'2002, Brugge, Belgium, [13] S. Zhong and J. Ghosh, "A Unified Framework for Model-based Clustering," Journal of Machine Learning Research, vol. 4, pp , [14] L. Qi and P. F. Swaszek, "One-pass vector quantizer design by sequential pruning of the training data," [15] H. Garudadri, P. Labute, G. Boulianne, and P. Kenny, "Fast match acoustic models in large vocabulary continuous speech recognition," presented at ICASSP-94, [16] C. Chan and M. Vetterli, "Lossy Compression of Individual Signals Based on String Matching and One Pass Codebook Design," presented at ICASSP'95, Detroit, MI,

39 [17] A. I. Gonzalez and M. Graña, "Controversial empirical results on batch versus one pass online algorithms," presented at WSOM2005, Paris, [18] A. Blake and A. Zisserman, Visual Reconstruction. Cambridge, Mass.: MIT Press, [19] M. Junghans, A. Leick, and H. J. Jentschel, "Lucas-Kanade algorithm with GNC," presented at ICSP '04, [20] M. Nielsen, "Graduated nonconvexity by functional focusing," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 19, pp , [21] M. Nikolova, "Markovian reconstruction using a GNC approach," Image Processing, IEEE Transactions on, vol. 8, pp , [22] M. Nikolova, J. Idier, and A. Mohammad-Djafari, "Inversion of large-support ill-posed linear operators using a piecewise Gaussian MRF," Image Processing, IEEE Transactions on, vol. 7, pp , [23] E. L. Allgower and K. Georg, Numerical Continuation Methods. An Introduction, vol. 13. Berlin/Heidelberg, Germany: Springer-Verlag, [24] C. Chinrungrueng and C. Séquin, "Optimal Adaptive K-Means Algorithm with Dynamic Adjustment of Learning Rate," IEEE Trans. on Neural Networks, vol. 6, pp , [25] A. Blake, "Comparison of the efficiency of deterministic and stochastic algorithms for visual reconstruction," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 11, pp. 2-12,

40 Lattice computing and artificial intelligence applications Manuel Graña Grupo de Inteligencia Computacional UPV/EHU Abstract: During the last decade a growing body of works and publications are addressed to the development of lattice computing as an alternative to conventional computational models. On top of the exploration for mathematical foundations, several applications have been tested in image processing and pattern recognition. 1 Introduction Most of the techniques that fall in the broad basket of Artificial Intelligence are of one of the following computational categories: 1. classification: the ability to assign a conceptual label to an (numerically described) entity 2. reasoning: the ability to reach conclusions from data, to make decisions based on previous stored knowledge and current data. 3. data and signal processing, filtering: the ability to transform the raw sensing information, to compress it extracting features, to remove noise, fill gaps or to expand to hiperresolution, to predict the future from the past. The reasoning category has been fully explored through symbolic mathematical means, starting from classical logic, to new fuzzy and multivalued logics up to new ideas about computing with words. However, in many cases is not clear whether the task performed is a pure reasoning or a classification task. The classical book on pattern recognition [1] made somehow very thin the boundary line by embedding classification in the context of Bayesian decision theory. It is rather difficult to find pure reasoning cases outside the most mathematical theorem proving systems. Reasoning seems to involve always a decision, and this decision can be seen as a classification under some specific view. When there is some noise or uncertainty the problem becomes probabilistic or fuzzy classification. Why this roundabout? Because lattice computing deals with data processing and classification applications. For instance, morphological filters in nonlinear image processing [2, 3] are early instances of lattice computing, and they are signal processing techniques. Image algebra [4-6] is another early instance of lattice computing devoted to image processing. The Minimax Algebra [7] has been rediscovered as one of the foundations for lattice computing. The name lattice computing comes from recent works [8-10] that identify the lattice structure as a central concept for a whole family of methods and applications. The lattice calculus serves there to bridge the gap between computational paradigms as diverse as fuzzy systems, morphological signal processing and artificial neural networks [11-19]. 27

41 The classical reference on Lattice Theory is the book [20]. A lattice is a partially ordered set (poset) any two of whose elements have a supremum and an infimum. A nice review of mathematical properties and terms can be found in [10]. The sup and inf operators, and the existence of adjunct operators, are at the core of the non-linear processes proposed by mathematical morphology, minimax algebra, image algebra and fuzzy logic. Formulating them in terms of lattice theory has allowed to combine and to generalize them. At the risk of being over simplistic, we gather together under the label of lattice computing a collection of techniques and research works involving somehow the inf and sup operators. In section 2 we give a brief account of the main approaches found in the literature. In section 3 we comment on the applications addressed by lattice computing based algorithms and in section 4 we comment on the problem of learning and estimation for this kind of systems. 2 Main approaches The works on Image Algebra [4-6] were the prelude to the proposal of morphological neural networks, in the form of morphological perceptron [21-23] and of associative memories [24-26]. The good properties of Morphological Autoassociative Memories (later renamed Lattice Autoassociative Memories) were hindered by their sensitivity to specific kinds of noise (erosive or dilative noise), so that a big deal of effort was addressed to obtain robust versions [14, 20, 27-36]. These efforts produced a new kind of memories in the frontier between associative morphological memories and fuzzy systems [14, 15, 17, 18]. The works from Mathematical Morphology [2, 3] have also received a lattice theoretical formalization [10, 19] ending up into a fusion with the fuzzy system paradigm [10, 37]. In the mean time, there have been proposals for adaptive morphological operators sometimes mixed with linear operators, using gradient descent algorithms for structural element estimation [38-41]. The Fuzzy Lattice Neurocomputing paradigm [8, 42-44] comes from the fuzzy system and fuzzy logic paradigm. The Fuzzy Interval Number [45, 46] allows the manipulation of rather different data objects in a common lattice framework. These ideas have matured to propose lattice computing as a framework for new inference systems [47] and for new version of well known algorithms, such as the the grsom (granular SOM) [13], the grarma (granular ARMA)[12], the unification of SOM and ART algorithms [48]. The Fuzzy ARTMAP [49] is also a network with min-max operators, related to the FLN and FIN paradigms. 3 Application areas The lattice framework researchers have been attracted to a number of application areas, where they motivate their work and provide experimental results. We have grouped them into two main areas: signal and image processing and Classification and feature extraction. These areas correspond to the two main issues in artificial intelligence. 28

42 3.1 Signal and Image processing In image processing the tasks to be solved are related to noise removal and/or to image segmentation. From the morphological field, the aim is to obtain either new morphological operators [10, 19, 37, 50] or to estimate appropriate structural elements [2, 3, 39-41, 51], which is equivalent. The lattice computing paradigm has been applied to embed fuzzy operators into morphological techniques to obtain improved edge detection operators [10]. Morphological/rank/linear algorithms [39-41] were applied to image restoration and character recognition. The Morphological Shared-weight networks [52] were proposed for target recognition in images. The Associative Morphological Memories [24-26] were proposed for the storage of binary and gray patterns, with the aim of recovering the original clean image from noisy copies, which is an image restoration process. 3.2 Feature extraction and classification The works on spectral unmixing of hyperspectral images [53, 54] have led to the use of the convex coordinates produced by unmixing process as features for classification purposes [55-57]. The sample data points are expressed relative to the so-called endmembers in hyperspectral image processing. The idea of endmember is that they represent instances of pure elements, so that all the other elements in the image correspond to mixtures of these pure elements. Endmembers are vertices of a polygonal convex set covering data cloud. It happens that Autoassociative Morphological Memories [24-26, 58] have specific noise sensitivities that allow the detection of endmembers in the data from hyperspectral images [53, 54]. It is possible also to obtain these endmembers trough the construction of the Autoassociative Morphological Memories [20]. Working ways to enhance the robustness of Associative Morphological Memories against all kinds of noise [28, 35, 36] led to the definition of morphological independence and latter to lattice independence which turns out to be related to affine independence [20], a condition to be fulfilled by sets of endmembers. Direct application to benchmark classification problems is performed with the dendritic neuron [23, 32, 59], while grayscale morphological associative memories are used in [34] to pre-process the data prior to classification with a simple Nearest Neighbour approach. The works on Fuzzy Interval Numbers and Fuzzy Lattice Neurocomputing [42-45, 47, 60-64] had a lot of applications in classification and prediction: [65-67] bone drilling for epidural anaesthesia, [68] text classification, [69] sugar production prediction, [64, 70] air quality monitoring. 29

43 4 Learning and estimation One of the key problems in any system construction approach is that of inducing the system parameters from the available data. The key to the success of the Artificial Neural Networks paradigm is the availability of easy to implement, robust (up to some degree) methods to estimate the parameters of the system: backpropagation, competitive learning algorithms, among others. These algorithms were designed as gradient descent procedures for a given energy or cost function. For the lattice computing paradigm there is a major obstacle for the definition of these kind of approaches: the basic building block, the min-max operators are non differentiable. Some works proposed some ways to circumvent this problem, [71] in the context of fuzzy neural networks, [38] in the context of min-max classifiers. Others like [41, 52] tried to define gradient descent algorithms for the estimation of the morphological filter structural element. In fact, [40, 41] proposes a class of mixed morphological/linear systems which are trained with an algorithm analogous to the error backpropagation. There have been attempts to mimic the perceptron rule for lattice based morphological networks [21-23]. One of the advantages of Morphological Associative Memories [25-27, 30, 31, 33] is that their construction is very easy and does not involve gradient descent algorithms. It consist on the morphological (lattice) analogy to the construction of linear associative memories and Hopfield networks. However, it is not possible to prove any convergence result on them. Most of the theoretical work have been devoted to explain their behaviour and to understand the shape and properties of their fixed point subspaces[14, 20, 29, 30, 72, 73]. The related dendritic morphological neural network [23, 59, 74] has a learning algorithm based on the incremental refining of the covering of the sets in the classes to be discriminated. 5 Conclussions The aim of this paper was to give a glimpse of the computational field composed of algorithms that employ in any a way sup and inf operators and can be, therefore, put into the framework of lattice theory. The focus on lattices reveals the existence of a profound parallelism between areas as divergent as fuzzy systems, mathematical morphology, min-max algebra and artificial neural networks. References 1. Duda, R.O. and P.E. Hart, Pattern Classification and Scene Analysis. 1973: Wiley. 2. Maragos, P. and R. Schafer, Morphological filters--part I: Their set-theoretic analysis and relations to linear shift-invariant filters. Acoustics, Speech, and Signal Processing, IEEE Transactions on, (8): p Maragos, P. and R. Schafer, Morphological filters--part II: Their relations to median, order-statistic, and stack filters. Acoustics, Speech, and Signal Processing, IEEE Transactions on, (8): p Ritter, G.X. and J.N. Wilson, Handbook of Computer Vision Algorithms in Image Algebra, Second Edition. 2001, Boca Raton: Fl: CRC Press. 30

44 5. Ritter, G.X. and P.D. Gader, Image algebra techniques for parallel image processing. J. Paral. Distr. Comput., : p Ritter, G.X., J.N. Wilson, and J.L. Davidson, Image algebra: An overview. Computer Vision, Graphics, and Image Processing, (1): p Cuninghame-Green, R.A., Minimax Algebra. LNCS. 1979, New York: Springer Verlag. 8. Kaburlasos, V.G., Towards a Unified Modeling and Knowledge-Representation based on Lattice Theory. 2006: Springer Verlag. 9. Kaburlasos, V.G. and G.X. Ritter, Computational Intelligence Based on Lattice Theory. Studies in Computational Intelligence. : Springer Verlag. 10. Maragos, P., Lattice Image Processing: A Unification of Morphological and Fuzzy Algebraic Systems. Journal of Mathematical Imaging and Vision, (2-3): p Kaburlasos, V.G. and S.E. Papadakis. grsom: a granular extension of the selforganizing map for structure identification applications. in Fuzzy Systems, Proceedings IEEE International Conference on Kaburlasos, V.G. and A. Christoforidis. Granular Auto-regressive Moving Average (grarma) Model for Predicting a Distribution from Other Distributions. Real-world Applications. in Fuzzy Systems, 2006 IEEE International Conference on Kaburlasos, V.G. and S.E. Papadakis, Granular self-organizing map (grsom) for structure identification. Neural Networks, (5): p Sussner, P. A fuzzy autoassociative morphological memory. in Neural Networks, Proceedings of the International Joint Conference on Valle, M.E., P. Sussner, and F. Gomide. Introduction to implicative fuzzy associative memories. in Neural Networks, Proceedings IEEE International Joint Conference on Sussner, P. and M.E. Valle. A Brief Account of the Relations between Gray- Scale Mathematical Morphologies. in Computer Graphics and Image Processing, SIBGRAPI th Brazilian Symposium on Sussner, P. and M.E. Valle, Implicative Fuzzy Associative Memories. Fuzzy Systems, IEEE Transactions on, (6): p Valle, M.E. and P. Sussner. Fuzzy Associative Memories from the Perspective of Mathematical Morphology. in Fuzzy Systems Conference,. FUZZ-IEEE. IEEE International Heijmans, H.J.A.M. and P. Maragos, Lattice calculus of the morphological slope transform. Signal Processing, (1): p Ritter, G.X. and P.D. Gader, Fixed points of lattice transforms and lattice associative memories, in Advances in Imaging and Electron Physics P. Hawkes, Editor. 2006, Academic Press: San Diego, Ca. p Sussner, P. Morphological perceptron learning. in Intelligent Control (ISIC), Held jointly with IEEE International Symposium on Computational Intelligence in Robotics and Automation (CIRA), Intelligent Systems and Semiotics (ISAS), Proceedings of the 1998 IEEE International Symposium on Ritter, G.X. and T.W. Beaver. Morphological perceptrons. in Neural Networks, IJCNN '99. International Joint Conference on Ritter, G.X., L. Iancu, and G. Urcid. Morphological perceptrons with dendritic structure. in Fuzzy Systems, FUZZ '03. The 12th IEEE International Conference on

45 24. Ritter, G.X. and P. Sussner. Associative memories based on lattice algebra. in Systems, Man, and Cybernetics, 'Computational Cybernetics and Simulation'., 1997 IEEE International Conference on Ritter, G.X., P. Sussner, and J.L. Diza-de-Leon, Morphological associative memories. Neural Networks, IEEE Transactions on, (2): p Ritter, G.X., J.L. Diaz-de-Leon, and P. Sussner, Morphological bidirectional associative memories. Neural Networks, (6): p Sussner, P., Observations on morphological associative memories and the kernel method. Neurocomputing, (1-4): p Raducanu, B., M. Graña, and F.X. Albizuri, Morphological Scale Spaces and Associative Morphological Memories: Results on Robustness and Practical Applications. Journal of Mathematical Imaging and Vision, (2): p Sussner, P. Binary autoassociative morphological memories derived from the kernel method and the dual kernel method. in Neural Networks, Proceedings of the International Joint Conference on Sussner, P., Associative morphological memories based on variations of the kernel and dual kernel methods. Neural Networks, (5-6): p Ritter, G., L. Iancu, and M.S. Schmalz, A New Auto-associative Memory Based on Lattice Algebra, in Progress in Pattern Recognition, Image Analysis and Applications. 2004, Springer Verlag. 32. Ritter, G.X. and L. Iancu. A morphological auto-associative memory based on dendritic computing. in Neural Networks, Proceedings IEEE International Joint Conference on Sussner, P. New results on binary auto- and heteroassociative morphological memories. in Neural Networks, IJCNN '05. Proceedings IEEE International Joint Conference on Sussner, P. and M.E. Valle, Gray-scale morphological associative memories. Neural Networks, IEEE Transactions on, (3): p Urcid, G. and G.X. Ritter. Noise Masking for Pattern Recall Using a Single Lattice Matrix Auto-Associative Memory. in Fuzzy Systems, 2006 IEEE International Conference on Urcid, G. and G.X. Ritter, Noise Masking for Pattern Recall Using a Single Lattice Matrix Associative Memory, in Computational Intelligence Based on Lattice Theory, V.G. Kaburlasos and G.X. Ritter, Editors., Springer Verlag. 37. Maragos, P., V. Tzouvaras, and G. Stamou. Synthesis and applications of lattice image operators based on fuzzy norms. in Image Processing, Proceedings International Conference on Yang, P.-F. and P. Maragos, Min-max classifiers: Learnability, design and application. Pattern Recognition, (6): p Pessoa, L.F.C. and P. Maragos. Morphological/rank neural networks and their adaptive optimal design for image processing. in Acoustics, Speech, and Signal Processing, ICASSP-96. Conference Proceedings., 1996 IEEE International Conference on Pessoa, L.F.C. and P. Maragos, Neural networks with hybrid morphological/rank/linear nodes: a unifying framework with applications to handwritten character recognition. Pattern Recognition, (6): p

46 41. Pessoa, L.F.C. and P. Maragos, MRL-filters: a general class of nonlinear systems and their optimal design for image processing. Image Processing, IEEE Transactions on, (7): p Petridis, V. and V.G. Kaburlasos, Fuzzy lattice neural network (FLNN): a hybrid model for learning. Neural Networks, IEEE Transactions on, (5): p Kaburlasos, V.G. and V. Petridis, Fuzzy Lattice Neurocomputing (FLN) models. Neural Networks, (10): p Petridis, V. and V.G. Kaburlasos, Learning in the framework of fuzzy lattices. Fuzzy Systems, IEEE Transactions on, (4): p Petridis, V. and V.G. Kaburlasos, FINkNN: A Fuzzy Interval Number k-nearest Neighbor Classifier for Prediction of Sugar Production from Populations of Samples. Journal of Machine Learning Research, : p Kaburlasos, V.G., FINs: lattice theoretic tools for improving prediction of sugar production from populations of measurements. Systems, Man and Cybernetics, Part B, IEEE Transactions on, (2): p Kaburlasos, V.G. and A. Kehagias. Novel analysis and design of fuzzy inference systems based on lattice theory. in Fuzzy Systems, Proceedings IEEE International Conference on Kaburlasos, V.G., Unified Analysis and Design of ART/SOM Neural Networks and Fuzzy Inference Systems Based on Lattice Theory, in Computational and Ambient Intelligence, F. Sandoval, et al., Editors., Springer Verlag. 49. Goodman, P.H., et al. Fuzzy ARTMAP neural network compared to linear discriminant analysis prediction of the length of hospital stay in patients with pneumonia. in Systems, Man and Cybernetics, 1992., IEEE International Conference on Maragos, P., Morphological systems: Slope transforms and max-min difference and differential equations. Signal Processing, (1): p Maragos, P., M. Akmal Butt, and L.F.C. Pessoa. Two frontiers in morphological image analysis: differential evolution models and hybrid morphological/linear neural networks. in Computer Graphics, Image Processing, and Vision, Proceedings. SIBGRAPI '98. International Symposium on Yonggwan, W., P.D. Gader, and P.C. Coffield, Morphological shared-weight networks with applications to automatic target recognition. Neural Networks, IEEE Transactions on, (5): p Graña, M., et al., On Endmember Detection in Hyperspectral Images with Morphological Associative Memories, in Advances in Artificial Intelligence - IBERAMIA 2002: 8th Ibero-American Conference on AI, Seville, Spain, November 12-15, Proceedings, F.J. Garijo, J.C. Riquelme, and M. Toro, Editors. 2002, Springer Verlag. 54. Grana, M., P. Sussner, and G. Ritter. Associative morphological memories for endmember determination in spectral unmixing. in Fuzzy Systems, FUZZ '03. The 12th IEEE International Conference on Graña, M., et al., Convex Coordinates From Lattice Independent Sets for Visual Pattern Recognition, in Computational Intelligence Based on Lattice Theory, V.G. Kaburlasos and G.X. Ritter, Editors., Springer Verlag. 56. Villaverde, I., M. Graña, and A. d'anjou, Morphological Independence for Landmark Detection in Vision Based SLAM, in Computational and Ambient Intelligence, F. Sandoval, et al., Editors., Springer Verlag. 33

47 57. Villaverde, I., M. Graña, and J.L. Jimenez, Lattice Independence and Vision Based Mobile Robot Navigation, in Knowledge-Based Intelligent Information and Engineering Systems., Springer Verlag. 58. Ritter, G.X. and P. Sussner. An introduction to morphological neural networks. in Pattern Recognition, 1996., Proceedings of the 13th International Conference on Ritter, G.X. and G. Urcid, Learning in Lattice Neural Networks that Employ Dendritic Computing, in Computational Intelligence Based on Lattice Theory, V.G. Kaburlasos and G.X. Ritter, Editors., Springer Verlag. 60. Petridis, V. and V.G. Kaburlasos. Modeling of systems using heterogeneous data. in Systems, Man, and Cybernetics, IEEE SMC '99 Conference Proceedings IEEE International Conference on Petridis, V. and V.G. Kaburlasos, Clustering and classification in structured data domains using Fuzzy Lattice Neurocomputing (FLN). Knowledge and Data Engineering, IEEE Transactions on, (2): p Cripps, A., N. Nguyen, and V.G. Kaburlasos. Three improved fuzzy lattice neurocomputing (FLN) classifiers. in Neural Networks, Proceedings of the International Joint Conference on Kaburlasos, V.G. Improved fuzzy lattice neurocomputing (FLN) for semantic neural computing. in Neural Networks, Proceedings of the International Joint Conference on Kaburlasos, V.G., I.N. Athanasiadis, and P.A. Mitkas, Fuzzy lattice reasoning (FLR) classifier and its application for ambient ozone estimation. International Journal of Approximate Reasoning,. 45(1): p Kaburlasos, V.G., et al. On-line estimation of the stapes-bone thickness in stapedotomy by learning a linear association of the force and torque drilling profiles. in Intelligent Information Systems, IIS '97. Proceedings Kaburlasos, V.G., et al. Learning a linear association of drilling profiles in stapedotomy surgery. in Robotics and Automation, Proceedings IEEE International Conference on Kaburlasos, V.G., et al., Estimation of the stapes-bone thickness in the stapedotomy surgical procedure using a machine-learning technique. Information Technology in Biomedicine, IEEE Transactions on, (4): p Petridis, V., et al. Text classification using the σ-flnmap neural network. in Neural Networks, Proceedings. IJCNN '01. International Joint Conference on Kaburlasos, V.G., et al., Intelligent clustering techniques for prediction of sugar production. Mathematics and Computers in Simulation, (3-5): p Athanasiadis, I.N. and V.G. Kaburlasos. Air Quality Assessment Using Fuzzy Lattice Reasoning (FLR). in Fuzzy Systems, 2006 IEEE International Conference on Zhang, X., et al., The min-max function differentiation and training of fuzzy neural networks. Neural Networks, IEEE Transactions on, (5): p Sussner, P. Fixed points of autoassociative morphological memories. in Neural Networks, IJCNN 2000, Proceedings of the IEEE-INNS-ENNS International Joint Conference on

48 73. Sussner, P. A relationship between binary morphological autoassociative memories and fuzzy set theory. in Neural Networks, Proceedings. IJCNN '01. International Joint Conference on Ritter, G.X. and G. Urcid, Lattice algebra approach to single-neuron computation. Neural Networks, IEEE Transactions on, (2): p

49 Revisión bibliográ ca de índices de validación para la evaluación de algoritmos de clasi cación (Survey of clustering perfomance indices) C. Hernández, M. Graña and J. Gallego Grupo de Inteligencia Computacional Universidad del País Vasco, UPV/EHU Abstract. En este artículo realizamos una revisión bibliográ ca de los índices de validación internos y externos utilizados en la evaluación de la calidad de los algoritmos de clasi cación. 1 Introducción Un procedimiento de clasi cación no supervisada o algoritmo de clustering trata de encontrar, dado un conjunto de datos X, una partición P de los datos o un conjunto de clases de dicho conjunto sin tener en cuenta ninguna clasi cación previa, o dada a priori, de este conjunto de datos o de un subconjunto del mismo. Mientras que el algoritmo de clasi cación supervisada tiene en cuenta la clasi cación conocida a priori y, de hecho, obtiene la partición del conjunto de datos X en base a dicho conocimiento. Estos son los dos tipos principales de algoritmos de clasi cación. Una vez realizada la clasi cación de un conjunto de datos es necesario disponer de una metodología que nos permita validar los resultados obtenidos. Sin embargo, la validación de las clases, o partición de los datos, obtenidas por el algoritmo de clasi cación no es una tarea fácil. El procedimiento de evaluación de los resultados de un algoritmo clasi cación se basa en tres criterios principales: Criterios externos: Se evaluan los resultados en función de la estructura conocida a priori de las clases y del conjunto de datos. En este caso, la idea básica es comprobar si el conjunto de datos tiene o no una estructura aleatoria. Las técnicas utilizadas más conocidas para este método de evaluación son las técnicas de Monte Carlo. Criterios internos: Se evaluan los resultados en función de ciertas medidas con respecto a las clases obtenidas o a sus elementos a n de obtener la estructura de la clasi cación de los datos. Criterios relativos: Se evaluan los resultados mediante la comparación con respecto a las particiones obtenidas con otros esquemas de clasi cación. En este caso, se puede establecer cuál es la mejor estructura o partición en el sentido de la estabilidad o adecuación de la misma a los datos. 36

50 En este artículo trataremos fundamentalmente los dos primeros criterios de validación. Es decir, presentamos una serie de pautas para evaluar la calidad de los resultados aportados por los algoritmos de clasi cación basados en medidas sobre las distancias entre los elementos de las particiones o los conjuntos de clases obtenidos (índices internos) o en medidas de similitud y de no similitud de los elementos de las distintas particiones o conjuntos de clases que produce el algoritmo (índices externos). 2 Partición de un conjunto de datos Decimos que P es una partición del conjunto de datos X de n elementos a un conjunto de c clases también denominadas clusters. Esto es: donde c S i=1 P = fc 1 ; : : : ; C c g C i = X y C i T Cj =? con i; j = 1; : : : ; c e i 6= j. De nimos el centro del conjunto de datos X como la media de todos los datos: Q = 1 X x (1) n x2x Por otro lado, la varianza del conjunto de datos X viene dada por: (X) = X x2x (x Q) T (x Q) (2) siendo Q la media de los datos. De nimos el centro Q i de la clase i-ésima de la partición P del conjunto de datos X como la media de los datos pertenecientes a dicha clase: Q i = 1 X x (3) n i x2c i siendo n i el número de elementos de la clase i-ésima. El centro de la clase es el representante de la misma. El error cuadrático de la clase i-ésima o la varianza de los datos de la clase i-ésima viene dado por la siguiente expresión: e 2 i = X x2c i (x Q i ) T (x Q i ) (4) y el error cuadrático de la partición P del conjunto de datos X es: cx e 2 (P ) = e 2 i (5) i=1 37

51 De igual forma, de nimos el error cuadrático de los centros de las clases de la partición P del conjunto de datos como: e 2 (P; Q) = cx n i (Q i Q) T (Q i Q) (6) i=1 siendo Q la media del conjunto de datos(1). 2.1 Matriz de contingencia Dadas dos particiones P y Q del conjunto de datos X de n elementos con p y q clases respectivamente, la matriz de contingencia 1 entre ambas particiones, MCont = (n ij ) pq con i = 1; : : : ; p y j = 1; ; : : : ; q, es una matriz donde el término n ij representa el número de elementos del conjunto de datos X que se encuentran en la clase i-ésima de la partición P y en la clase j-ésima de la partición Q. Puede verse que se cumple: px i=1 j=1 qx n ij = n MCont C1 0 C2 0 : : : Cq 0 C 1 n 11 n 12 : : : n 1q n 1: C 2 n 21 n 22 : : : n 2q n 2:..... C p n p1 n p2 : : : n pq n p: n :1 n :2 : : : n :q n :: = n Tabla 1: Matriz de contingencia entre las clases de las dos particiones P y Q del conjunto de datos X. El número de elementos (n i: ) de la clase i-ésima de la partición P es igual a la suma de todas las columnas para la la i-ésima de la matriz de contingencia: n i: = qx j=1 y la suma para todas las las de este término es igual al número de elementos: n ij px n i: = n i=1 1 También se conoce a esta matriz como matriz de confusión. 38

52 De igual forma, el número de elementos de la clase j-ésima de la partición Q, n :j, es la suma de todas las las para la columna j-ésima de la matriz de contingencia: px n :j = y la suma para todas las columnas de este término es igual al número de elementos: qx n :j = n j=1 Denotamos como (P ) al conjunto de pares que pueden establecerse en la partición P : j (P )j = px i=1 = 2 ni: px i=1 n 2 i: n i: 2 = 1 2 i=1 n ij " px i=1 n 2 i: # px n i: = 1 2 donde el cardinal de la clase i-esima es n i: = jc i j con i = 1; : : : ; p y (Q) es el conjunto de pares que pueden establecerse en la partición Q: i=1 X i n 2 i: n! j (Q)j = qx j=1 = 2 n:j qx j=1 n 2 :j n :j 2 donde n :j = C j 0 con j = 1; : : : ; q. 2 = 1 qx 4 2 j=1 n 2 :j qx j=1 n :j = X 2 j n 2 :j 1 na 2.2 Comparación de particiones Un algoritmo de clasi cación puede obtener diversas particiones del mismo conjunto de datos. En muchas ocasiones, resulta interesante comparar estas particiones para obtener la mejor partición del conjunto o, simplemente, para tomar medidas estadísticas de la calidad del algoritmo de clasi cación mediante varias particiones del conjunto de datos. Por ello, la comparación de particiones es una herramienta útil a la hora de evaluar la calidad de un algoritmo de clasi cación. La comparación de particiones de un conjunto de datos X se basa en el estudio de todos los pares de elementos de dicho conjunto en función de la clase de la partición en la que se encuentran dichos elementos. Es decir, dadas dos particiones P y Q del conjunto X con p y q clases respectivamente: 2 P = fc 1 ; : : : ; C p g Q = fc 0 1; : : : ; C 0 qg se toman todos los pares de elementos del conjunto X, (x; y) 2 X X, y se analizan las condiciones en las que se encuentran estos elementos en dichas particiones. Si ambos elementos se encuentran en la misma clase para ambas particiones, decimos que se produce presencia o, si ambos elementos se encuentran 2 Consideramos p q: 39

53 en distintas clases para ambas particiones; esto es, se produce ausencia, decimos que se acepta el par. En caso contrario, si ambos elementos se encuentran en la misma clase en una partición y en distinta clase en la otra partición o viceversa, decimos que no se acepta o se rechaza el par. De esta forma, se contabilizan el número de aceptaciones positivas (r, presencia) cuando los elementos del par se encuentran en la misma clase para ambas particiones y el número de aceptaciones negativas (s, ausencia) cuando los elementos del par se encuentran en distintas clases para ambas particiones. Por otra parte, se contabiliza el número de rechazos cuando los elementos del par se encuentran en distintas clases en la primera partición y en la misma clase en la segunda partición (v) y el número de rechazos donde los elementos del par se encuentran en la misma clase en la primera partición y en distintas clases en la segunda partición (u). Todas estas estadísticas pueden verse resumidas en la siguiente tabla: Partición Q presencia ausencia Partición presencia r u P ausencia v s Tabla 2: Aceptaciones positivas y negativas y rechazos entre las dos particiones P y Q. Las estadísticas r; u; v y s pueden calcularse en función de la matriz de contingencia (tabla 1) formada a partir de las clases de ambas particiones P y Q. Por una parte, dado el conjunto de datos X de n elementos, el número de pares total que pueden formarse en este conjunto es: r + u + v + s = n 2 = n2 n 2 El número de aceptaciones en función del número total de pares de elementos y el número de rechazos entre ambas particiones P y Q del conjunto de datos X de n elementos es: N aceptaciones (P; Q) = r + s = n 2 (u + v) = n 2 N rechazos (P; Q) (7) El número de aceptaciones y rechazos entre ambas particiones pueden calcularse a partir de la matriz de contingencia. Por ejemplo, para el número de aceptaciones positivas r viene dado por la expresión: 0 1 r = X nij = 1 X n 2 1 ij n ij X n 2 ij na i;j i;j i;j 40

54 El número de rechazos u y v se expresan como: u = X i ni: 2 r = 1 2 X i n 2 i: n! 0 X 2 i;j n 2 ij 1 0 na = X 2 i n 2 i: X i;j n 2 ij 1 A v = X j n:j 2 0 r = X 2 j n 2 :j 1 0 na X 2 i;j n 2 ij 1 0 na = X 2 j n 2 :j X i;j n 2 ij 1 A Y nalmente, el número de aceptaciones negativas s es: 0 n s = (r + u + v) = 1 X 2 n 2 i: n 2 :j + X 2 2 i j i;j Por consiguiente, podemos expresar el número de aceptaciones y de rechazos(7) en términos de la matriz de contingencia como sigue: n 2 ij 1 A 0 N aceptaciones (P; Q) = r + s = 2 n 2 X n 2 i: i j N rechazos (P; Q) = u + v = 1 X n 2 i: + 1 X 2 2 i j X n 2 :j + 2 X i;j n 2 :j X i;j n 2 ij n 2 ij 1 A 3 Distancias en una partición Existen dos criterios fundamentales para la evaluación de una partición obtenida por un algoritmo de clasi cación. Estos dos criterios son la compacidad y separación de las clases de una partición P del conjunto de datos X. Esto es, Compacidad: Los elementos de cada clase de la partición deben estar próximos los unos de los otros. Una medida muy utilizada de la compacidad de una partición del conjunto de datos es la varianza de la misma la cual debe ser minimizada durante el proceso de clasi cación. Separación: Las clases de la partición deben estar separadas las unas de las otras para evitar solapamientos entre ellas. Para la evaluación de estos dos criterios, de nimos una serie de distancias entre las particiones generadas por el algoritmo de clasi cación. Distinguimos dos tipos de distancias: Las distancias entre las clases de la partición, también denominadas distancias interclases (intercluster). Las distancias entre los elementos de una clase de la partición, también denominadas distancias intraclases (intracluster). 41

55 3.1 Distancias interclases Dada una partición P del conjunto de datos X con c clases: P = fc 1 ; : : : ; C c g donde el cardinal de la clase i-ésima es n i = jc i j y una métrica de nida entre los elementos del conjunto de datos d (x; y), como por ejemplo la distancia euclídea, podemos de nir las siguientes distancias entre las clases de la partición: Distancia entre clases (average linkage): Es la distancia entre todos los ejemplos de dos clases diferentes C i y C j de la partición P y se de ne como: d (C i ; C j ) = 1 n i n j X x2c i;y2c j d (x; y) donde n i y n j son el cardinal de las clases C i y C j respectivamente. Distancia entre los centros de las clases (centroid linkage): Es la distancia entre los centros de dos clases diferentes C i y C j de la partición P del conjunto de datos y se de ne como: d (C i ; C j ) = d (Q i ; Q j ) (8) siendo Q i y Q j los centros o centroides 3 de las clases C i y C j respectivamente. Los valores de los centros se calculan como la media de los elementos de la clase(3). Distancia entre los elementos más alejados entre sí de dos clases diferentes (complete linkage): Dadas dos clases distintas C i y C j de la partición P, esta distancia se de ne como: d (C i ; C j ) = max d(x; y) x2c i;y2c j Distancia entre los elementos más cercanos entre sí de dos clases diferentes (simple linkage): Dadas dos clases distintas C i y C j de la partición P, esta distancia se de ne como: d (C i ; C j ) = min d(x; y) (9) x2c i;y2c j Distancia entre el centro de una clase y todos los elementos de otra clase diferente (average to centroids linkage): Dadas dos clases distintas C i y C j de la partición P, esta distancia se de ne como: < X X = d (C i ; C j ) = d (x; Q n i + n j : j ) + d (y; Q i ) ; x2c i y2c j 3 También se denominan centros de gravedad de la clase. 42

56 La distancia de Hausdor es la máxima distancia entre los elementos de una clase al elemento más cercano de otra clase. Esto es, dadas dos clases C i y C j de la partición P del conjunto de datos, la distancia de Hausdor es: d (C i ; C j ) = max fd 1 (C i ; C j ) ; d 2 (C j ; C i )g donde las distancias d 1 y d 2 se de nen como: min d 1 (C i ; C j ) = max x2c i d 2 (C j ; C i ) = max y2c j d(x; y) y2c j mind(x; y) x2c i 3.2 Distancias intraclases Dada una partición P del conjunto de datos X con c clases, P = fc 1 ; : : : ; C c g donde el cardinal de la clase i-ésima viene dado por n i = jc i j y una métrica de nida entre los elementos del conjunto de datos d (x; y) como por ejemplo la distancia euclídea, podemos de nir las siguientes distancias entre los elementos de una misma clase a n de evaluar la hom*ogeneidad de la partición: El umbral de conectividad, denotado como s i para la i-ésima clase de la partición, es la máxima distancia entre todos los elementos de la clase: s i = max x2c i min y2c i d (x; y) El número de pares de elementos de la clase i-ésima que tienen un umbral de conectividad menor oigual al umbral de conectividad de la clase. El rango de 2 este índice es ( n i 2 ) ; 1 siendo n i el número de elementos de la clase i-ésima. El diámetro de una clase, también denominado complete diameter i de la clase i-ésima, es la distancia entre los elementos más alejados de una misma clase. i = max d (x; y) (10) x;y2c i Los valores pequeños del cociente i, siendo el diámetro de la partición4, garantizan una alta hom*ogeneidad de la partición del conjunto de datos. El diámetro medio de la clase (average diameter) es la distancia media entre todos los elementos de una misma clase. Por ejemplo, para la clase i-ésima, su diámetro medio viene dado por: d (C i ) = 1 n i (n i 1) X x;y2c i;x6=y 4 Esto es, el mayor de los diámetros de todas las clases de la partición. d (x; y) (11) 43

57 El diámetro de la clase con respecto a su centroide (centroid diameter) es el doble de la distancia media entre todos los elementos de la clase y su centroide. Por ejemplo, para la clase i-ésima, su diámetro con respecto a su centro viene dado por: ( 1 d (C i ; Q i ) = 2 n i X x2c i d(x; Q i ) ) (12) La mayoría de estas medidas se basan en test estadísticos y conllevan un alto costo computacional. No obstante, pueden tomarse aproximaciones para medir la similitud entre las clases obtenidas y la clasi cación conocida priori u otras clasi caciones realizadas con diferentes algoritmos de clasi cación [40]. Por otra parte, de nimos una medida de la hom*ogeneidad de las c clases de una partición P del conjunto de datos X como: donde W c (P ) = W c = D i = 1 2 X x2c i X cx i=1 y2c i d (x; y) D i n i (13) que es la mitad de la suma de las distancias que pueden establecerse entre todos los elementos de la clase i-ésima. Además, de nimos D como la mitad de la media de todas las distancias entre los pares de elementos de un conjunto de datos: D = 1 X 2n (n 1) x2x y2x X d (x; y) De igual forma, de nimos una medida de la hetereogeneidad entre las c clases de una partición P del conjunto de datos X como: cx B c (P ) = B c = (n 1) D + (n i 1) D D i i=1 (14) 4 Índices de validación internos A partir de las distancias mostradas en el apartado anterior, podemos establecer una serie de índices para medir la calidad del algoritmo de clasi cación que relacionan los dos criterios fundamentales de compacidad y separación de las clases de una partición. 44

58 4.1 Índice de la proporción en el grupo Dada una partición P del conjunto de datos X, de nimos el vecino más cercano a un elemento perteneciente a la clase i-ésima, x 2 C i, como: V (x) = arg min x6=y d (x; y) con y 2 X. El conjunto de los vecinos de los elementos de una clase que también se encuentran en dicha clase viene dado por: V i (x) = fx 2 C i jv (x) 2 C i g donde el cardinal de este conjunto es m i. Entonces, podemos de nir este índice denominado proporción en el grupo (IGP, in-group proportion) [56,57] como el cociente entre el cardinal de este último conjunto y del número de elementos de la clase i-ésima. IGP i (C i ) = m i n i Esto es, este índice es el número de elementos de la clase i-ésima cuyos vecinos más cercanos también se encuentran en la misma clase dividido por el cardinal de la clase. Si una clase se encuentra aislada o muy compacta, el valor de este índice es elevado; mientras que si las clases se encuentran entremezcladas, el valor de este índice es pequeño. 4.2 Índice de Dunn El índice de Dunn [27] se basa en la idea de que un buen algoritmo de clasi cación debe dar lugar a particiones compactas y separadas entre ellas. Para ello, se trata de maximizar las distancias entre las clases y minimizar las distancias de los elementos de cada clase. Dada una partición P de c clases del conjunto de datos X de n elementos, el índice de Dunn viene dado por la expresión: IDU (P ) = min i=1:::c 8 < : min j=1:::c i6=j 8 < : d (C i ; C j ) max k=1:::c k 99 = = ;; donde d (C i ; C j ) es la distancia entre dos clases de una partición (simple linkage, 9) y k es el diámetro de la clase C k (complete diameter, 10). El número de clases que maximiza este índice es el número óptimo de clases de la partición del conjunto de datos X. 45

59 4.3 Índice de Davies-Bouldin El índice de Davies-Bouldin [21] muestra la relación entre la suma de distancias dentro de la clase y la separación entre las clases de una partición. Si las clases están bien compactadas y alejadas las unas de las otras, el valor de este índice es pequeño y corresponde a una buena partición del conjunto de datos. Dada una partición P de c clases del conjunto de datos X de n elementos, el índice de Davies-Bouldin viene dado por la expresión: IDB(P ) = 1 c cx d (Ci ; Q i ) + d (C j ; Q j ) max j6=i d (Q i ; Q j ) i=1 donde d (C i ; Q i ) es la distancia media de la clase i-ésima con respecto a su centroide (centroid diameter, 12) y d (Q i ; Q j ) es la distancia entre los centros de las clases (centroid linkage, 8). 4.4 Índice de la silueta o per l El índice de la silueta [58] calcula el tamaño de la silueta (o per l) para cada elemento del conjunto de datos X, el tamaño medio de la silueta para cada clase de la partición y el tamaño medio global para la partición. Además, puede calcularse para cada clase de la partición, el valor de su silueta el cual se calcula comparando su estanqueidad y su separación. Dado un dato x 2 C i de la clase i-ésima de la partición P del conjunto de datos, el índice de la silueta para dicho dato es: b (x) a (x) s (x) = max fa (x) ; b (x)g donde a (x) es la distancia media del elemento x con respecto a todos los elementos que se encuentran en su misma clase C i, y viene de nida como: a (x) = 1 n i 1 X y2c i;x6=y d (x; y) y b (x) es la distancia media del elemento x con respecto a todos los elementos de la clase C k más cercana a la clase i-ésima y viene dado por la siguiente expresión: b (x) = min k6=i 1 n k X y2c k d (x; y) Debemos hacer notar que, al ser el valor mínimo, este valor nos muestra la disimilitud del elemento x con la clase más próxima, denominada vecindario. El rango del índice de la silueta s (x) es [ 1; 1] donde, si su valor es próximo a 1, se dice que el ejemplo x ha sido asignado a la clase apropiada y si su valor es cercano a 0, podemos suponer que el ejemplo x podría haber sido asignado 46

60 a dicha clase o a cualquier otra clase cercana o vecindario. En este último caso, decimos que el ejemplo x se encuentra en la frontera de la clase a la que pertenece. Por otra parte, si el valor de este índice es próximo a 1, el ejemplo x no ha sido bien asignado a la clase y, por lo tanto, debería ser asignado a cualquier otra clase de la partición. El valor nal de la silueta de una partición P del conjunto de datos X se calcula como la silueta media de todos los elementos del conjunto de datos. Esto es, IS(P ) = 1 X s (x) n Finalmente, debemos destacar que el número de clases que da un valor nal medio de la silueta mayor es el número de clases óptimo de la partición del conjunto de datos X. x2x 4.5 Índice C Dada P una partición del conjunto de datos X, el índice C [49] se de ne como: IC(P ) = S S min S max S min donde S, S min y S max se calculan a partir de pares formados entre los datos del conjunto de datos. El término S es la suma de las distancias entre los datos que se encuentran en una misma clase, para todas las clases de la partición. Se ordenan los pares de elementos en función de la distancia de menor a mayor y se seleccionan los primeros pares (mínimos) y los últimos pares (máximos). La suma de las distancias de los primeros pares de elementos es S min mientras que la suma de las distancias de los últimos pares de elementos es S. Por consiguiente, si el valor de este índice es pequeño, la partición del conjunto de datos será óptima ya que el numerador de este índice será mucho más pequeño que el denominador ya que los pares de los elementos con mínima distancia se encuentran en la misma clase lo cual indica que las clases obtenidas serán compactas. 4.6 Índice de Calinski y Harabasz El índice de Calinski y Harabasz [78,11] de la partición P con c clases del conjunto datos X con n elementos viene dado por: ICH(P ) = B c c 1 W c n c siendo B c y W c las dos medidas de la hetereogeneidad y de la hom*ogeneidad de las clases de la partición respectivamente (14, 13). Un alto valor de este índice, también denominado estadístico F, indica que entre las clases existe una gran separación. 47

61 4.7 Índice de Fisher e índice de Hartigan El índice de Fisher de la partición P con c clases del conjunto de datos X viene dado por el cociente entre la hetereogeneidad y la hom*ogeneidad de la partición (14, 13). Esto es, IF ISH (P ) = B c W c El índice de Hartigan [45] de la partición P con c clases del conjunto datos X con n elementos se obtiene a partir del índice de Fisher como se muestra a continuación: 1 IHA(P ) = log 10 IF ISH (P ) 4.8 Índice de Krzanowski y Lai El índice de Krzanowski y Lai [61] de la partición P con c clases del conjunto datos X con n elementos viene dado por la medida de la hom*ogeneidad de la partición como: IKL(P ) = c 2 p Wc 4.9 Índice de Tibshirani El índice propuesto por Tibshirani y otros [111], también conocido como gap statistic, para una cierta partición P del conjunto de datos X viene dado en función de hom*ogeneidad de dicha partición(13) como: Gap (P ) = E (log (W c )) log (W c ) donde E denota la esperanza matemática del logaritmo de la hom*ogenidad de la partición. Para estimar esta esperanza matemática, Tibshirani y otros proponen un algoritmo que, a partir de un proceso de muestreo de Monte Carlo, obtenga las estadísticas para estimar correctamente esta esperanza. Para ello, se generan B subconjuntos del conjunto de datos a partir de una distribución uniforme y se obtienen los índices gap para estos subconjuntos como: Gap (B) = 1 B BX b=1 log Wb;c log W c donde Wb;c es la hom*ogeneidad del subconjunto b-ésimo generado a partir de la partición P que consta de c clases y W c es la hom*ogeneidad de la partición(13). Este índice puede ser utilizado como un índice de validación de la partición que consta de B subconjuntos de datos. 48

62 No obstante, esta medida también se utiliza para la elección del número de clases óptimo de una partición del conjunto de datos. En este caso, a partir del valor medio de esta medida de hom*ogeneidad para los B subconjuntos generados: l = 1 B BX b=1 log Wb;c se calcula la desviación estándar para estos subconjuntos de datos como: v u sd c (P ) = t 1 BX h i 2 log Wb;c l B b=1 y se de ne la medida s c (P ) para la partición de datos como: s c = sd c (P ) s B Esta medida se utiliza para la elección del número de clases óptimo de una partición del conjunto de datos ya que este óptimo es el menor valor del número de clases quee satisface la siguiente relación: Gap (P c ) Gap (P c+1 ) s c+1 (P c+1 ) donde P c es una partición del conjunto de datos X que consta de c clases. 5 Índices de validación externos En este apartado mostraremos diversos índices de validación denominados índices externos que posibilitan la comparación de las diversas particiones que pueden obtenerse como resultado de un proceso de clasi cación. Este tipo de índices permite que dos particiones de un mismo conjunto de datos puedan compararse a n de establecer alguna medida de similitud o no similitud entre ambas. Además, si se conoce una partición o un subconjunto de una partición del conjunto de datos original X, pueden compararse esta partición conocida a priori con cualquier partición obtenida por el proceso de clasi cación a n de establecer la calidad de esta última. Si ambas particiones se parecen, diremos que la clasi cación obtenida es de alta calidad mientras que si no encontramos parecido entre ellas, diremos que la clasi cación realizada es de baja calidad. 5.1 Índices de similitud entre particiones Este tipo de índices trata de medir el grado de similitud entre dos particiones del conjunto de datos. Por ello, en este tipo de índices se tienen más en cuenta las aceptaciones tanto positivas como negativas que los rechazos que puedan 49

63 establecerse entre los diferentes pares del conjunto de datos. Algunos de los índices serán comentados con detalle debido a particularidades de los mismos. Podemos distinguir varios tipos de índices de similitudes según su naturaleza: Grupo 1: Índices sensibles tanto al número de aceptaciones positivas (r) como al número de rechazos para la primera partición (u) o al número de aceptaciones negativas (s) y al número de rechazos para la segunda partición (v). Grupo 2: Índices sensibles a todas las variables (r; u; v; s) : Grupo 3: Índices insensibles al número de aceptaciones negativas (s). Grupo 4: Índices que son combinaciones algebraicas de todas las variables. Grupo 1: En este grupo incluimos a aquellos índices que son sensibles tanto al número de aceptaciones positivas como al número de rechazos (r + u) o al número de aceptaciones negativas y al número de rechazos (s + v). Por de nición, estas medidas son asimétricas. Estos índices son IVP (índice Verdadero Positivo), IVN (índice Verdadero Negativo), IFN (índice Falso Negativo) e IFP (índice Falso Positivo) [90]. Índices Acr. Fórmula Rango Verdadero positivo IVP r r+u [0; 1] Verdadero negativo IVN s s+v [0; 1] Falso positivo IFP v s+v [0; 1] Falso negativo IFN u r+u [0; 1] Tabla 3: Índices de similitud. Grupo 1. Grupo 2: Dentro del segundo subgrupo se encuentran aquellos índices que son sensibles a todas las variables (r; u; v; s) y, por tanto, consideran las aceptaciones tanto positivas como negativas. En él incluimos los siguientes índices: IRR (índice de Russel/Rao), IR y IRN (índices de Rand y de Rand ajustado) 5, IRT (índice de Rogers y Tanimoto), IH (índice de Hubert), IHA (índice de Hamman o de Gower y Legendre), IF (índice de Faith), IBO2 (índice binario de Ochiai II), índices de Sokal y Sneath I,III, IV y V (ISS1, ISS3, ISS4, ISS5) 6, IBU (índice de Baroni-Urbani o índice de Buser), IFO1 (índice de Forbes I o índice de Mozley o Margalef), IFOS (índice de Fossum) e ICPHI (índice de Cramer-Phi). 5 El Índice de Rand también es conocido como el índice de Kendall, Simple matching, o índice de Sokal y Michener. 6 El índice de Sokal y Sneath IV también es conocido como el índice de Anderberg. De igual forma, el índice de Sokal y Sneath V es conocido como el índice de Gower o índice de Ochiai II. 50

64 Como puede observarse, el rango de la mayoría de estos índices es [0; 1] siendo la unidad su valor máximo que indica que ambas particiones son totalmente similares. Estos coe cientes tienen propiedades parecidas ya que todos ellos consideran todo tipo de aceptaciones tanto positivas (r) como negativas (s). Índices Acr. Fórmula Rango Ref. r Rusell/Rao IRR r+u+v+s [0; 1] [97] r+s Rand IR r+u+v+s [0; 1] [92,104] r E(r) Rand ajustado IRN Max(r) E(r) [ 1; 1] [48] r+s Rogers y Tanimoto IRT (r+s)+2(u+v) [0; 1] [95] (r+u+v+s)r (r+u)(r+v) Hubert IH p [ 1; 1] [54,112] (r+u)(r+v)(v+s)(u+s) Hamann Faith Binary Ochiai II Sokal y Sneath I IHA IF IBO2 ISS1 Sokal y Sneath III ISS3 Sokal y Sneath IV Sokal y Sneath V Baroni-Urbani ISS4 ISS5 IBU (r+s) (u+v) r+u+v+s [ 1; 1] [44,39] r+0:5s r+u+v+s [0; 1] [30] p r [0; 1] [84] (r+v)(r+u)(v+s)(u+v) 2(r+s) 2(r+s)+u+v [0; 1] [105] r+s u+v [0; +1) [105] 1 r 4 r+u + r r+v + s s+u + s s+v [0; 1] [105] p rs [0; 1] [105] (r+u)(r+v)(s+u)(s+v) p p rs+r rs+r+u+v [0; 1] [2] r(r+u+v+s) Forbes I IFO1 (r+u)(r+v) [0; +1) [23,33,98] (r+u+v+s)(r 0:5)2 Fossum IFOS (r+u)(r+v) [0; +1) [28,98] Cramer-Phi ICPHI Descrito a continuación [0; 1] [37,91] Tabla 4: Índices de similitud. Grupo 2. Índice de Cramer-Phi: Dadas dos particiones, P y Q, del conjunto de datos se de nen las cuatro siguientes variables como: er = (r+v)(r+u) r+u+v+s ev = (r+v)(v+s) r+u+v+s eu = (r+u)(u+s) (15) r+u+v+s es = (s+u)(s+v) r+u+v+s que dan lugar a la formulación del índice ICPHI como se muestra a continuación: = (r er)2 er + (v ev)2 ev + (u eu)2 eu s ICP HI (P; Q) = 2 (r + u + v + s) + (s es)2 es (16) 51

65 Un valor cercano a uno de este índice indica una gran similitud entre ambas particiones. Índice de Rand e índice de Rand ajustado: El índice de Rand muestra el porcentaje de pares que se consideran aceptados ya que su formulación viene dada por la expresión: r + s IR (P; Q) = r + u + v + s El rango de este índice es [0; 1] y al término, 1 IR (P; Q), se le conoce como la distancia de la diferencia (simétrica) entre ambas particiones. Este índice también se denomina índice de Sokal y Michener [105], índice de Kendall o índice simple matching. El índice de Rand toma el valor uno si las dos clasi caciones son idénticas, pero también puede tomar un valor cercano a uno si las dos clasi caciones son elegidas de forma aleatoria. De hecho, para particiones aleatorias que tienen el mismo número de objetos en cada clase, este índice toma valores cercanos a uno. Este comportamiento no resulta muy deseable ya que, para este tipo de particiones aleatorias, sería más conveniente que el valor del índice fuera cercano a su valor mínimo. Para solventar este inconveniente, se utiliza el índice de Rand ajustado (IRN) [48]. Este índice se calcula a partir de tres valores: el número de pares aceptados positivamente (r) el valor esperado de las aceptaciones positivas, E(r), de nido como: j (P )j j (Q)j (r + u) (r + v) E(r) = = = n 2 n 2 n 2 (r + u) (r + v) r + u + v + s el máximo valor de las aceptaciones positivas, M ax(r), de nido como: Max (r) = 1 2 (j (P )j + j (Q)j) = 2r + u + v 2 Finalmente, el índice de Rand corregido o ajustado es: r E(r) IRN (P; Q) = Max(r) E(r) El máximo valor del índice IRN es 1 cuando las dos particiones son idénticas. Destacamos, no obstante, que este índice puede tomar valores negativos. Índice de Hubert: Una variación del índice de Rand ajustado o normalizado es el índice de Hubert, cuyo rango también es [ 1; 1] : IH(P; Q) = (r + u + v + s) r (r + u) (r + v) p (r + u) (r + v) (v + s) (u + s) 52

66 Grupo 3: Dentro del tercer subgrupo encontramos aquellos índices que son insensibles al número de aceptaciones negativas (s). Como, por ejemplo, los siguientes índices: IJ (índice de Jaccard) 7, ISS2 (índice de Sokal y Sneath II o índice de Anderberg), ID (índice de Dice) 8, índices Kulczynski I y II (IK1 e IK2), IES (índice de la similitud de la equivalencia), IMO (índice de Mountford), IBCOS(índice del coseno binario) e IO1 (índice de Ochiai I) 9. Índices Acr. Fórmula Rango Ref. r Jaccard IJ r+u+v [0; 1] [50 53] r Sokal y Sneath II ISS2 r+2(u+v) [0; 1] [105] 2r Dice ID 2r+u+v [0; 1] [23,75,18] r Kulczynski I IK1 u+v [0; +1) [63] 1 r Kulczynski II IK2 2 r+u + r r+v [0; 1] [63] r Equivalence similarity IEQ 2 (r+u)(r+v) [0; 1] [90,91] 2r Mountford IMO 2uv+ru+rv [0; +1) [90,91] Binary cosine IBCOS p r uv [0; +1) [90,91] r Ochiai I IO1 p [0; 1] [84,116] (r+u)(r+v) Tabla 5: Índices de similitud. Grupo 3. El rango de estos índices es, en general, [0; 1] donde, si el índice toma su máximo valor, decimos que ambas particiones son totalmente similares. Índice de Jaccard: Este índice mide la proporción de aceptaciones positivas con respecto al número total de pares que pueden establecerse sin tener en cuenta las aceptaciones negativas. A este índice también se le conoce como índice de Tanimoto o de Gini. IJ (P; Q) = r r + u + v Sus valores varían entre 0 y 1 siendo su valor óptimo 1 cuando no existen rechazos entre ambas particiones (u = v = 0). 7 El índice de Jaccard también es conocido como índice de Gini, índice de Tanimoto o coe ciente de comunidad. 8 El índice de Dice también es conocido como índice de Sorensen, índice de Czekanowski, índice de Hodgkin-Richards, índice de Nei-Lei, coe ciente de Burt, índice de Pirlot o índice de la distancia genética. 9 Al índice de Ochiai I también se le conoce como índice del coseno, índice de Carbo, índice de Wallace, índice de Fowlkes-Mallows, índice de Driver y Kroeber o índice de Otsuka. 53

67 Índice de Dice: Este índice relaciona el coe ciente de Jaccard con un peso adicional dado por los casos de aceptación positiva. También se le conoce como índice de Sorensen o índice de Czekanowski o índice de Hodgkin-Richards [75]. ID (P; Q) = 2r 2r + u + v El rango este índice es [0; 1] siendo su valor óptimo 1 cuando no existen rechazos entre ambas particiones (u = v = 0). Índice de Ochiai I: El índice de Ochiai es el número de pares comunes a las dos particiones, P y Q, dividido por el número de pares posibles [116], el cual depende de la partición de referencia y se utiliza una media geométrica a n de no favorecer ni a la partición P ni a la partición Q. IO1 (P; Q) = r p j (P )j j (Q)j Para el cálculo de este índice de nimos dos índices auxiliares, IW 1 (P; Q) e IW 2 (P; Q), denominados primer y segundo índice de Wallace respectivamente los cuales representan la probabilidad de que un par de elementos que están en la misma clase de la partición P (resp. partición Q), estén también en la misma clase en la partición Q (resp. partición P ). IW 1 (P; Q) = r j (P )j = r r + u Como podemos observar, el primer índice de Wallace es el índice IVP (índice Verdadero positivo) visto anteriormente. Por otra parte, el segundo índice de Wallace viene dado por la expresión: IW 2 (P; Q) = r j (Q)j = r r + v Finalmente, el índice de Ochiai o de Wallace viene dado en función de estos dos índices: IO1 (P; Q) = r r r p = j (P )j j (Q)j r + u r r r + v = p IW 1 (P; Q) p IW 2 (P; Q) A este índice también se le conoce como índice de Fowlkes-Mallows [34], índice del coseno, índice de Carbo e índice de Driver y Kroeber. El rango de este índice es [0; 1] siendo 1 el valor óptimo del índice cuando no existen rechazos entre ambas particiones (u = v = 0). Además puede observarse que el índice de la similitud de la equivalencia (IEQ) es similar a este índice ya que es el cuadrado del índice de Ochiai I: IEQ(P; Q) = r 2 = IO1 (P; Q)2 (r + u) (r + v) 54

68 Grupo 4: En este grupo incluimos aquellos índices que son combinaciones algebraicas de las variables (r; u; v; s) como, por ejemplo, los siguientes índices: los índices de fa*ger/McGowan I, II y III (IFM1, IFM2 e IFM3), IBO (índice de solapamiento binario), IBB (índice de Braun-Blanquet o de Petke) e IS (índice de Simpson o de Inclusión o índice overlap). Índices Acr. Fórmula Rango Ref. r fa*ger/McGowan I IFM1 p 1 (r+u)(r+v) 2 max (u; v) ( 1; 1] [29,83] r fa*ger/McGowan II IFM2 p 1 (r+u)(r+v) 2 max (r + u; r + v) ( 1; 1] [29] r fa*ger/McGowan III IFM3 p 1 (r+u)(r+v) 2 p r+v [0; 1] [29] r Binary overlap IBO min(u;v) [0; +1) [91] r Braun-Blanquet IBB max(r+u;r+v) [0; 1] [7,8] r Simpson IS min(r+u;r+v) [0; 1] [101,102,6] Tabla 6: Índices de similitud. Grupo Índices de asociación Estos índices muestran las asociaciones que existen entre los pares de elementos del conjunto de datos. No los incluimos en el grupo anterior ya que no nos dan una idea de la similitud de ambas particiones sino simplemente el grado de correlación entre los datos de las mismas. En este caso, distinguimos dos grupos importantes de índices de asociación: Grupo 1: Índices que son sensibles al producto entre aceptaciones y no aceptaciones (rs uv). Grupo 2: Otro tipo de índices de formulación compleja. Grupo 1: En este grupo se incluyen los índices que son sensibles al producto entre aceptaciones y no aceptaciones (rs uv). Generalmente varían en el rango [ 1; 1] como los índices: IY1 e IY2 (índice de Yule I o estadístico Q e índice de Yule II), IPE (índice binario de Pearson o índice de correlación), IMC (índice de MacConnaughy), IMIC (índice de Michael), IFO2 (índice de Forbes II o índice de asociación entre especies), IX2 (índice de cuadrado), IMSC (índice de la contingencia media cuadrada), IDB (índice binario de dispersión), IT (índice Tetrachoric), IDENN (índice de Dennis) y ISTL (índice de Stiles) [75,89]. No obstante, hay otros índices de este tipo que varían en el intervalo [0; +1) como los índices IX2 (índice 2 ) y su versión normalizada, el índice IMSC (índice de la contingencia media cuadrada). 55

69 Índices Acr. Fórmula Rango Ref. rs uv Yule I IY1 rs+uv [ 1; 1] [119,66] p p rs uv Yule II IY2 p p rs+ uv [ 1; 1] [119,3] rs uv Pearson IPE p [0; 1] [100,91] (r+u)(r+v)(s+u)(s+v) uv McConnaughy IMC (r+u)(r+v) [ 1; 1] [75,47] 4(rs uv) Michael IMIC (r+s) 2 +(u+v) 2 [ 1; 1] [76] rs uv Forbes II IFO2 (r+u)(r+v) [0; +1) [23,33,98,119] 2 (rs uv) IX2 (r+u)(r+v)(s+u)(s+v) (r + u + v + s) [0; +1) [91] Contingencia t = (r + v) (r + u) (u + s) (v + s) media cuadrada IMSC p p 2(rs uv) (rs uv) 2 +t [0; +1) [91] rs uv Dispersión IDIS [ 1; 1] [91] (r+u+v+s) p 2 Tetrachoric IT cos p 180 p uv rs+ uv [ 1; 1] [29] rs uv Dennis IDENN p ( 1; +1) [28,47,98] (r+u+v+s)(r+u)(r+v) (r+u+v+s) (jrs uvj 2 ) 2 (r+u+v+s) Stiles ISTL log 10 (r+u)(r+v)(s+u)(s+v) [0; +1) [47] r 2 Tabla 7: Índices de asociación. Grupo 1. Grupo 2: En este grupo se encuentran otro tipo de índices de formulación más compleja que describiremos a continuación. Como, por ejemplo, los índices: Índices Acr. Rango Ref. Goodman-Kruskal IGK [0; 1] [37] Anderberg IAN [0; 1] [1] Tulloss ITU [0; 1] [114] Asociación condicional IAC [ 1; 1] [91] Medida de asociación OGE IOGE [0; +1) [91] Tabla 8: Índices de asociación. Grupo 2. Índice de Goodman-Kruskal e índice de Anderberg: Dadas las variables t 1 y t 2 de nidas como: t 1 = max (r; v) + max (u; s) + max (r; u) + max (v; s) t 2 = max (r + u; v + s) + max (r + v; u + s) El índice de Goodman-Kruskal entre dos particiones P y Q del conjunto de datos X es: t 1 t 2 IGK (P; Q) = 2 (r + u + v + s) t 2 56

70 y el índice de Anderberg entre ambas particiones es: IAN (P; Q) = t 1 t 2 2 (r + u + v + s) Índice de Tulloss: De nimos tres variables U; S y R de la siguiente forma: R = U = log 1 + min(u;v)+r max(u;v)+r log 2 1 S = r log(2+ min(u;v) r+1 ) log 2 log 1 + r r+v log 1 + r r+u (log 2) 2 El índice de Tulloss entre dos particiones P y Q del conjunto de datos X es: IT U (P; Q) = p U S R Asociación condicional: Dadas las variables er y es de nidas para el índice de Cramer-Phi (15), el índice de asociación condicional viene dado por la expresión: IAC (P; Q) = (r + s) (er + es) (r + s) (er + es) + 2 min (u; v) Medida de asociación OGE: Dadas las variables er y es de nidas para el índice de Cramer-Phi (15), de nimos dos nuevas variables, obs y null, cuyo valores vienen dados por: obs = [(r > er) (obs + r)] + [(v > ev) (obs + v)] + + [(u > eu) (obs + u)] + [(s > es) (obs + s)] null = [(r > er) (null + er)] + [(v > ev) (null + ev)] + + [(u > eu) (null + eu)] + [(s > es) (null + es)] donde las variables obs y null toman el valor cero inicialmente. El índice de asociación OGE entre dos particiones P y Q del conjunto de datos X es: IOGE (P; Q) = obs null null n 2 57

71 5.3 Índices de no similitud entre particiones Este tipo de índices nos muestran las diferencias o no similitudes entre dos particiones de un mismo conjunto de datos. En la mayoría de los índices se tienen en cuenta los rechazos existentes en vez de las aceptaciones entre las particiones. Algunos autores opinan que este tipo de índices aportan una mayor claridad en la comparación de particiones de un mismo conjunto ya que se basan en el número de errores o fallos entre elementos de ambas particiones. Distinguimos tres grupos principales: Grupo 1: Índices sensibles solamente al número de rechazos o no aceptaciones (u; v) entre las dos particiones. Grupo 2: Índices sensibles tanto al número de rechazos (u; v) entre las dos particiones como al número total de pares del conjunto de datos. Grupo 3: Otros índices. Grupo 1: En este grupo se incluyen los índices: IM (índice de Mirkin), ISH (índice de Shannon), IDE (distancia euclídea entre las particiones), IMAC e IMACC (índice de Mac Nemar y su versión corregida). Índices Acr. Fórmula Rango Ref. Mirkin IM 2 (u + v) [0; +1) [79,4] Shannon ISH p 2 (u + v) log 2 [0; +1) [105] Distancia Euclídea IDE u + v [0; +1) [105] u v Mac Nemar IMAC p u+v [ 1; 1] [24,118] Mac Nemar corregido IMACC ju vj 1 p u+v [0; 1] [24,118] Tabla 9: Índices de no similitud. Grupo 1. Índice de Mirkin: El índice de Mirkin viene dado por el número de rechazos entre las particiones y se de ne como: IM (P; Q) = 2 N rechazos (P; Q) = 2 (u + v) Índice de Mac Nemar: El índice de Mac Nemar es un test no paramétrico que se utiliza para veri car la igualdad de las proporciones de los ejemplos del conjunto de datos X: La hipótesis nula, H 0, plantea que no existen diferencias entre el grado de precisión de dos particiones del conjunto de datos. Si la hipótesis nula es correcta, los valores esperados para u y v son 1 2 (u + v) y la discrepancia entre los valores esperados y los observados viene dada por la razón también conocida como el índice denominado de Mac Nemar: IMAC (P; Q) = u v p u + v 58

72 No obstante, en algunos casos se modi ca esta fórmula con un factor de correción de la continuidad como sigue: IMACC (P; Q) = ju vj 1 p u + v Este índice sigue una distribución normal N(0; 1) cuando el número de datos es grande. En este caso, las relaciones de transitividad entre pares pueden entrar en con icto con la asunción de independencia entre los pares de elementos. Grupo 2: En este grupo se incluyen los índices sensibles al grado de no aceptación (u; v) entre las dos particiones y al número total de elementos. Entre ellos destacamos inicialmente tres índices: IMN (índice de Mirkin normalizado), IVD e IVDN (índice de van Dongen y su versión normalizada). Índices Acr. Fórmula Rango Ref. Mirkin normalizado IMN 4(u+v) n 2 n [0; 1] [79,4] P p 2n i=1 max n ij j=1:::q van Dongen IVD P q j=1 max n [0; +1) [115] ij i=1:::p IV D(P;Q) van Dongen normalizado IVDN 2n [0; 1] [115] Tabla 10: Índices de no similitud. Grupo 2. Índice de Mirkin normalizado: El índice de Mirkin normalizado es independiente del tamaño del conjunto de datos y viene dado por la normalización del índice de Mirkin de nido en la tabla anterior y cuya expresión es: IMN (P; Q) = 4 (u + v) n 2 n IM (P; Q) = = n 2 2 (u + v) r + u + v + s Siguiendo esta notación podemos reescribir el índice de Rand como: IR (P; Q) = r + s r + u + v + s = 1 IMN (P; Q) 2 Esto es, el índice de Mirkin puede ser visto como otra forma de expresar el índice de Rand. IM(P; Q) = n 2 n (1 IR(P; Q)) Índice de van Dongen: La utilización de la métrica de Mirkin permite la introducción de otro criterio conocido como el índice de van Dongen [115]: IV D (P; Q) = 2n px max n ij j=1:::q i=1 qx max n ij i=1:::p j=1 59

73 y su versión normalizada que es independiente del tamaño del conjunto de datos: P p i=1 max n P q ij j=1:::q j=1 max n ij i=1:::p IV DN (P; Q) = 1 2n Por otra parte, incluimos dentro de este segundo grupo de índices de no similitud entre particiones a los siguientes índices: IDM (distancia de Manhattan o índice de la distancia euclídea normalizada), IBPD (índice de la distancia o diferencia de patrón binario o binary pattern di erence), IPB (índice del patrón, de la varianza binaria o pattern/binary variance), IUV (índice uv), IBSD (índice de la diferencia de tamaño binario o binary size di erence) e IBSHD (índice de la diferencia de forma binario o binary shape di erence) e IAS (índice del cuadrado de la media, distancia de Hamming normalizada, distancia media de Manhattan o average squared). Índices Fórmula q Rango Ref. u+v Distancia de Manhattan IDM r+u+v+s [0; 1] [105] uv Binary pattern di erence IBPD (r+u+v+s) 2 [0; 1] [91] u+v Pattern/Binary variance IBPV 4(r+u+v+s) [0; +1) [91] 4uv uv IUV (r+u+v+s) 2 [0; 1] [3] (u+v) Binary size di erence IBSD [0; +1) [91] (r+u+v+s) 2 2 u+v u v Binary shape di erence IBSHD r+u+v+s r+u+v+s [0; +1) [91] u+v Average Squared IAS r+u+v+s [0; 1] [91] Tabla 11: Índices de no similitud. Grupo 2 (continuación). Debemos destacar que varios de estos índices son variantes del índice de Mirkin normalizado (IMN) como puede observarse a continuación: q q u+v IDMP; Q) = r+u+v+s = IMN(P;Q) 2 IBP V (P; Q) = IMN(P; Q) IBSD(P; Q) = IAS(P; Q) = u+v 4(r+u+v+s) = 1 8 (u+v)2 = IMN(P;Q) (r+u+v+s) 2 4 u+v r+u+v+s = IMN(P;Q) 2 o son similares como el índice IBPD y el índice IUV: uv IUV (P; Q) IBP D(P; Q) = 2 = (r + u + v + s) 4 Grupo 3: En este subgrupo incluimos otros índices que miden las no similitudes entre las particiones como por ejemplo: IQ0 (índice Q0), ILW (índice de Lance y Williams o índice de Bray-Curtis) e IST (distancia de Soergel-Tanimoto o complementario del índice de Jaccard). 2 60

74 Índices Acr. Fórmula Rango Ref. Q0 IQ0 uv rs [0; +1) [89,3] Lance-Williams ILW u+v 2r+u+v [0; 1] [67,9,88] Distancia de Soergel-Tanimoto IST u+v r+u+v [0; 1] [81] 2(rs uv) Índice K IK (r+u)(u+s)+(r+v)(v+s) [0; 1] [66] Tabla 12: Índices de no similitud. Grupo Otro tipo de índices Finalmente, en este último apartado y sin tener en cuenta el número de aceptaciones y de rechazos entre particiones, se presentan otros índices de validación externa. Algunos de estos índices se basan en nociones de la entropía y de la pureza de la partición. Índice Kappa: Uno de los índices más utilizados en la medición de las similitudes entre dos particiones es el índice Kappa. Este índice introducido por Cohen [17] es uno de los más utilizados en el proceso de validación de algoritmos de clasi - cación supervisada. No obstante, puede ser también utilizado para métodos de clasi cación no supervisada si el número de clases de las particiones a comparar es el mismo. Este índice mide la diferencia entre la proporción de aceptaciones positivas (r) y la proporción de las aceptaciones aleatorias esperadas y viene dado en función del porcentaje de aceptaciones máximo al cual se le aplica una corrección para evitar los efectos del azar. La expresión de este índice en función de la matriz de contingencia es [20]: IKA (P; Q) = n px i=1 n 2 n ii px n i: n :i i=1 px n i: n :i y toma su valor máximo cuando es máxima la diagonal de la matriz de contingencia. Debemos hacer notar que, en este caso, cuando se comparan dos particiones, ambas deben tener el mismo número de clases. Por ello, puede ser necesario identi car las clases permutando previamente la matriz de contingencia de forma que comparemos las mismas clases de ambas particiones. No obstante, sería deseable que pudiéramos comparar dos particiones sin tener en cuenta la completa identi cación de las clases entre ambas particiones ya que éste puede ser un problema añadido a nuestro problema de validación de algoritmos de clasi cación no supervisados. i=1 61

75 Índice Ratio: Este índice mide la proporción del número de aceptaciones positivas (o número de aciertos) entre el número de elementos del conjunto de datos. IRAT (P; Q) = Otros índices a destacar son los siguientes: px i=1 n n ii Índices Acr. Fórmula Rango Ref. P 1 p Pureza IP n i=1 max n ij [0; +1) [73,64] j=1:::q P p n Entropía IHP i: ni: i=1 n log n [0; +1) [107] Información mutua IIM P p P q n ij i=1 j=1 n log nijn n i:n :j [0; +1) [31,108,109,65] P Información mutua normalizada IIMN 2 p P q i=1 j=1 nij log nij n n i: n :j P p log( i=1 ni: n i: n )+ P q log( j=1 n:j n :j [0; 1] [31,108,109,65] n ) Variación de la P 1 p P q IVI información N i=1 j=1 n ni:n ij log :j [0; +1) [73,85] n 2 ij Tabla 13: Otros índices Índice de Pureza: El índice de pureza de una clase C i de una cierta partición P del conjunto de datos X se de ne como el número de elementos que se encuentran en la intersección de esta clase con la clase Cj 0 de otra partición Q del conjunto de datos y se de ne como: pureza (C i ) = max y el índice de pureza para la partición P es: IP (P; Q) = 1 n px i=1 n ij j=1:::q n i: n i: max j=1:::q n ij Índice de información mutua normalizada: Una forma de obtener un índice de comparación de particiones es tratar a dichas particiones como variables aleatorias y calcular la información mutua entre ambas [31,108,109,65]. La información mutua entre dos particiones P y Q del conjunto de datos X viene dada por la expresión: px qx n ij IIM (P; Q) = n log nij n n i: n :j i=1 j=1 62

76 y su versión normalizada es: nijn n i:n :j 2 P p P q i=1 j=1 n ij log IIMN (P; Q) = P p i=1 n P q i: log + j=1 n :j log ni: n n:j n Índice de variación de la información: Este índice [73] mide la distancia entre dos particiones en función de la diferencia de información de la siguiente forma: IV I (P; Q) = 2 IEM(P; Q) IE(P ) IE(Q) donde IE (P ) representa la entropía de la partición P del conjunto de datos y se de ne como: IE(P ) = px i=1 n i: n log n i: n y, de igual forma, se de ne la entropía de la partición Q, IE (Q)e IEM es el índice de entropía mutua entre dos particiones P y Q del conjunto de datos X de nido como: px qx n ij IEM(P; Q) = n log nij n i=1 j=1 También puede expresarse este índice en función del índice de información mutua (IIM) como sigue: IV I (P; Q) = IE(P ) + IE(Q) 2IIM(P; Q) o según la matriz de contingencia entre las dos particiones del conjunto de datos:! IV I(P; Q) = 1 px qx n i: n :j n ij log N n 2 ij i=1 j=1 6 Conclusiones En este informe hemos realizado una descripción exhaustiva y rigurosa de un gran número de índices de validación que nos permiten analizar de una forma automática, e caz y e ciente la calidad de los algoritmos de clasi cación. Existen algunos informes en la literatura que recogen muchos de estos índices; sin embargo, no en todos estos trabajos se recogen en su totalidad los índices de validación más utilizados. Por ello, este trabajo toma importancia al ser un compendio de todos ellos. Además, dependiendo del área de conocimiento en el que se realice la clasi - cación, un mismo índice puede adoptar varios nombres o utilizarse ciertos índices simplemente por convenio lo cual nos lleva a pensar que, quizás, un estudio más detallado de estos índices de validación puede aportar una mayor claridad a la 63

77 hora de evaluar los resultados de una clasi cación en un área en concreto ya que, dependiendo del problema que se desea resolver, puede ser más apropiado buscar las similitudes o las no similitudes con clasi caciones conocidas a priori o con otras particiones generadas por el mismo algoritmo de clasi cación. Es por ello que consideramos que esta descripción detallada puede resultar de gran ayuda en la difícil tarea de evaluación de los algoritmos de clasi cación y, sobre todo, cuando se utilizan algoritmos de clasi cación no supervisada ya que no se dispone a priori de ninguna clasi cación previa. References [1] Anderberg, M.: Clustering analysis for applications. London Academic Press (1973) 359 [2] C. Baroni-Urbani, M.B.: Similarity of binary data. Systematic Zoology 25 (1976) [3] V. Batagelj, M.B.: Comparing resemblance measures. Journal of Classi cation 12(1) (2005) [4] A. Ben-Hur, A. Elissee, I.G.: A stability based method for discovering structure in clustered data. Proceedings of Paci c Symposium on Biocomputing (2002) 6 17 [5] N. Bolshakova, F.A.: Estimating the number of clusters in DNA microarray data. Proceedings of the International Joint Meeting EuroMISE 2004, IMIA Working Conference on Statistical Methodology in Bioinformatics and Clinical Trials (2004) 25 [6] Bradshaw, J.: Yams - yet another measure of similarity. Euromug01 Meeting (2001) " [7] Braun-Blanquet, J.: Plant sociology: The study of plant communities. McGraw- Hill (1932) [8] Braun-Blanquet, J.: Sociología vegetal: Estudio de las comunidades vegetales. Acme Agency (1950) [9] J.R. Bray, J.C.: An ordination of the upland forest communities of southern wisconsin. Ecological Monographs 27(4) (1957) [10] W. de O. Bussab, E.S. Miazaki, D.A.: Introdução à análise e agrupamentos. Associação Brasileira de Estatística (1990) 105 [11] T. Calinski, J.H.: A dendrite method for cluster analysis. Communications in Statistics 3(1) (1974) 1 27 [12] R. Carbo, M. Arnau, L.L.: How similar is a molecule to another? an electron density measure of similarity between two molecular structures. International Journal of Quantum Chemistry 17(6) (1980) [13] Carlini-García, L.: Estudo da estructura genética populacional através de marcadores moleculares. Monografía (Pós-graduação). Escola Superior de Agricultura "Luiz de Queiroz". Universidade de São Paulo (1998) 118 [14] C-H. Chou, M-C. Su, E.L.: A new cluster validity measure for clusters with different densities. Proceedings of International Conference on Intelligent Systems and Control IASTED 2003 (2003) [15] C-H. Chou, M-C. Su, E.L.: A new clustering validity measure and its application to image compression. Pattern Analysis and Applications 7(2) (2004)

78 [16] H. Cli ord, W.S.: An introduction to numerical taxonomy. Academic Press (1975) [17] Cohen, J.: A coe cient of agreement form nominal scales. Education Psychological Measurement 20(1) (1960) [18] Czekanowski, J.: Zarys metod statystycznych w zastosowaniu do anthropologii. Prace Towarzystwa Naukowego Warszawskiego 5 (1913) [19] Cole, L.: The measurement of interspeci c association. Ecology 30(4) (1949) [20] Congalton, R.: A review of assessing the accuracy of classi cations of remotely sensed data. Remote Sensing of Enviroment 37 (1991) [21] D.L. Davies, D.B.: A cluster separation measure. IEEE Transactions on Pattern Analysis Machine Intelligence 1(4) (1979) [22] L. Denoeud, H. Garreta, A.G.: Comparison of distance indices between partitions. Proceedings of Applied Stochastic Models and Data Analysis, Ph. Lenka et al. (Eds.) on CD-Rom (2005) [23] Dice, L.: Measures of the amount of ecologic association between species. Ecology 26 (1945) [24] Dietterich, T.: Approximate statistical tests for comparing supervised classi cation learning algorithms. Neural Computation 10(7) (1998) [25] R. Dubes, A.J.: Validity studies in clustering methodologies. Pattern Recognition 11(1) (1979) [26] R.O. Duda, P.E. Hart, D.S.: Pattern classi cation. second edition. Wiley- Interscience Publication. Wiley & Sons (2001) [27] G. Dunn, B.E.: An introduction to mathematical taxonomy. Cambridge University Press (1980) 152 [28] D. Ellis, J. Furner-Hines, P.W.: On the measurement of inter-linker consistency and retrieval e ectiveness in hypertext databases. Proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. Dublin, Ireland, 3-6 July 1994 (Special Issue of the SIGIR Forum). Eds. W. Bruce Croft and C. J. van Rijsbergen, ACM/Springer (1994) [29] E.W. fa*ger, J.M.: Zooplankton species groups in the north paci c. Science 140 (1963) [30] D.P. Faith, P.R. Minchin, L.B.: Compositional dissimilarity as a robust measure of ecological distance. Vegetatio 69 (1987) [31] A.L.N. Fred, A.J.: Robust data clustering. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition II (2003) [32] R.M. Fewster, S.B.: Similarity indices for spatial ecological data. Biometrics 57 (2001) [33] Forbes, S.: On the local distribution of certain illinois shes. an essay in statistical ecology. Bulletin of the Illinois State Laboratory: Natural History 7 (1907) [34] E.B. Fowlkes, C.M.: A method for comparing two hierarchical clusterings. Journal of the American Statistical Association 78(383) (1983) [35] E. Gatnar, M.W.e.: Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, multivariate statistical analysis methods in marketing research. Wydawnictwo AE (2004) , erratum [36] L.A. Goodman, W.K.: Measures of associations for cross-classi cations. Journal of the American Statistical Association 49 (1954)

79 [37] L.A. Goodman, W.K.: Measures of associations for cross-classi cations. Springer-Verlag (1979) [38] Gower, J.: Measures of similarity, dissimilarity and distance. Encyclopedia of Statistical Sciencies 5, Kotz S., Johnson N.L. (Eds.), Wiley (1985) [39] J.C. Gower, P.L.: Metric and euclidean properties of dissimilarity coe cients. Journal of Classi cation 3 (1986) 5 48 [40] M. Halkidi, M. Vazirgiannis, I.B.: Quality scheme assessment in the clustering process. LNCS 1910, Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery (2000) [41] M. Halkidi, I. Batistakis, M.V.: On clustering validation techniques. Journal of Intelligent Information Systems 17(2-3) (2001) [42] M. Halkidi, I. Batistakis, M.V.: Cluster validity methods: Part i. ACM SIGMOD Record 31(2) (2002) [43] M. Halkidi, I. Batistakis, M.V.: Cluster validity methods: Part ii. ACM SIGMOD Record 31(3) (2002) [44] Hamann, U.: Merkmalbestand und verwandtschaft sbeziehungen der farinosae, ein beitragzum system der monokotyledonen. Willdenowia 2 (1961) [45] Hartigan, J.: Clustering algorithms. Wiley (1975) [46] Heron, D.: The danger of certain formulae suggested as substitutes for the correlation coe cient. Biometrika 8(1/2) (1911) [47] J.D. Holliday, C-Y. Hu, P.W.: Grouping of coe cients for the calculation of inter-molecular similarity and dissimilarity using 2d fragment bit-strings. Combinatorial Chemistry & High Throughput Screening 5 (2002) [48] L. Hubert, P.A.: Comparing partitions. Journal of Classi cation 2 (1985) [49] L. Hubert, J.S.: Quadratic assignment as a general data-analysis strategy. British Journal of Mathematical and Statistical Psychologie 29 (1976) [50] Jaccard, P.: Contribution au probleme de l immigration post-glaciare de la ore alpine. Bulletin de la Societé Voudoise des Sciences Natureller 36 (1900) [51] Jaccard, P.: Étude comparative de la distribuition orale dans une portion des alpes et des jura. Bulletin de la Societé Voudoise des Sciences Natureller 37 (1901) [52] Jaccard, P.: Nouvelles recherches sur la distribution orale. Bulletin de la Societé Voudoise des Sciences Natureller 44 (1908) [53] Jaccard, P.: The distribution of ora in the alpine zone. New Phytologist 11(2) (1912) [54] Jain A.K., D.R.: Algorithms for clustering data. Prentice Hall (1988) [55] A.K. Jain, M.N. Murty, P.F.: Data clustering: a review. ACM Computing Surveys 31(3) (1999) [56] A.V. Kapp, R.T.: Are clusters found in one dataset present in another dataset? Biostatistics 8(1) (2006) 9 31 [57] A.V. Kapp, R.T.: Using the in-group proportion to estimate the number of clusters in a dataset. Annals of Applied Statistics (submitted to) [58] L. Kau mann, P.R.: Finding groups in data: an introduction to cluster analysis. John Wiley (1990) 342 [59] M.G. Kendall, J.G.: Rank correlation methods (5th ed.). Charles Gri n Book Series (1990) [60] M. Kim, R.R.: New indices for cluster validity assessment. Pattern Recognition Letters 26 (2005) [61] W.J. Krzanowski, Y.L.: A criterion for determining the number of groups in a data set using sum of squares clustering. Biometrics 44 (1988)

80 [62] Kruskal, J.: Multidimensional scaling by optimizing goodness of t to a nonmetric hypothesis. Psychometrika 29 (1964) 1 27 [63] Kulczynski, S.: Classe des sciences mathématiques et naturelles. Bulletin International de l Acadamie Polonaise des Sciences et des Lettres Série B: Sciences Naturelles Supplement II (1927) [64] Kuncheva, L.: Combining pattern classi ers: Methods and algorithms. Wiley- Interscience (2004) [65] L.I. Kuncheva, S.H.: Using diversity in cluster ensembles. Proceedings of the IEEE International Conference on Systems, Man and Cybernetics 2 (2004) [66] L.I. Kuncheva, C.W.: Measures of diversity in classi er ensembles. Machine Learning 51 (2003) [67] G.N. Lance, W.W.: A generalized sorting strategy for computer classi cations. Nature 212 (1916) 218 [68] L. Legendre, M. Frechette, P.L.: The contingency periodogram: A method of identifying rhythms in series of nonmetric ecological data. Journal of Ecology 69(3) (1981) [69] Lerman, I.: Comparing partitions (mathematical and statistical aspects. Classi- cation and Related Methods of Data Analysis Bock H.H. (ed), Elsevier Science Publishers (1988) [70] F. Lourenço, V. Lobo, F.B.a.: Binary-based similarity measures for categorical data and their application in self-organizing maps. XI Jornadas de Classi caçao e Análise de Dados JOCLAD 2004 (2004) " [71] J.F. Marcotorchino, N.E.A.: Paradigme logique des ecritures relationnelles de quelques critères fondamentaux d association. Revue de Statistique Appliquée 2 (1991) [72] U. Maulik, S.B.: Performance evaluation of some clustering algorithms and validity indices. IEEE Transactions on Pattern Analysis and Machine Intelligence 24(12) (2002) [73] Meila, M.: Comparing clusterings. UW Statistics Technical Report 418 and COLT 03 (2003) " [74] Meila, M.: Comparing clusterings by the variation of information. Proceedings of the 6th Annual Conference on Computational Learning Theory (2003) [75] Meyer, A.: Comparação de coe cientes de similaridade usados em análises de agrupamento com dados de marcadores moleculares dominantes. Dissertação (mestrado) Escola Superior de Agricultura "Luz de Queiroz". Universade de São Paulo (2002) 106 [76] Michael, E.: Marine ecology and the coe cient of association, a plea in behalf of quantitative biology. The Journal of Ecology 8(1) (1920) [77] G.W. Milligan, M.C.: An examination of procedures of determining the number of cluster in a data set. Psychometrika 50(2) (1985) [78] G.W. Milligan, M.C.: A study of the comparability of external criteria for hierarchical cluster analysis. Multivariate Behavioral Research 21 (1986) [79] Mirkin, B.: Combinatorial optimization in clustering. Handbook of Combinatorial Optimization. Du D-Z. and Pardalos P.M.(Eds.) Kluwer Academic Publishers (1998) [80] K.M. Mittkowski, E. Lee, R.N.F.C.J.K.: Combining several ordinal measures in clinical studies. Statistics in Medicine 23 (2004)

81 [81] Monev, V.: Introduction to similarity searching in chemistry. Match- Communications in Mathematical and in Computer Chemistry 51 (2004) 7 38 [82] T. Müller, S. Selinski, K.I.: Cluster analysis: A comparison of di erent similarity measures for snp data. Technical Report / Universität Dortmund, SFB 475 Komplexitätsreduktion in Multivariaten Datenstrukturen, 14/05 (2005) " [83] M. Murguía, J.V.n.: Estimating the e ect of the similarity coe cient and the cluster algorithm on biogeographic classi cations. Annales Botanici Fennici 40 (2003) [84] Ochiai, A.: Zoogeographic studies on the soleoid shes found in japan and its neighbouring regions. Bulletin of the Japanese Society for Fish Science 22 (1957) [85] Patrikainen, A.: Methods for comparing subspace clusterings. Licentiate s thesis. Helsinki University of Technology (2005) " /~annep/lisuri.pdf". [86] E.J. Pauwels, G.F.: Finding salient regions in images: nonparametric clustering for image segmentation and grouping. Computer Vision and Image Understanding 75 (1999) [87] Pedrycz, W.: Knowledge-based clustering: From data to information granules. Wiley & Sons Inc. (2005) [88] Petke, J.: Cumulative and discrete similarity analysis of electrostatic potentials and elds. Journal of Computational Chemistry 14(8) (1993) [89] Quang, L.: Similarity measures for complex data. Tesis doctoral. School of Knowledge Science Japan Avanced Institute of Science and Technology (2005) " [90] S. Rajagopalan, R.R.: Assessment of similarity indices to quantify segmentation accuracy of sca old images for tissue engineering. Proceedings of the SPIE Medical Imaging 5747 (2005) [91] S. Rajagopalan, R.R.: Shortest path adjusted similarity metrics for resolving boundary perturbations in sca old images for tissue engineering. Proceedings of the SPIE Medical Imaging 6144 (2006) [92] Rand, W.: Objective criteria for the evaluation of clustering methods. Journal of the American Statistical Association 66 (1971) [93] Rao, R.: Advanced statistical methods in biometric research. John Wiley (1952) 390 [94] van Rijsbergen, C.: Information retrieval, 2nd edition. Dept. of Computer Science, University of Glasgow (1979) [95] J.S. Rogers, T.T.: A computer program for classifying plants. Science 132 (1960) [96] Rousseeuw, P.: Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics 20 (1987) [97] P.F. Russel, T.R.: On habitat and association of species of anopheline larvae in south-eastern madras. Journal of Malaria India Institute 3 (1940) [98] N. Salim, J.D. Holliday, P.W.: Combination of ngerprint-based similarity coe cients using data fusion. Journal of Chemical Information and Computer Sciences 43(2) (2003) [99] G. Saporta, G.Y.: Comparing two partitions: Some proposals and experiments. Proceedings of the 15th Conference on Computational Statistics (2002) [100] Sarker, B.: The resemblance coe cients in group technology: a survey and comparative study of relational metrics. Computers and Industrial Engineering 30(1) (1996)

82 [101] Simpson, G.: Measurement of diversity. Nature (1949) [102] Simpson, G.: Notes on the measurement of faunal resemblance. Americal Journal of Science 258-A (1960) [103] P.H.A. Sneath, R.S.: Numeric taxonomy: the principles and practice of numerical classi cation. W.H. Freeman (1973) 573 [104] R.R. Sokal, C.M.: A statistical method for evaluating systematic relationships. Bulletin of the Society University of Kansas 38 (1958) [105] R.R. Sokal, P.S.: Principles of numerical taxonomy. Freeman W.H. (ed) (1963) 359 [106] Sorensen, T.: A method of establishing groups of equal amplitude in plant sociology based on similarity of species content and its application to analyses of the vegetation on danish commons. Biologiske Skrifter 5 (1948) 1 34 [107] M. Steinbach, G. Karypis, V.K.: A comparison of document clustering techniques. Proceedings of KDD Workshop on Text Mining (2000) "glaros.dtc.umn.edu/gkhome/fetch/papers/docclusterkddtmw00.pdf". [108] A. Strehl, J.G.: Cluster ensembles: A knowledge reuse framework for combining multiple partitions. Journal on Machine Learning Research 3 (2002) [109] A. Strehl, J.G.: Cluster ensembles - a knowledge reuse framework for combining multiple partitions. Journal of Machine Learning Research 3 (2003) [110] R. Tibshirani, G. Walther, D.B.P.B.P.: Cluster validation by prediction strength. Technical Report, Department of Biostatistics, Stanford University, Sep (2001) "www-stat.stanford.edu/~tibs/ftp/predstr.pdf". [111] R. Tibshirani, G. Walther, T.H.: Estimating the number of clusters in a data set via the gap statistic. Journal of the Royal Statistical Society ser. B, 63(part 2) (2001) [112] S. Theodoridis, K.K.: Pattern recognition, third edition. Academic Press (2006) [113] A. Topchy, A. Jain, W.P.: Combining multiple weak clusterings. Proceedings of the 3th IEEE International Conference on Data Mining ICDM 03 (2003) [114] Tulloss, R.: Assessment of similarity indices for undesirable properties and a new tripartite similarity index based on cost functions. Mycology in Sustainable Development: Expanding concepts, Vanishing Borders, Palm M. E. and Chapela I.H. (eds.) (1997) [115] van Dongen, S.: Performance criteria for graph clustering and markov cluster experiments. Technical report INS-R0012, National Research Institute for Mathematics and Computer Science in the Netherlands (2000) "micans.org/mcl/lit/ins-r0012.ps.z". [116] Wallace, D.: Comment. Journal of the American Statistical Association 78(383) (1983) [117] K.Y. Yeung, W.R.: Details of the adjusted rand index and clustering algorithms (supplement to the paper "principal component analysis for clustering gene expression data"). Bioinformatics 17 (2001) [118] Youness, G.: Contributions à une méthodologie de comparaison de partitions. Thèse CEDRIC 898, Université Pierre et Marie Cutie (2004) "cedric.cnam.fr/publis/rc898.pdf". [119] G.U. Yule, M.K.: An introduction to the theory of statistics, 14th edition. Gri n (1968) [120] B. Zhang, S.S.: Binary vector dissimilarity measures for handwriting identi - cation. Proceedings of the SPIE, Document Recognition and Retrieval X 5010, Kanungo T., Barney E.H., Hu J., Kantor P.B. (eds) (2003)

83 Algoritmos de clasi cación automática semi-supervisados C. Hernández Grupo de investigación de Inteligencia Computacional Universidad del País Vasco, UPV/EHU Abstract. En este artículo presentamos varios algoritmos de clasi - cación automática semi-supervisados basados en el algoritmo de máxima expectación (EM). En concreto mostraremos cuatro variantes de este algoritmo para la clasi cación semi-supervisada: el algoritmo EM, EM estocástico, EM clasi cador y el algoritmo EM estocástico contextual. 1 Introducción El problema de la clasi cación automática reside en organizar un conjunto de datos X en grupos o clases hom*ogéneas donde a cada elemento del conjunto de datos x i 2 X se le asigna una etiqueta que nos indica la clase a la que pertenece. A este conjunto de clases se le denomina partición P del conjunto de datos X; esto es, P = fc 1 ; : : : ; C c g donde c S i=1 C i = X y C i T Cj =? con i; j = 1; : : : ; c e i 6= j. En el campo de la clasi cación automática, en principio y a diferencia del análisis discriminante, no existen una serie de pautas para conocer las características de las clases que proporcionen la clasi cación de los datos excepto las íntrinsecas a los mismos. No obstante, en algunos casos, puede tenerse conocimiento a priori sobre la clasi cación de ciertos datos, conocidos como datos de entrenamiento, para los cuales se conoce su etiquetado. En este tipo de clasi cación, conocida como clasi cación supervisada, se puede obtener la clasi cación del resto de los datos en función de la información disponible para ese conjunto de entrenamiento. En otros casos, no se conoce la clasi cación de los datos a priori y, por tanto, el método de clasi cación automática, conocida como clasi cación no supervisada, obtiene por sí mismo la regularidad presente en los datos dando lugar a una clasi cación de los mismos. Finalmente, puede realizarse un método de clasi cación híbrido que combina las mejores características de los dos métodos precedentes utilizando un conjunto de entrenamiento de tamaño reducido, donde se conoce la clasi cación solamente 70

84 de unos pocos datos, y un conjunto de datos más extenso para el cual no se conoce a priori una clasi cación de los mismos. Este tipo de clasi cación automática se denomina clasi cación semi-supervisada. Este último método de clasi cación es uno de los más interesantes desde el punto de vista práctico ya que, en la mayoría de los problemas reales, se dispone de un gran número de datos no etiquetados, pero no de tantos para los cuales conozcamos su etiqueta correspondiente ya que la tarea del etiquetado, que generalmente la realizan expertos en el área, suele ser difícil y costosa en la mayoría de los casos. Por ello, parece razonable utilizar estos pequeños conjuntos de datos de entrenamiento para los cuales conocemos su etiquetado conjuntamente con grandes conjuntos de datos para los cuales no conocemos su etiquetado en la tarea de la clasi cación. 2 Clasi cación mediante mezclas de gaussianas La clasi cación probabilística supone que los datos a clasi car son realizaciones de una variable aleatoria multidimensional X 2 R d y, además, las etiquetas de estos datos son, a su vez, realizaciones de una variable aleatoria Z cuyos valores se encuentran en el rango f1; : : : ; cg siendo c el número de clases. Asimismo, estos datos multidimensionales a clasi car pueden ser complejos y difíciles de modelar mediante distribuciones de probabilidad clásicas. El modelo de mezclas gaussianas es una manera fácil de modelar estos datos complejos mediante distribuciones de probabilidad gaussianas de forma que cada clase se caracteriza mediante una de estas distribuciones de probabilidad. Esto es, consideramos que los datos multidimensionales, x = fx 1 ; : : : ; x n g con x i 2 R d, vienen dados una observación que consta de n realizaciones independientes de la variable aleatoria X donde la función de densidad puede ser vista como: f (x) = cx i f i (x) i=1 siendo f i la función de densidad (gaussiana) de la distribución de X condicionada a la i-ésima componente de la mezcla y i, las proporciones de la mezcla que veri can: cx i 2 [0; 1] i = 1 Se supone que las funciones de densidad de las clases f i forman parte de una familia paramétrica; esto es, f i () = f (; i ), y por tanto, el modelo de mezclas puede ser reescrito como: f (x) = i=1 cx i f (x; i ) (1) i=1 donde el vector de parámetros viene dado por: = ( 1 ; : : : ; c ; 1 ; : : : ; c ) 71

85 Por lo tanto, podemos describir las funciones de densidad f (x; i ) como las funciones de densidad gaussianas de media i y matriz de covarianza i, donde i = ( i ; i ): 1 1 f (x; i ) = exp (2) d 2 j i j (x i) T 1 i (x i ) Según el teorema de Bayes, podemos obtener la clasi cación de los datos de la siguiente forma: P (Z = i jx = x; ) = i f (x; i ) f (x) donde f (x), que viene dado por (1), puede ser visto como una constante de normalización para todas las clases. La regla de decisión de Bayes puede ser descrita como: arg max f i f (x; i )g i=1;:::;c Por lo tanto, para resolver el problema de la clasi cación del conjunto de datos siguiendo un modelo de mezclas de gaussianas debemos solamente estimar los parámetros del modelo. La estimación de los parámetros del modelo de mezclas paramétrico (de funciones gaussianas o no) es uno de los problemas más estudiados después del trabajo de Pearson en 1894 en el cual introdujo el modelo de mezclas. Uno de los métodos más utilizados es la maximización de la verosimilitud que propone estimar los parámetros del modelo a partir de la verosimilitud completa del mismo: b = arg max L () donde la verosimilitud del modelo viene dada por el producto de todas las densidades marginales. No obstante, utilizaremos el logaritmo natural de la verosimilitud por razones puramente numéricas. Por lo tanto, la log-verosimilitud del modelo viene dado por:! nx cx log (L ()) = log i f (x j ; i ) (2) j=1 La utilización del estimador de máxima verosimilitud posee muchas ventajas ya que este estimador, bajo ciertas condiciones, es consistente y converge en probabilidad a los verdaderos valores del parámetro. i=1 3 Clasi cación semi-supervisada En la clasi cación semi-supervisada (Semi Supervised Learning, SSL), a n de mitigar el problema de los pocos datos de entrenamiento, partimos de dos conjuntos de datos para los cuales estimaremos las medias y las matrices de covarianza 72

86 de las clases. El primer conjunto de datos consta de los datos para los cuales conocemos su clasi cación, denominados ejemplos de entrenamiento etiquetados (y = fy ij g) donde consideramos que el elemento j-ésimo del conjunto de datos ha sido generado por la i-ésima mezcla con j = 1; : : : ; m j siendo m j el número de datos etiquetados como pertenecientes a la clase i-ésima. El segundo conjunto de datos consta de los datos para los cuales no conocemos su clasi cación denominados ejemplos de entrenamiento no etiquetados (x = fx j g). Sin embargo, puede obtenerse una partición de los estos datos no etiquetados a partir de la regla MAP (Maximum a Posteriori) como sigue: z j = arg max ij i=1;:::;c siendo z j la etiqueta del dato j-ésimo y donde la probabilidad a posteriori ij es: ij = i (x j j ) = i f (x j ; i ) cp k f (x j ; k ) Entonces, el criterio de clasi cación de máxima verosimilitud (MV) puede utilizarse para estimar los parámetros del modelo y las etiquetas de los datos no etiquetados y se de ne como: k=1 criterio_mv (; z 1 ; : : : ; z n jx 1 ; : : : ; x n ) = nx j=1 i=1 cx z ij log ( i f (x j ; i )) (3) siendo z ij un vector donde la i-ésima componente es 1 y el resto de componentes son ceros. Es decir, es la etiqueta z j en su representación binaria mediante un vector c-dimensional. 3.1 El algoritmo de máxima expectación La maximización de la log-verosimilitud de un modelo de mezclas en la clasi - cación no supervisada nos lleva, generalmente, a ecuaciones de verosimilitud que no tienen soluciones analíticas. No obstante, existen diferentes algoritmos que permiten maximizar la log-verosimilitud en este caso. Uno de los más conocidos es el algoritmo de máxima expectación (expectation-maximization, conocido como EM) que se usa en estadística para encontrar estimadores de máxima verosimilitud de parámetros en modelos probabilísticos que dependen de variables no observables. El algoritmo EM es un proceso iterativo que alterna pasos de expectación (paso E), donde se calcula la esperanza de la verosimilitud mediante la inclusión de variables latentes como si fueran observables, y pasos de maximización (paso M), donde se calculan estimadores de la máxima verosimilitud de los parámetros mediante la maximización de la verosimilitud esperada obtenida en el paso E. Los parámetros que se encuentran en el paso de maximización (paso M) se usan para comenzar el paso de expectación siguiente, y así el proceso se repite. 73

87 Por lo tanto, el algoritmo consiste en obtener una secuencia de parámetros donde, para cada valor del parámetro, se maximice la esperanza condicional de la verosimilitud; es decir, la secuencia de parámetros veri can que: donde t+1 = arg maxq ; t Q ; 0 = E L (x; ) y; 0 siendo y el conjunto de datos para los cuales conocemos su etiquetado y x el conjunto de datos completos. Si ij = E S i X = xj ; 0 es la esperanza del i- ésimo elemento de un vector aleatorio condicionado a X = x j y a los parámetros 0, podemos escribir la función Q ; 0 como: Q ; 0 = nx j=1 i=1 cx ij log ( i f (x j ; i )) La secuencia de parámetros generada de esta forma permite que la verosimilitud L (x; ) converja a un máximo local bajo ciertas condiciones de regularidad. 3.2 Algoritmos de máxima expectación semi-supervisados El algoritmo EM se utiliza mucho en el área del aprendizaje automático, pero en su versión supervisada para la cual se conoce la clasi cación de un subconjunto de datos y se estima la verosimilitud de los datos a partir de la información obtenida para el conjunto de entrenamiento. No obstante, se han introducido variaciones en este algoritmo para que puedan ser utilizadas en algoritmos de clasi cación semi-supervisada como podemos ver a continuación. Destacamos cuatro variaciones del algoritmo de máxima expectación: 1. Algoritmo de máxima expectación semi-supervisado (EM-SSL) 2. Algoritmo de máxima expectación estocástico semi-supervisado (SEM-SSL) 3. Algoritmo de máxima expectación clasi cador semi-supervisado (CEM-SSL) 4. Algoritmo de máxima expectación estocástico y contextual semi-supervisado (CSEM-SSL) Algoritmo de máxima expectación semi supervisado (EM-SSL) El algoritmo de clasi cación de máxima expectación semi-supervisado presentado en [14], EM-SSL, es el siguiente: 1. Elegir los parámetros iniciales del modelo: 0 = 0 i ; 0 i para i = 1; : : : ; c: Sea t = Paso E: calcular las probabilidades condicionales de los elementos no etiquetados f x j j t para i = 1; : : : ; c y j = 1; : : : ; n a partir de los valores actuales de los parámetros t 1 como sigue: t ij = t i x j t 1 t 1 i f x j t 1 i = P c k=1 t 1 k f x j t 1 k 74

88 donde c P i=1 t ij = 1:Estas variables t ij se corresponden con las probabilidades a posteriori de que al elemento j-ésimo se le asigne la etiqueta de la clase i-ésima. 3. Paso M: Maximizar la log-verosimilitud mixta a partir de las probabilidades condicionales t ij como si fueran pesos condicionales de las mezclas de gaussianas. La función a maximizar es: F x1 ; : : : ; x n ; t = m j X j=1 i=1 cx log [f (y ij j i )] + nx j=1 i=1 cx t ij log [f (x j j i )] donde t = t ij ; i = 1; : : : ; c; j = 1; : : : ; n. Esto es, para la mezcla i-ésima, queremos obtener los parámetros que maximicen: ( ) t i = t i; i t mj P P 2 arg max log [f (y ij j i )] + n t ij log [f (x j j i )] i2 j=1 Para ello, se modi can la proporción de las mezclas de la siguiente forma: t i = np t ij j=1 n j=1 y las medias y matrices de covarianza de las mezclas como: t i = t i = mp j j=1 mp j j=1 P y ij + n t ij x j j=1 m j + n P t ij j=1 (y ij t i ) (y ij t P i )T + n t ij (x j t i ) (x j t i )T j=1 m j + n P t ij j=1 4. Veri car si el algoritmo converge. Si converge, parar. En caso contrario, ir al paso 2 (paso E). Algoritmo de máxima expectación estocástico semi supervisado (SEM- SSL) El algoritmo SEM es una versión estocástica del algoritmo EM [15] que incluye entre los pasos E y M una restauración de las etiquetas de los datos para los cuales se desconoce su clasi cación x j de forma aleatoria siguiendo una distribución condicional dada por las probabilidades condicionadas calculadas en cada paso del algoritmo. El algoritmo de clasi cación de máxima expectación estocástico semi-supervisado, SEM, es el siguiente: 75

89 1. Elegir los parámetros iniciales del modelo: 0 = 0 i ; 0 i para i = 1; : : : ; c: Sea t = Paso E: calcular las probabilidades condicionales de los elementos no etiquetados f x j j t para i = 1; : : : ; c y j = 1; : : : ; n a partir de los valores actuales t 1 como sigue: f x j t 1 donde c P i=1 t ij = 1. t ij = t i x j t 1 = P c k=1 f x j i t 1 k 3. Paso S: Etiquetar los ejemplos no etiquetados (x j ) de acuerdo al estimador de máxima verosimilitud (criterio_mv, 3). Es decir, se asigna a cada elemento x j una etiqueta aleatoria z ij correspondiente a uno de los componentes de la mezcla de acuerdo a la distribución multinomial con parámetro t ij. Esto da lugar a una partición del conjunto de datos: P t = fc t 1; : : : ; C t cg : Esta asignación se puede realizar de la siguiente manera: (a) Para el ejemplo no etiquetado j-ésimo, x j, obtenemos un vector z ij que sigue la distribución multinomial con parámetro t ij. 4. Paso M: Maximizar la log-verosimilitud a partir de la partición generada en el paso anterior (paso 3, P t = fc t 1; : : : ; C t cg). Para ello, se modi can la proporción de las mezclas como: t i = card (Ct i ) n y las medias y matrices de covarianza de las mezclas como en el paso de maximización del algoritmo EM semi-supervisado visto anteriormente. 5. Veri car si el algoritmo converge. Si converge, parar. En caso contrario, ir al paso 2 (paso E). Este algoritmo genera una cadena de Markov cuya distribución estacionaria se encuentra más o menos concentrada alrededor del estimador de máxima verosimilitud. Por ello, una forma sencilla de estimar los parámetros del modelo es a partir de la secuencia de parámetros ( r r=b+1 ) r=1;:::;r como el valor medio R b donde se descartan las primeras b iteraciones. Otra alternativa es considerar el parámetro nal como aquel que posee la mayor verosimilitud en la secuencia de parámetros generada. RP r Algoritmo de máxima expectación clasi cador semi supervisado (CEM- SSL) El algoritmo CEM 1 es una versión condicional del algoritmo EM [15] que 1 A este algoritmo se le conoce también como algoritmo de máxima expectación condicional. 76

90 incluye entre los pasos E y M una restauración de las etiquetas de los componentes desconocidos x j mediante una clasi cación. Este algoritmo de clasi cación de máxima expectación semi-supervisado, CEM, es idéntico al algoritmo SEM visto anteriormente sólo que, en este caso, el paso S (paso 3) se sustituye por el paso de clasi cación paso C que se describe a continuación: Paso C: Etiquetar los ejemplos no etiquetados (x j ) de acuerdo al estimador de máxima verosimilitud (criterio_mv, 3). Es decir, se asigna a cada dato para el cual no se conoce su clasi cación, x j, una etiqueta aleatoria z ij correspondiente a uno de los componentes de la mezcla de acuerdo a la distribución multinomial con parámetro t ij. Esto da lugar a una partición del conjunto de datos: P t = fc1; t : : : ; Ccg t : Esta asignación se puede realizar de la siguiente manera: Para el ejemplo no etiquetado j-ésimo, x j, obtenemos un vector z kj que toma el valor 1 si: k = arg max [log (f (x j j i ))] i=1;:::;c o lo que es lo mismo, k = arg max t ij i=1;:::;c El algoritmo CEM es un algoritmo similar al algoritmo K-means y, al contrario que para el algoritmo EM, converge en un número nito de iteraciones. No obstante, cabe destacar que este algoritmo no maxima la log-verosimilitud observada L(2), pero si maximiza la log-verosimilitud del criterio de clasi cación de máxima verosimilitud (criterio_mv, 3) de los datos cuando el vector de etiquetas de cada ejemplo es conocido. Algoritmo de máxima expectación estocástico y contextual semi supervisado (CSEM-SSL) En este caso, consideramos que para un dato x j dado tenemos información de los datos que se encuentran espacialmente alrededor de él, conocidos como vecindario del j. Estos datos "vecinos" pueden encontrarse alineados horizontal o verticalmente, o de otra forma con el dato j-ésimo. El algoritmo de clasi cación de máxima expectación estocástico contextual semi-supervisado, CSEM, es el siguiente: 1. Elegir los parámetros iniciales del modelo: 0 = 0 i ; 0 i para i = 1; : : : ; c. Sea t = Paso E: calcular las probabilidades condicionales de los datos no etiquetados f x j j t para i = 1; : : : ; c y j = 1; : : : ; n a partir de los valores actuales t 1 como sigue: t ij = t i x j t 1 = t 1 ij f x j t 1 i cp k=1 t 1 kj f x j t 1 k 77

91 donde c P i=1 t ij = 1 y t 1 ij es la proporción de los datos de cada clase. 3. Paso S: Etiquetar los ejemplos no etiquetados (x j ) de acuerdo al estimador de máxima verosimilitud (criterio_mv, 3). Es decir, se asigna a cada elemento x j una etiqueta aleatoria z ij correspondiente al componente de la mezcla que maximiza la probabilidad condicional con parámetro t ij. Esto da lugar a una partición del conjunto de datos: P t = fc1; t : : : ; Ccg t y esta asignación se puede realizar de la siguiente manera: (a) Para el ejemplo no etiquetado j-ésimo, x j, obtenemos un vector z ij que sigue la distribución multinomial con parámetro t ij. 4. Paso C: Adaptar las probabilidades a priori ij donde las probabilidades a posteriori vienen dadas por t ij de la siguiente forma: ij = exp cp exp k=1 P p2@ j i;(j;p) t ip + i t ij P! l2@ j i;(j;p) t kp + i t kj! donde 8 >< i;(j;p) = >: + i Si el dato j-ésimo es vecino del p-ésimo y ambos se encuentran alineados horizontal o verticalmente i p2 Si el dato j-ésimo es vecino del p-ésimo y ambos NO se encuentran alineados horizontal o verticalmente 5. Paso M: Maximizar la log-verosimilitud a partir de la partición generada en el paso anterior (paso 3, C). Para ello, se modi can la proporción de las mezclas como: np t i = ij j=1 y las medias y matrices de covarianza de las mezclas como en el paso de maximización del algoritmo EM. 6. Veri car si el algoritmo converge. Si converge, parar. En caso contrario, ir al paso 2 (paso E). Este algoritmo se base en un modelo de campos gaussianos markovianos ya que tiene en cuenta la información espacial de los datos y la de nición de sus vecindarios [3]. n 78

92 4 Conclusiones y líneas futuras Hemos presentado en este artículo diversos algoritmos de clasi cación automática semi-supervisados basados en el algoritmo de máxima expectación (EM). Estos algoritmos son de gran utilidad cuando el número de datos a clasi car es elevado y solamente se conoce, a priori, un pequeña parte de la clasi cación de los datos. En el futuro aplicaremos estos algoritmos de clasi cación semi-supervisados al estudio de problemas de clasi cación de imágenes multiespectrales ya que, en muchos de los casos, se conoce la verdad del terreno de forma parcial o se conoce una pequeña parte de la misma. References 1. C. Ambroise, M. Dang, G.G.: Clustering of spatial data by the em algorithm. geoenvi: Geostatistics for Environmental Applications, Kluwer Academic 9 (1997) J.H. Baraldi, L. Bruzzone, P.B.: A multiscale expectation-maximization semisupervised classi er suitable for badly posed image classi cation. IEEE Transactions on Image Processing 15(8) (2006) J.H. Baraldi, L. Bruzzone, P.B.L.C.: Badly posed classi cation of remotely sensed images - an experimental comparison of existing data labeling systems. IEEE Transactions on Geoscience and Remote Sensing 44(1) (2006) S. Benameur, M. Mignotte, F.D.J.D.G.: Estimation of mixtures of probabilistic pca with stochastic em for the 3d biplanar reconstruction of scoliotic rib cage. (2004) 5. Bilmes, J.: A gentle tutorial of the em algorithm and its application to parameter estimation for gaussian mixture and hidden markov models. Technical Report TR , Dept. of Electrical Engineering and Computer Science, University of Berkeley (1998) 6. G. Celeux, J.D.: A random imputation principle: the stochastic em algorithm. Rapports de Recherche 901, INRIA (1988) 7. G. Celeux, D. Chauveau, J.D.: On stochastic versions of the em algorithm. Rapports de Recherche 2514, INRIA (1995) 8. G. Celeux, G.G.: Gaussian parsimonious clustering models. Rapports de Recherche 2028, INRIA (1998) 9. G. Celeux, D. Chauveau, J.D.: Em procedures using mean eld-like approximations for markov model-based image segmentation. Rapports de Recherche 4105, INRIA (2001) 10. O. Chapelle, B. Schölkopf, A.Z.: Semi-supervised learning. The MIT Press (2006) 11. S. Chawla, S. Shekhar, W.W.: Modeling spatial dependencies for mining geospatial data: a statistical approach. Technical Report TR , Dept. of Computer Science and Engineering, University of Minnesota (2000) 12. Cohen, I.: Semi-supervised learning of classi ers with application to humancomputer interaction. PhD Thesis, University of Illinois (2003) 13. F.G. Cozman, I. Cohen, M.C.: Semi-supervised learning of mixture models. Proceedings of the Twentieth International Conference on Machine Learning, ICML (2003) 79

93 14. Q. Jackson, D.L.: An adaptive classi er design for high-dimensional data analysis with a limited training data set. IEEE Transactions on Geoscience and Remote Sensing 39(12) (2001) Q. Jackson, D.L.: Design of an adaptive classi cation procedure for the analysis of high-dimensional data with limited training samples. School of Electrical and Computer Engineering, Purdue University, TR-ECE (2001) 16. Q. Jackson, D.L.: Adaptive bayesian contextual classi cation based on markov random elds. IEEE Transactions on Geoscience and Remote Sensing 40(11) (2002)

94 B. Procesado de Imagen No Author Given No Institute Given B1 Spectral indexing for hyperspectral image CBIR. José Orlando Maldonado, Manuel Graña, Miguel Angel Veganzones (Grupo de Inteligencia Computacional), David Vicente (Innovae Vision). B2 On the study of visual texture patterns for recycled paper surface quality characterization using Gabor texture features. José Orlando Maldonado, Manuel Graña (Grupo de Inteligencia Computacional). B3 Evaluation of random forest classiers for feature point matching. Iñigo Barandiarán, Charlotte Cottez, Céline Paloc (VICOMtech). B4 Automatic methodology for mapping burnt areas using Landsat TM/ETM+ data: identication of burn scars using logistic regression models. Aitor Bastarrika (Surveying Engineering Department, UPV/EHU), E. Chuvieco (Departamento de Geografía, Universidad de Alcalá), M. P. Martín (Instituto de Economía y Geografía, CSIC). 81

95 ÂÓ ÇÖÐ Ò ÓÅ Ð ÓÒ Ó Ú Î ÒØ Å Ù Ð ºÎ ÒÞÓÒ Å ÒÙ Ð Ö ËÔ ØÖ ÐÁÒ Ü Ò ÓÖÀÝÔ Ö Ô ØÖ ÐÁÑ ÁÊ ÓÑÔÙØ Ø ÓÒ ÐÁÒØ ÐÐ Ò ÖÓÙÔ ÓÙÒØÖÝÍÒ Ú Ö ØÝ ÍÈÎ» ÀÍµ Ô ØÖ Ð Ñ Ò Ô Ð Ó ÓÒØ ÒØ ÁÑ Ê ØÖ Ú Ð ØÖ ØºÁÒØ Ô Ô ÖÛ ÐÛ Ø Ø ÔÖÓ Ð ÑÓ Ò Ü Ò ÝÔ Ö¹ ÅÅµº ÁÊµ Ý Ø Ñ ºÏ Ò Ñ Ð Ö ØÝÑ ÙÖ ØÛ Ò ÝÔ Ö Ô ØÖ Ð Ñ º ÓÖØ Ò ÙØ ÓÒÛ Ù Ó Ø Ú ÅÓÖÔ ÓÐÓ ÐÅ ÑÓÖ Ñ ÓÒØ Ñ Ò Ñ Ñ Ö Û Ö Ò Ù ÖÓÑØ ½ÁÒØÖÓ ÙØ ÓÒ Ì ÖÓÛØ ÒÑÙÐØ Ñ Ò ÓÖÑ Ø ÓÒ Ô ÐÐÝ Ñ Ö Ú Ò Ø Ú ÐÓÔ¹ Ñ ÒØÓ Ø Ð Ó ÓÒØ ÒØ ÁÑ Ê ØÖ Ú Ð ÁÊµ ½ ºÊ ÑÓØ Ò Ò Ò ÖØ Ó ÖÚ Ø ÓÒ Ö ÓÙÖ Ó Ñ Ø ØÑ Ý Ò Ø ÖÓÑ ÙØÓ¹ Ñ Ø ÜÔÐÓÖ Ø ÓÒ Ø Ñ Ò Ò µ Ò Ö ØÖ Ú Ð Ý Ø Ñ ºÁÒ ÁÊ Ý Ø Ñ Ø Ò ÕÙ ºÁÒ ÁÊ Ý Ø Ñ Ø ÕÙ ÖÝØÓ Ø Ô Ý Ò Ñ ºÌ Ñ ØÓÖ ÒØ Ø Ö Ð Ð Ý ØÙÖ Ú ØÓÖ Û Ö ÜØÖ Ø ÖÓÑØ Ñ ÝÑ Ò Ó ÓÑÔÙØ ÖÚ ÓÒ Ò Ø Ð Ñ ÔÖÓ Ò Ø ¹ Ø ÁÊ Ý Ø Ñ Ø Ø Ó ÒÓØØ ÒØÓ ÓÙÒØØ Ñ ÒØ Ô ØÛ Ò Ø Ò Û Ö ØÓØ ÕÙ ÖÝºÌ Ø ÐÓÛÐ Ú Ð Ñ ÒØ Ö Ò Ø ÓÒÓ Ø Ù Ö ÜÔ Ø Ø ÓÒ Ò Ø Ý Ø ÑÖ ÔÓÒ ºÊ ÒØ ÔÔÖÓ ÔÔÐÝÖ Ð¹ ÓÖ Ò ØÓ Ñ Ð Ö ØÝÑ ØÖ ÓÖ Ø Ò Ò Ò ØÙÖ Ô Ö Ö ØÙÖÒ ÕÙ ÖÝ³ ØÙÖ Ú ØÓÖ ÓÑÔÙØ Ò Ø ÐÓ Ø Ø Ñ ÒØ Ø ¹ Ú Ò ÒØ Ö Ø ÓÒ Û Ø Ø Ù ÖØÓ Ù Ð ÙÔ Ñ ÒØ ÑÓ Ð ÙÔÓÒØÓ Ö Ú Ø ÛÓÖ ÓÛ Ú Ö ØØ ÐÓÛÐ Ú Ð Û Ø ÓÙØÖ Ð Ú Ò Ø Ö Ø ÓÒÑ Ò Ñ º Ò ÓÖÑ Ø ÓÒÖ ØÖ Ú Ð Ò Ø Ñ Ò Ò ÔÖÓ ØÓØ Ù Ö ÜÔ Ø Ø ÓÒ ºÇÙÖ ÖÓÛ Ò Ò ÓÖØ Ñ ÒØ Ò Ò Ó Ð Ö ÓÐÐ Ø ÓÒ Ó ÝÔ Ö Ô ØÖ Ð Ñ Ñ ÓÒ Ð ÀÝÔ Ö ÓÒ ÒÐÙ ÝÔ Ö Ô ØÖ Ð Ò ÓÖ Ó Ø Ò ÜÔ Ø Ò Ö Ò Ö Ö Ô ØÖÙÑ Ö ÔÖ ÒØ Ý Ñ Ò ÓÒ ÐÚ ØÓÖºÆ Û Ô Ò ÓÖØ ÙØÓÑ Ø Ö Û Ø ÒØ ÓÐÐ Ø ÓÒ ºÌ ØØ ÑÔØ ØÓ Ò ÁÒ ÝÔ Ö Ô ØÖ Ð Ñ Ô Ü ÐÓÒØ Ò Ò ÑÔÐ Ò Ó Ø Ú Ð Ò Ô ØÖ ÐÑ Ò Ò Ú Ö Ò Û ÐÐ Ø ÜØÙÖ ØÙÖ Ú ØÓÖ ØÓ Ö Ø Ö Þ ÁÊ ØÖ Ø ÓÖØ Ñ Ö Ö Ò Ô ÖØ ÐºÁÒ Ø ÙØ ÓÖ Ù Ø ÝÔ Ö Ô ØÖ Ð Ñ Ø Ð ºÌ ÔÔÖÓ Ö ÓÖ Ô Ô ÒÓÑ Ò ÒØ Ñ ÙÖÖ Ò Ö Øµ Ù Ò Ò ÒØ Ö Ø Ú Ö Ð Ú Ò ØÖ Ø ÝØ Ø ÐÐÓÛ ÐÐ Ò Ñ Ñ Ö º Ò Ñ Ñ Ö Ö ØÓ Ô ØÖ Ø Ø Ö ÙÑ Ú Ö¹ Ø Ù ÖØÓÖ Ò Ø Ö ºÁÒ ÓÑ Ó Ø Ö ØÈ Ò Ø ÜØÙÖ ØÙÖ Ø Ó ÓÒÚ Ü ÙÐÐÓÚ Ö Ò Ø Ñ Ô Ü ÐÔÓ ÒØ ÒØ Ñ Ò ÓÒ Ð ÖÓÑØ Ö ØÈ Ñ Ö Ù ØÙÖ Ú ØÓÖ º Ï ÔÖÓÔÓ Ø Ö Ø Ö Þ Ø ÓÒÓ Ø ÝÔ Ö Ô ØÖ Ð Ñ ÝØ Ö Ó¹ 82

96 Ô ØÖ Ð Ô º Ò Ñ Ñ Ö Ñ Ý Ò ÝØ ÓÑ Ò ÜÔ ÖØ ÓÐÓ Ø Ò ÖÝÓÒ Ø ÓÒ ÓÖ ÓÐÐ Ø ÓÒÓ Ò Ñ Ñ Ö ºÌ Ó Ð Ò Û ÔÖÓÔÓ Ò ÙØÓÑ Ø ÔÖÓ ÙÖ Ø Ø Ò Ù Ø ØÓ Ò Ñ Ñ Ö ÖÓÑØ Ñ Ù Ò ÅÅØÓ Ø ØØ ÑÓÖÔ ÓÐÓ Ð Ò Ô Ò Ò ÔÖÓÔ ÖØÝ Û Ø ÝÔ Ö Ô ØÖ Ð Ñ Ø Ù Ò Ñ Ò Ð ÖÒ Ò Ø Ò ÕÙ ºÁÒ Û Ú ÓÐÓ Ø Øºµ Ð Ø Ò Ø Ñ ÖÓÑ Ú Ð Ð Ô ØÖ ÐÐ Ö Ö ÓÖ Ò Ù ÖÓÑ ØÓÓ Ø Ò Ñ Ø Ó ÓÖÙÒ ÙÔ ÖÚ ÝÔ Ö Ô ØÖ Ð Ñ Ñ ÒØ Ø ÓÒºÌ Ö Ö Ø Ö Þ Ø ÓÒÓ Ø Ñ Ø Ø Ò Ù ÙÐ ÓÖ ÁÊºÌ ÓÐÐ Ø ÓÒÓ Ø ÙÒ Ò Ñ Û Ö Ó ÒØ Ö ØºÁÒØ Ô Ô Ö Ø Ó Ð ØÓÓ Ø Ò Ò Ñ Ñ Ö ÖÚ ÙÑÑ ÖÝÓ Ø Ô ØÖ Ð Ò ÓÖÑ Ø ÓÒ ÒØ Ñ º ¾ËÔ ØÖ ÐÑ Ü Ò Ò Ò Ñ Ñ Ö ÜØÖ Ø ÓÒ ] ÓÒÚ ÜÓÓÖ Ò Ø Ó Ø Ô Ü ÐÖ Ð Ø Ú ØÓØ ÓÒÚ Ü ÙÐÐ Ò ÝØ Ú Ö¹ d d¹ Ñ Ò ÓÒ ÐÚ ØÓÖºÌ Ò ÓÒ Ô Ü ÐÓ ÝÔ Ö Ô ØÖ Ð y) Ø n¹ Ñ Ò ÓÒ ÐÚ ØÓÖ y) Ö Ø Ä Ò ÖÑ Ü Ò ÑÓ Ð ÙÑ Ø ÒÓÛÐ Ó ØÓ Ò Ñ Ñ Ö S = [s 1, s 2,..., s n Û Ö s i R Ñ Ò ÜÔÖ f(x, y) Ò Ô Ò ÒØ Ø Ú ÒÓ ÓÑÔÓÒ ÒØ Ò a(x, S ÓÒØ ÒÓØ ÓÒÓ ÑÓÖÔ ÓÐÓ Ð Ò Ô Ò Ò º Ú Ò Ú ØÓÖ Ø Ô Ö ÓÓ Ö Ø Ö Þ Ø ÓÒÓ Ø ÝÔ Ö Ô ØÖ Ð Ñ S Ø Ò Ó Ø ÝÔ Ö Ô ØÖ Ð Ñ ºÀ Ö Û ÓÒ ÖØ ØØ ØÓ Ò Ñ Ñ Ö ËÑ Ý Ó Ø Ò ÖÓÑ ØºÌ Ñ Ø Ó ÔÖÓÔÓ Ò ØÓÓ Ø ÒØ ØÓ Ò Ñ Ñ Ö y) ÙÒ ÙÔ ÖÚ Ñ ÒØ Ø ÓÒ Ó Ò Ñ Ñ Ö Ö Ø ÓÒ Ð ÙÒ Ò ÒØ Ô Ü ÐºÁÒÓØ ÖÛÓÖ a(x, } Ò ÛÚ ØÓÖy ÑÓÖÔ ÓÐÓ ÐÐÝ Ò Ô Ò ÒØ ÒØ ÖÓ¹ Ø ÒSºÁÒ Û Û Ö ÒØ Ö Ø Òa(x, ØÓÖ ÒØ Ø Ö Ò Ô Ò ÒØÓ Ø Ö Ñ Ò Ò ÓÒ Ò Ø Ö Ò º ØÓ Ì Ú ØÓÖ ØX ØÓ ÑÓÖÔ ÓÐÓ ÐÐÝ Ò Ô Ò ÒØÛ Ò ÐÐØ Ú ¹ x Ò Ø ÑÓÖÔ ÓÐÓ ÐÐÝ Ò Ô Ò ÒØ ÒØ ÑÓÖÔ ÓÐÓ Ð Ò Ô Ò ÒØÚ ØÓÖ Ò Ñ Ò ÓÒ Ð ÓÜº xºì Ô ÖØ ÐÓÖ Ö Ò ÓÚ ÖØ Ú ¹ iº X = {x 1, x 2,..., x m Ú Ò ÖÓÑX Ñ Ó ØÓ ÑÓÖÔ ÓÐÓ Ð Ò Ô Ò ÒØ Ô ØÖ Û Ó ÓÖÖ ÔÓÒ Ò x X y Ð Ø Ú Ò ÖÓÑX Ñ Ò ÓÒ Ð ÓÜÑ Ý Ø Ò ÓÓ ÔÔÖÓÜ Ñ Ø ÓÒØÓØ ÓÒÚ Ü ÙÐÐÓ x X y ØÓÖ Ø ÓÒ Ò Ù ÖÓÑØ ÓÖ ÖÓ Ø ÖÓÑÔÓÒ ÒØ y Ø Ñ Ø ºÌ Ð ÓÖ Ø Ñ ÓÛÒ Ò Ð ÓÖ Ø Ñ½ºÌ Ô ØÖ Ö Ø ÁÒ Û ÔÖÓÔÓ Ø Ù Ó ÅÅ ÓÖØ Ø Ø ÓÒÛ Ø Ò ÝÔ Ö Ô ØÖ Ð x i, y i x Ò Ù Ò Ñ Ñ Ö Ø ØÛ ÐÐ Ù ØÓ Ö Ø Ö Þ Ø Ñ ºÁÒ Ö Ø ÔÖÓÔÓ Ñ Ø Ó ÓÒ Ø ÒØ ÓÐÐÓÛ Ò ½º Ô Ü Ð Ø Ò Ø Ò Ø Ð ØÓ Ò Ñ Ñ Ö º ¾º ÖÓ Ú Ò Ð Ø Ú ÅÅ Ö Ù ÐØ ÖÓÑØ ÙÖÖ ÒØ ØÓ Ò Ñ Ñ Ö º º Ô Ü Ð Ü Ñ Ò Ò Ø Ò Ñ Ñ ÖØ Ø Ò Ø Ö ÔÓÒ Ó ºÅÓÖÔ ÓÐÓ ÐÐÝ Ò Ô Ò ÒØÔ Ü Ð Ö ØÓØ ØÓ Ò Ñ Ñ Ö º Ø ÖÓ Ú Ò Ð Ø Ú ÅÅ ØÓ Øº Ì ÔÖÓ Ø ÒØÓ ÓÙÒØØ Ú Ö Ò Ó Ø Ô ØÖ Ø Ò ØÓ Ò Ò Ø ÖÓ Ù Ø Ø Ø ÓÒÓ Ò Ñ Ñ Ö Ò Ò Ù ØÖ Ø Ò Ø = S a(x, y) + η(x, y) Û Ö η(x, 83

97 Ð ÓÖ Ø Ñ½Ì Ò ÙØ ÓÒÓ Ø Ò Ñ Ñ Ö ÖÓÑØ Ñ ÒÓÒ Ô ÓÚ Ö Ø Ñ º ÓÒ ØÖÙØØ ÅÅ³ ÓÒØ ÑÓÖÔ ÓÐÓ ÐÐÝ Ò Ô Ò ÒØ Ò ÖÝ Ò ØÙÖ ÖÓÑØ Ñ ºÁÒ Ø Ð Þ Ø ØÓ ÑÓÖÔ ÓÐÓ ÐÐÝ Ò Ô Ò ÒØ Ò ÖÝ Ò ØÙÖ 1}Û Ø Ô Ü Ð Ô ØÖ Ö Ò ÓÑÐÝÔ ½º ÓÑÔÙØ Ø Þ ÖÓÑ Ò Ñ f c ¾ºÁÒ Ø Ð Þ Ø ØÓ Ò Ñ Ñ Ö E = {e M XX Ò W ØÓ Ô Ø Ò Ö ÙÑ Ø ÜÔÐÓÖ Ø ÓÒÓ Ø Ñ +Ø Ô Ü Ð Ô ØÖ Ð Ò ØÙÖ ÑÓÖ ÜØÖ Ñ Ø Ò º ÓÖ Ô Ü Ðf c µ ÓÑÔÙØ Ø Ú ØÓÖÓ Ø Ò Ó Ø Ù ÒÒÓ ÓÖÖ Ø ÓÒ f Ø Ô Ü Ð Ô ØÖ Ð Ò ØÙÖ ÑÓÖ ÜØÖ Ñ Ø Ò j) Ò Û Ò Ñ Ñ ÖØÓ ØÓE Ó + (f c (i, j) + ασ > 0) Ò f µ ÓÑÔÙØ y + µ ÓÑÔÙØ y µ y + XÓÖy XØ Òf (i, Ô Ö Ò Ø Ò Ö Ú Ø ÓÒÑÙÐØ ÔÐ Ý ÒÔ Ö Ñ Ø ÖØÓØ Ô Ü Ð µ y + X Ò f (i, j) > e Ô ØÖÙÑ ÓÖ Ô Ö ÓÖÑ Ò Ø Ø Ø Û Ø Ø Ð Ø Ú Ò ÖÓ Ú ÅÅ y Ø ØÓÖ Ò Ñ Ñ Ö Ø Ò Ù Ø ØÙØ e +Û Ø f Ö Ô Ø Ú ÐÝºÌ ÒÔ Ö Ñ Ø Ö Ø Ý ÙÐØØÓ¾ºÌ ÔÖÓ Ó y µ y X Ò f (i, j) < e ÓÒ Ø Ñ ÓÚ ÖØ Ñ Ø ºÁ Ø Ö ÓÒ Ú ÖÝ ÓÑÓ Ò ÓÙ Ø ÔÖÓ y Ø ØÓÖ Ò Ñ Ñ Ö Ø Ò Ù Ø ØÙØ e Û Ø f Ì Ò Ø ÒÔ Ö Ñ Ø Ö Ö Ù Ò Ø ÔÖÓ Ö Ô Ø ÙÒØ ÐØ Ñ Ý ØÓÔÛ Ø ÓÙØ Ò ÒÝÒ Û Ò Ñ Ñ Ö Ø Ô Ü ÐØ Òº ÒÙÑ ÖÓ Ò Ñ Ñ Ö ¾ÓÖÑÓÖ º y Ø Ò ØÛ Ò Ñ Ò Ñ Ñ Ö Ó Ñ Ø ÓÐÐÓÛ Ò Ñ ØÖ ÜÛ Ó Ð Ñ ÒØ Ö Ø ÙÐ Ò Ø Ò ØÛ ÒØ kø ØÓ Ò Ñ Ñ Ö Ó Ø Ò Ö ÓÖ k Ø ÒÙÑ ÖÓ Ò Ñ Ñ¹ y) Û ÓÑÔÙØ Ä Ø Ø S k = s k 1, s k 2,..., s k p ÖÓÑØ k¹ø Ñ f k (x, y) ÒØ Ø Û Ö p Ö Ø Ø ÒØ Ñ º Ú ÒØÛÓ Ñ f k ½µ (x, y) Ò f (x, ØÛ ÒØ Ñ Ú Ò ÝØ ÓÐÐÓÛ Ò ÜÔÖ ÓÒ º ]Ö Ô Ø Ú ÐÝºÌ ÒØ Ñ Ð Ö ØÝ Û Ö d i,j = s k i sl j [ Ï ÓÑÔÙØ Ø Ú ØÓÖ Ó Ø Ñ Ò Ñ ÐÚ ÐÙ ÝÖÓÛ Ò ÓÐÙÑÒ m k ¾µ m k i = min j {d i,j } ] Ò m = [ m l i = min i{d i,j } (i, j) = f(i, j) µ; i = 1,..., n; j = 1,..., m X = {x 1} = {e 1 k > 0; k = 1,..., d} (i, j) (i, j) = (i, j) = (f c (i, j) ασ > 0) XXº c c c = M XX f + (i, j) = W XX f (i, j) k c c (i, j) (i, j) l D k,l = d i,j ; i = 1,..., p k ; j = 1,..., p l d(f k, f l ) = ( m k + m l )( n k n l + 1) = 84

98 Ù ÓÒÓ Ø Ò ÔÖÓÔ ÖØ Ì Ò Ñ Ñ Ö Ò ÙØ ÓÒÔÖÓ ÙÖ Ñ Ý Ú Ö ÒØÒÙÑ ÖÓ Ò Ñ Ñ Ö Ò Ò Ñ Ñ Ö ØÙÖ ÓÖØÛÓ ÝÔ Ö Ô ØÖ Ð Ñ ºÌ Ñ Ð Ö ØÝÑ ÙÖ Ñ ÙÖ ÓÛÐÓ Ö Ø Ò Ñ Ñ Ö Ó ÓÒ Ñ ØÓ ÓÑ Ò Ñ Ñ ÖÓ ÓÑÔÓ Ø ÓÒÓ ØÛÓ ÝÑÑ ØÖ ÐÚ Û Ú ØÓÖÓ Ñ Ò Ñ Ð Ø Ò ló Ø ÓØ Ö Ñ ºÌ ÒØ Ú ØÓÖÓ Ñ Ò Ñ Ð kó Ò Ñ Ö ÐÓ ØÓ Ø ÝÑÑ ØÖÝÓ Ø ØÙ Ø ÓÒºÁØ ÚÓ Ø ÓÑ Ò ØÓÖ ÐÔÖÓ Ð ÑÓ ØÖÝ Ò kû ÐÐ Ú ÖÝ Ñ ÐÐ ÒÓØØ Ò ÒØÓ ÓÙÒØØ ÙÒÐ Ò Ñ Ñ Ö lû ÐÐ Ð Ö Ö Ø ÓØ Ö Ñ ºËÙÔÔÓ Ø Ø ÐÐØ Ò Ñ Ñ Ö S Ù ØÓ Ø Ò Ñ Ñ Ö S ÒÙÑ ÖÓ Ò Ñ Ñ Ö Ö ÒØ ÖÓÑÓÒ Ñ ØÓØ ÓØ ÖºÌ Ö Ò Ò ØÓ Û Ò Ñ Ñ Ö Ò Ñ Ø Ò Û ØØÓ Ó Ò Ø ØØ kºì Ù Ø Ñ Ð Ö ØÝÑ ÙÖ ÒÓÔ Û Ø Ø Ò m ÒØ ÓÒ Ñ ºÀÓÛ Ú Ö Ø Ú ØÓÖÓ Ñ Ò Ñ Ð Ø Ò m Ø Òm Ø Ø Ò ÓÑÔÙØ Ò ÔØ Ð Ø Ñ º Ð ÓØ Ò Ñ Ñ Ö ØÔÓ ÒÓ Ø ÒÙÑ ÖÓ Ò Ñ Ñ Ö ÒØÖÓ Ù Ò ÑÔÐ Ý Ò ØÓÖºÌ Ñ ÙÖ Ò Ô Ò ÒØÓ Ñ Þ Ò Ø Ò Ñ Ñ Ö Ò ÙØ ÓÒ Ð ÓÖ Ø Ñ Ú ÖÝ k Ù ØÛ ÐÐØ ÒØÓ ÓÙÒØØ Ø Ò Ó Ò Ñ Ñ Ö ÒS l Û Ö ÙÒÐ ØÓØ Ó ÒS ØÓÖ ÔÖÓ Ð Ñº Ó Ò Ð Ø ÓÒÓÖ Ñ Ò ÓÒÖ ÙØ ÓÒÔÖ ÓÖØÓ Ô Ø Ð ØÙÖ ÓÑÔÙØ Ø ÓÒº Ø ÙÒ Ò Ñ ÔÖÓ Ù ÝØ Ô ØÖ ÐÙÒÑ Ü Ò ÓÐÚ Ò Ø ÕÙ Ø ÓÒ Ò Ñ Ñ Ö Ú Ö Ö Ø Ö Þ Ø ÓÒÓ Ø Ô ØÖ ÐÓÒØ ÒØÓ Ø Ñ º ÙÖØ ÖÛÓÖ ÓÒÓÙÖ ÔÔÖÓ Ñ Ý Ø ØÙ ÝÓ Ô Ø Ð ØÙÖ ÓÑÔÙØ ÓÒ ÇÙÖ ÔÔÖÓ Ó ÒÓØÙ Ô Ø Ð ØÙÖ Ù Ø Ø ÜØÙÖ Ò ÙØØ Ì ÝÔ Ö Ô ØÖ Ð Ñ Ù ÓÖØ ÜÔ Ö Ñ ÒØ ÐÖ ÙÐØ Ö Ò Ö Ø Ð Ò¹ ÖÑ ÜØÙÖ Ó ØÓ Ô ØÖ Ø ÖÓÙÒ ØÖÙØ Ò Ñ Ñ Ö µû Ø ÝÒØ Þ ÜÔ Ö Ñ ÒØ ÐÖ ÙÐØ ÓÒ ÑÙÐ Ø Ø ÙÒ Ò Ñ ºÌ ÖÓÙÒ ØÖÙØ Ò Ñ Ñ Ö Û Ö Ö Ò ÓÑÐÝ Ð Ø ÖÓÑ Ù ØÓ Ø ÍË Ë Ô ØÖ ÐÐ Ö Ö ÓÖÖ ÔÓÒ Ò ØÓØ ÎÁÊÁË Ø º ÙÖ ½ Ò ¾ ÓÛ ÓÑ Ô ØÖ Ù ÒØ ¾ Ò Ò Ñ Ñ Ö Ñ º Ö Ò ÓÑ Ð ºË ÓÒ ØÓ Ò ÙÖ Ø ØØ Ö Ö Ö ÓÒ Ó ÐÑÓ ØÔÙÖ Ò Ñ Ñ¹ ÔÖÓ ÙÖ ÔÖÓÔÓ Ý ÓÖØ ÒØ Ò Ö Ø ÓÒÓ ÓÑ Ò Ù Ò ÔÖÓ ÙÖ Ö ØÛ ÑÙÐ Ø Ò Ù ÒÖ Ò ÓÑ Ð Û Ø Å Ø ÖÒÓÖ¹ Ì ÝÒØ Ø ÖÓÙÒ ØÖÙØ ÙÒ Ò Ñ Û Ö Ò Ö Ø Ò ØÛÓ Ø Ô Ö Û Ð Ø ÓÖ Ô Ü ÐØ ÙÒ Ò Ó ÒØÛ Ø Ø Ö Ø ÖÚ ÐÙ Ò Û ÒÓÖÑ Ð Þ Ø Ö Ñ Ò Ò ØÓ Ò ÙÖ Ø ØØ ÙÒ Ò Ó ÒØ Ò 2Ú ÖÝ Ò ØÛ Ò¾ Ò ¾¼ºÏ ÔÔÐ Ø Ò Ñ Ñ Ö Ú Ö ÐÖ ÓÒ Ó ÐÑÓ ØÔÙÖ Ô Ü Ð Ú Û Ö Ø Ö Ø Ô Ü Ð ÙÑÙÔØÓÓÒ ºÁØ Ò ÔÔÖ Ø ÓÒØ ÙÒ Ò Ñ Ø Ø Ö Ð Ø ÓÒ ÙÒØ ÓÒÓ Ô Ö Ñ Ø Ö θ Ö ÓÒ ÒØ Ñ ºÁÑ Þ ¾ Ü¾ Ô Ü Ð Ó ¾¾ Ô ØÖ Ð Ò º 1, θ Ö» ÙÒ Ò ÓÖØÓØ ÐÒÙÑ ÖÓ ¼¼ Ñ º Ï Ú Ò Ö Ø ÓÐÐ Ø ÓÒ Ó ½¼¼ Ñ Û Ø ¾ØÓ ÖÓÙÒ ØÖÙØ Ò Ñ Ñ¹ Ì ÜÔ Ö Ñ ÒØÔ Ö ÓÖÑ ÓÒØ Ñ ÓÒ Ø ÓÒØ ÓÐÐÓÛ Ò Ø Ô 85

99 º½º ÖÓÙÒ ØÖÙØ Ò Ñ Ñ Ö ÜØÖ Ø ÖÓÑØ ÍË ËÐ Ö ÖÝÙ ÒÓÒ ¹ Ø Ò Ó ¾¹ Ò Ñ Ñ Ö ÝÒØ Ø Ñ º¾º ÖÓÙÒ ØÖÙØ Ò Ñ Ñ Ö ÜØÖ Ø ÖÓÑØ ÍË ËÐ Ö ÖÝÙ ÒÓÒ ¹ Ø Ò Ó ¹ Ò Ñ Ñ Ö ÝÒØ Ø Ñ 86

100 ½º ÓÑÔÙØ Ø Ø Ò ØÛ ÒØ Ñ ÒØ Ø Ù Ò Ø ÖÓÙÒ ¾º ÜØÖ ØØ Ò Ñ Ñ Ö ÖÓÑØ Ñ Ù Ò Ø ÔÔÖÓ Ö Ò ØÖÙØ Ò Ñ Ñ Ö ºÌ Ø Ò Ö ÓÑÔÙØ ØÛ Ò Ñ Û Ø Ø º ÓÑÔÙØ Ø Ø Ò ØÛ ÒØ Ñ ÒØ Ø Ù Ò Ø ÑÓÖ¹ Ñ ÒÙÑ ÖÓ ÖÓÙÒ ØÖÙØ Ò Ñ Ñ Ö Ò Û Ø ÐÐØ Ö Ñ Ò Ò Ñ¹ º Ø ÓÒ¾º ºÏ ÓÒ ÖØ ÊÐÓ Ö Ñ ØÓ Ñ Ò ÖÓÙÒ ØÖÙØ Û Ø ÐÐØ Ö Ñ Ò Ò Ñ º ØÛ Ò Ñ Û Ø Ø Ñ ÒÙÑ ÖÓ ÖÓÙÒ ØÖÙØ Ò Ñ Ñ Ö Ò Ô ÓÐÓ ÐÐÝ Ò Ô Ò ÒØ Ò Ù Ò Ñ Ñ Ö ºÌ Ø Ò Ö ÓÑÔÙØ ºÌ Ñ Ø Ø ÔÔ Ö Ò ÓØ Ö ÔÓÒ ÓÒØ ÖÓÙÒ ØÖÙØ Ò Ö Ð Ú ÒØ Ñ ÓÖÓÖÖ ØÖ ÔÓÒ º Ø ÑÓÖÔ ÓÐÓ ÐÐÝ Ò Ô Ò ÒØ Ò Ù Ò Ñ Ñ Ö µ Ö ÓÒ Ö Ò ÑÓÖÔ ÓÐÓ ÐÐÝ Ò Ô Ò ÒØ Ò Ù Ò Ñ Ñ Ö µ Ø Ö ÔÓÒ ØÓ ÔÓØ ÒØ ÐÕÙ ÖÝÖ ÔÖ ÒØ ÝØ Ñ º ÁÒØ Ð ½Û ÔÖ ÒØØ Ö ÙÐØ ÖÓÑØ ÜÔ Ö Ñ ÒØÛ Ø Ø ¼¼ Ñ Ò Ò Ñ Ñ Ö ºÌ Ò ÜØÖÓÛ ÔÖ ÒØØ Ö ÙÐØ Û ÒÛ ÓÒÐÝØÖÝØÓ Ö Ò Ñ º ÖÓÛÓÖÖ ÔÓÒ ØÓ Ö ÒØÒÙÑ ÖÓ Ñ ÒØ Ö ÔÓÒ ØÓ Ø ÖÑ Ó Ø Ú Ö ÒÙÑ ÖÓ ÓÖÖ ØÖ ÔÓÒ º Ö ØÖÓÛÔÖ ÒØ Ø Ö ÙÐØ Û ÒÛ ÔÓÓÐØÓ Ø Ö ÐÐØ Ñ Ö Ö Ð Ó Ø ÒÙÑ ÖÓ ÖÓÙÒ ØÖÙØ Ø Ù ÓÐÐ Ø ÓÒÓ Ñ Û Ø Ø Ñ ÒÙÑ ÖÓ Ò Ñ Ñ Ö Ø ÕÙ ÖÝ ¾ Ò Ñ Ñ Ö ¼º ½½º ¾º¾ º Ò Ñ Ñ Ö ¼º ½º ¾º¾½ º Ò Ñ Ñ Ö ¼º ½º ¾º º ½ ÐÐ Ñ ¼º ½º¾½½º ½¾º Ê ½Ê Ê Ê ½¼ Ø ÕÙ ÖÝºÌ Ú ÐÙ Ó Ø ÒÓ ÒÛ ØØÓα = Ì Ð ½º Ú Ö ÒÙÑ ÖÓ Ö Ð Ú ÒØ Ñ Ô ÖÕÙ ÖÝ Ò Ñ Ñ Ö ½º¼¼½º ¾º º Ö ÔÓÒ ØÓØ ÕÙ ÖÝ ÒØÖÓ Ù ÓÑ ÓÒ Ù ÓÒ Ò Ö Ù Ø Ú Ö ÒÙÑ¹ ÖÓ ÓÖÖ Ø Ñ Ó Ø Ò ÒØ ÕÙ ÖÝºÌ Ø Ò Ù ØÓØ Ø Ö Ö ÒØ ÖÓÑØ ÖÓÙÒ ØÖÙØ Ñ Ò ØÔÓ Ð ÓÖØ Ñ ØÓÑ Ø Ø ØØ ÑÓÖÔ ÓÐÓ Ð Ò Ô Ò Ò Ð ÓÖ Ø Ñ Ò Ò ÒÙÑ ÖÓ Ò Ñ Ñ¹ ÁÒÌ Ð ½ Ø Ò ÔÔÖ Ø Ø ØØ ÓÒ Ö Ø ÓÒÓ ÐÐØ Ñ Û Ø Ñ ÓÙØ Ø Ò ØÙÖ ÐÓÐÐ Ø ÓÒÓ Ñ ºÌ Ò Ñ Û Ø Ö ÒØ ÖÓÙÒ ØÖÙØ ÒÙÑ Ö Ó Ò Ñ Ñ Ö Ñ Ý ÓÑ Ñ Ð Ö ÒÓÙ ØÓ ÒØ Ö Ò Ø ÖÖ Ô Ø Ú Ö ÔÓÒ Ø º ØÖÙØ Ò Ñ Ñ Ö ÐÐØ Ö ÙÐØ ÑÔÖÓÚ Ü ÔØÛ ÒÊ ½ºÏ Ú Ø Ø Ò Ö ¼±Ó Ø Ö ÔÓÒ Ö Ò Ø Ú Û ÒÊ ½ºÌ Ê ½ Ò Ï ÒÛ Ö ØÖ ØØ Ö ØÓØ ÓÐÐ Ø ÓÒ Û Ø ÒØ ÐÒÙÑ ÖÓ ÖÓÙÒ 0.5º 87

101 ÒØ ÖÔÖ Ø Ø ÔÖÓ Ð ØÝÓ Ó Ø Ò Ò Ø ÐÓ Ø Ñ ÒØ Ø ÓÖ Ò ØÓØ Ø Ò Ò Ò Ø ÓÒ ÓÖØ ÔÖÓ Ð ØÝÓ Ù ºÁØ ÓÒÐÙ ÓÒ Ò ÙÖØ ÖÛÓÖ Ó ¾ ÖÓÙÒ ØÖÙØ Ò Ñ Ñ Ö º Ò ÒØ Ø Ø Ú ÖÝ ÐÓ ØÓ½ ÓÖ ÐÐ Ö Ò Ø Ò Ü ÔØ ÓÖØ Ô ØÖ Ð Ñ ÓÒØ ÓÐÐ Ø ÓÒÓ Ò Ñ Ñ Ö Ò Ù Ý Ò Ð ÓÖ Ø Ñ Ø Ø Ö ÓÖÑÓÖÔ ÓÐÓ ÐÐÝ Ò Ô Ò ÒØÚ ØÓÖ ºÏ Ú Ô Ö ÓÖÑ Ò ÜÔ Ö Ñ ÒØÓ Ü Ù Ø Ú Ö ÓÒ ÓÐÐ Ø ÓÒÓ ÑÙÐ Ø ÝÔ Ö Ô ØÖ Ð Ñ¹ Ï Ú ÔÖÓÔÓ Ò ÔÔÖÓ ØÓ ÁÊ Ò ÓÑÓ Ò ÓÙ Ø Ó ÝÔ Ö¹ Ñ ÒØ ÖÑ Ó Ø ÖÓÙÒ ØÖÙØ Ò Ñ Ñ Ö º ºÌ Ö ÙÐØ Ö ÒÓÙÖ Ò ÐÑÓ Ø½¼¼± Ù ÒÔÖÓÚ Ò Ø ÐÓ Ø Ø ØØ ØÓ Ø Ú ÒÓ ÓÒØ Ö ÙÐØ Ò Ñ Ý ØÓÔ Ö ÓÖÑÓÑÔ Ö ÓÒ Ø ÅÅ Ð ÓÖ Ø ÑÛ Ø ÁÒ Ô Ò ÒØ ÓÑÔÓÒ ÒØ Ò ÐÝ Á µ ½¼ ØÓ Ò ÓÓ ÔÔÖÓÜ Ñ Ø ÓÒØÓØ ÖÓÙÒ ØÖÙØ Ò Ñ Ñ Ö ºÏ Ú Ø ÐÐØÓ Û Ø ÓØ Ö Ò Ñ Ñ Ö ÜØÖ Ø ÓÒ Ð ÓÖ Ø Ñ ºÈÖ Ú ÓÙ ÜÔ Ö Ñ ÒØ ÓÑÔ Ö Ò ÀÓÛ Ú ÖØ Ö ÙÐØ ÓÒÐÝÓÒ ÖÑØ Ð ØÝÓ Ø ÅÅ Ð ÓÖ Ø Ñ Ò ÓØ Ö Ð ÓÖ Ø Ñ Ú Ò ÚÓÙÖ Ð ØÓØ ÅÅ Ð ÓÖ Ø Ñ º Ø ÅÅ ÓÖ ÒÝ ÐØ ÖÒ Ø Ú Ð ÓÖ Ø Ñµº ÓÖ Ü ÑÔÐ Ø ÙÐ Ò Ø Ò ØÛ Ò Ò Ú Ù Ð Ò Ñ Ñ Ö Ñ Ý Ù Ø ØÙØ ÝÑ Ü»Ñ Ò Ø Ò ºÌ Ì Ö Ö Ð Ó Ú Ö Û Ý ØÓ Ú ÐÙ Ø Ø Ú Ö ÒÙÑ ÖÓ Ò Ñ Ñ Ö ÓÙÒ Û ÓÐ ØÓ Ò Ñ Ñ Ö Ñ Ý Ú ÐÙ Ø ÓÖ Ò ØÓØ À Ù ÓÖ Ø Ò º ÁØ ÔÓ Ð ØÓ Ò ÓØ Ö Ø Ò ÓÒØ Ò Ñ Ñ Ö ÜØÖ Ø Ý ÒØ Ñ ÒØÖÓ Ù Ò Ô Ò Ð Þ Ø ÓÒØ ÖÑ º Ú ÓÙ Û Ý ØÓ Ó Ø ØÓÓÑÔÙØ Ø ÓÖÖ Ð Ø ÓÒ ØÛ ÒØ ÙÒ Ò Ñ Ñ Ø ÓÖ Ò ØÓØ Ö Ð Ø Ú Ñ Ø Ó Ø ÖÓÖÖ ÔÓÒ Ò Ò Ñ Ñ Ö º Ì Ø Ò ØÛ Ò Ñ ÛÓÙÐ ÒÐÙ Ô Ø ÐÓÖÖ Ð Ø ÓÒØ ÖÑ Û Ø Ò Ô Û ØØ ØÑÙ Ø ØÙÒ ºÁ Ø Ñ Ö ÓÑÓ Ò ÓÙ ÒØ Ö ¹ Ï Ú ÒÓØ ÒÐÙ Ý Ø ÒÝ Ô Ø Ð Ð Ñ ÒØ ÒØ Ø Ò ºÇÒ Ó Ø Ó ¹ ØÓ ÓÐÚ Ø ØÓ Ò Ò Ø ÓÔØ Ñ Ð Ñ ÓÑ ÒØÖ Ò ÓÖÑ Ø ÓÒ ØÖ Ò Ð ¹ Ø ÓÒ ÖÓØ Ø ÓÒ Ð Ò µøóö Ø ÖØ ØÛÓ Ñ Ò Ô Ø ÐÐÝÑ Ø ºÌ ÒÒÓØ ÙÑ ØÓ Ü ØÐÝÖ Ø Ö Ø Ö ÓÑ Ò ØÓÖ ÐÔÖÓ Ð Ñ Û Ö Ñ ÒÒ ÖºÀÓÛ Ú Ö Ø Ý Ö Ó Ö ÒØ Þ Ò»ÓÖØ ÓÖ Ò Ð ÔØÙÖ Ò Ø ÓÒÓ Ø Ñ ÓÑ Ò Ø ÓÖÖ Ð Ø ÓÒ Ò ÓÑÔÙØ ÒØ ØÖ Ø ÓÖ¹ Ò º Ø ÓÒ Ð Ò ÓÖÑ Ø ÓÒ Ù Ñ ÓÓÖ Ò Ø Û ÐÐ ÖÚ ØÓÖ Ù Ø Ó ØÓ Ø ÓÔ Ö Ø ÓÒÑ Ý ÔÖÓ Ø Ú ÒØ ÓÒØ ÜØÓ Ð Ö Ø Ò Ü¹ ÓÑÔÙØ Ø ÓÒ ÐÔÖÓ Ð Ñº Ð ÑÓ Ñ Ø Ò Ñ ÖÓÑ Ö ÒØ Ò ÓÖ ÓÖ Ñ Û Ø Ö ÒØ Ö ÕÙ ÒÝ Ò Ñ Ò Ù ØÓ Ñ ÔÖ ÔÖÓ Ò Ò ÒÓ ºÌ Ñ Ò ÙÐØÝ ÓÖÓÙÖ Ð ÓÖ Ø Ñ Ù Û ÒÒÓØ Ð ØÔÖ ÒØÛ Ø Ñ Ò Ø ºÌ ÓÒÐÝ Ú Ð Ð Û Ý ØÓ ÒØ ÖÔÓÐ Ø ÙÑ Ò ÐÓ ÐÓÒØ ÒÙ ØÝÓ Ø Ó ÖÚ ÙÑ Ò Ø ØØ Ñ ÓÐÐ Ø ÓÒ ÓÑÓ ÒÓÙ Û Ú ÚÓ Ø ÔÖÓ ¹ Ô ØÖ ºÀÓÛ Ú Ö Ø ÓÐÙØ ÓÒÑ Ý Ö ÐÝ ÔØ ÝØ Ö ÑÓØ Ò Ò Ù Ö ÓÐÓ Ø Ö ÙÐØÙÖ Ò Ò Ö ÓÐÓ Ø Øµº 88

102 Ï Ú Ý ØØÓ Ú Ñ Ø Ó ÓÐÓ ÝØÓ ÒØÖÓ Ù Ø ÒØ Ö Ø ÓÒÛ Ø Ø Ù Ö Ø ÓÒÐÓÓÔºËÓÑ Ñ ÒØ Ò ÓÖÑ Ø ÓÒ Ò ÒØÖÓ Ù ÒØ Ý Ø ÑØ ØÛ Ýº Û Ò Ð Ò Û Ø Ô ØÖ Ð Ò ÓÖÑ Ø ÓÒº Ì Ö ØÖÓÒ ØÖ Ò ØÓ ÒØÖÓ Ù Ø ÙÑ Ò ØÓÖ ÒØ Ò ÜÓÒ ØÖÙ¹ Ì ËÔ Ò Å Ò Ø Ö Ó Ù ÒÝ Ò ÙÔÔÓÖØ Ø ÛÓÖ Ø ÖÓÙ Ö ÒØ ÎÁÅË¹¾¼¼ ¹¾¼¼ ¹¼ ¹¼ º ÒÓÛÐ Ñ ÒØ Ê Ö Ò ½ ºÏºÅºËÑ ÙÐ Ö ÅºÏÓÖÖ Ò ËºË ÒØ Ò º ÙÔØ ÊºÂ Òº ÓÒØ ÒØ¹ ¾ º ºÄ Ò Ö ºË Ò ÐÌ ÓÖÝÅ Ø Ó ÒÅÙÐØ Ô ØÖ ÐÊ ÑÓØ Ë Ò Ò ºÂÓ Ò Áº º Ð Ö ÝÓÙ ÓÒ Æº Ö Åº Ö Ö ÏºÅºÈÓØØ Ò Öº ØÖ ØÖ Ú Ð Ñ Ö ØÖ Ú Ð ØØ Ò Ó Ø ÖÐÝÝ Ö ºÁ ÌÖ Ò ºÈ Øº Ò ÐºÅ ºÁÒØ Ðº ¾¼¼¼ ¾¾ ½¾µ ÔÔº½ ¹½ ¼ Åº Ö Âº ÐÐ Ó ºÀ ÖÒ Ò Þº ÙÖØ ÖÖ ÙÐØ ÓÒ ÅÅ ÓÖ Ò Ñ Ñ Ö Ò¹ Ó ÑÙÐØ Ò ÝÔ Ö Ô ØÖ Ð Ñ Ù Ò Ö Ð Ú Ò ºÈÖÓº Ó ºÊ Ñº Ë Ò ºËÝÑÔº ¾¼¼½ºÁ ÊËË³¼½ ÚÓÐº ÔÔº½½ ¹½½ ½ Ï Ð Ý²ËÓÒ ÀÓ Ó Ò ÆÂ ¾¼¼ Åº Ö Âº ÐÐ Óº Ó Ø Ú ÑÓÖÔ ÓÐÓ ÐÑ ÑÓÖ ÓÖ Ò Ñ Ñ Ö Ò Ù¹ ÙØ ÓÒºÈÖÓºÁ ÏÓÖ ÓÔÓÒ ÚºÌ º Ò ºÊ ÑÓØ ÐÝË Ò Ø Ï ¹ Ò ØÓÒ º º ÇØº¾¼¼ ÔÔº¾ ¹¾ Ø ÓÒºÈÖÓº Ó ºÊ ÑºË Ò ºËÝÑÔº Á ÊËË³¼ ºÌÓÐÓÙ ÂÙÐº¾¼¼ ÚÓÐº ÔÔº ºÃÓÞ ÒØ Úº ÓÑÔÙØ Ø ÓÒ Ï Ø Ù ÒÊ Ò ÓÑ Ð ºÈ Ì ÁËÊ ¹ Åº ØÙ ÃºË ÐºÀÙÑ Ò¹ ÒØ Ö ÓÒ ÔØ ÓÖ ÜÔÐÓÖ Ø ÓÒ Ò ÙÒ Ö Ø Ò ¹ µ ¼½¹ ¼ Å Ö¾¼¼ Ò Ó ÖØ Ó ÖÚ Ø ÓÒ Ñ ºÁ ÌÖ Ò º Ó Ò Ò Ê ÑÓØ Ë Ò Ò ¹ º ºÊ ØØ Ö ºÍÖ ÄºÁ ÒÙºÊ ÓÒ ØÖÙØ ÓÒÓ Ô ØØ ÖÒ ÖÓÑÑÓ Ý ÒÔÙØ ÍÒ Ú Ö ØÝÓ Å ÖÝÐ Ò ½ µ ½¼ ºÀÝÚ ÖÝÒ Ò ºÇ º Ø Ü ¹ÔÓ ÒØ Ð ÓÖ Ø Ñ ÓÖ Ò Ô Ò ÒØÓÑÔÓÒ ÒØ ºÀÝÚ ÖÝÒ Ò ÂºÃ Ö ÙÒ Ò ºÇ ºÁÒ Ô Ò ÒØ ÓÑÔÓÒ ÒØ Ò ÐÝ ºÂÓ ÒÏ Ð Ý Ù Ò ÑÓÖÔ ÓÐÓ Ð Ó Ø Ú Ñ ÑÓÖ ºÂºÅ Ø ºÁÑ º ¾¼¼ µ ²ËÓÒ Æ Û ÓÖ ¾¼¼½ Ò ÐÝ ºÆ ÙÖ Ð ÓÑÔº ½ ¹½ ¾ ½ 89

103 On the study of visual texture patterns for Recycled paper surface quality characterization using Gabor Texture features José Orlando Maldonado, Manuel Graña Computing Intelligent Group University of Basque Country Dept. CCIA {joseorlando.maldonado, Abstract. In this paper we realized the study of a phenomenon characterized by the appearance of undulations or protuberances on the paper surface some time after its production. Detection and measurement of this bumpiness must be performed by means of computer vision and statistical pattern recognition techniques, because there is no other analytical instrument that can cope with the macrostructure of the occurrence. Gabor Filter Banks (GFB) have been applied to image texture characterization and segmentation. We propose them for the characterization of phenomenon in recycled paper images. The main difficulty lies in the lack of a precise definition of this observable fact and the great variability of the shapes and scales that the protuberances show within each image and between images. When performing the manual labelling of sample images, the agreement between the human observers is very low. Besides, bumpiness fine manual discrimination has proved impossible, as it seems that the human observers cannot come up to, and sustain in time, any consistent criteria for such fine discrimination. To obtain a manual labelling that may serve as the reference for the construction of automatic recognition systems, we have stated the bumpiness characterization problem as a three-class classification problem. In this setting we obtain, with the proposed filter bank approach, classification accuracies comparable to the human observers agreement. Keywords: Quality control, Texture analysis, Gabor filters, Recycled paper. 1 Introduction The Pulp and Paper Industry and the Printing Industry have set a number of quality standards along with their measurement processes. The major standardization organizations ISO and Tappi have defined standards for diverse characteristics of the paper: 90

104 Physical properties: Grammage (ISO 536, Tappi T410), Moisture Content (ISO 286, Tappi T412), Thickness (ISO 534, Tappi T411), Water Absorption (Tappi T441), Roughness (Tappi T555, Tappi T538). Strength properties: Bending Resistance/ Stiffness (ISO 2493 ISO 5628, Tappi T489, Tappi T543, Tappi T556, Tappi T566), Bursting Strength (ISO 2758, ISO 2759, Tappi T403), Ply Bond/ Scott Bond (Tappi T403), Stiffness (Tappi T489 and ISO 2491) Tearing Resistance (ISO 1974, Tappi T414), Tensile Strength (ISO 1924, Tappi T404, Tappi T494), Folding Endurance (ISO 5626, Tappi T511), Internal Bonding Strength (Tappi T569), Z-Directional Tensile (Tappi T541), Optical Properties: Color (Tappi T524, Tappi T527), Brightness (Tappi T452), Gloss (Tappi T480), Opacity (ISO 2471,Tappi T425) Whiteness (ISO 11475), Printing Properties such as Mottle, Graininess, Darkness, Contrast, etc. (ISO/IEC DIS 13660). None of these measurements is relevant to the paper defect that we are interested in, and that we have called bumpiness for lack of a name in the literature. This bumpiness is the deformation of the paper sheet showing undulations before any printing or coating process has taken place. This paper defect can be worsened by printing processes i.e.: laser printers. We do not know the microscopic causes for this paper defect, wich can be intuitively associated with inhom*ogeneous spatial fiber distribution. The spatial range of these inhom*ogeneities is in the order of centimeters or inches, so it seems difficult that microscopic study of paper sheet punctual samples using tools like Phase-contrast X-ray Microtomography [1] and Scanning Electron Microphotographs [2] could lead to a characterization of the paper bumpiness. Texture features from computer vision applications could provide the spatial information needed to characterize this paper sheet defect. There are other paper defects that can be modeled using spatial information extracted from images, i.e.: mottling. The mottling defect is due to the uneven distribution of ink. Although Computer Vision techniques have been also used to characterize mottling [3], it must not be confused with the bumpiness we are concerned with. Bumpiness is a deformation of the paper sheet that may appear before any printing process takes place. Printing can worsen it through additional wetting and heating, but it is not the cause of bumpiness. The spatial scale at which mottling is characterized is at least one order of magnitude lower than the bumpiness spatial scale. Typical images obtained for mottling evaluation are quite different from the images of bumpiness defects shown in figure 1, and the image processing procedures applied to mottling images are of not immediate application to bumpiness evaluation. We have found some reference to blisters produced by the printing process over coated paper, which consists of bubbles and breaks in the paper cover. This phenomenon is unrelated to the bumpiness, and its visual characterization has not been addressed in the literature. 91

105 Fig. 1. Figure shows recycled paper sheets with several levels of bumpiness. Images of recycled paper sheets are white, with little contrast. For the visual assessment of the defect a contrast-enhancing pre-processing described in the text is applied to the images shown in the figure. 92

106 In this paper we realized the study of a phenomenon characterized by the appearance of undulations or protuberances on the paper surface some time after its production. Detection and measurement of this bumpiness must be performed by means of computer vision and statistical pattern recognition techniques, because there is no other analytical instrument that can cope with the macrostructure of the occurrence. Gabor Filter Banks (GFB) have been applied to image texture characterization and segmentation. We propose them for the characterization of phenomenon in recycled paper images. The main difficulty lies in the lack of a precise definition of this observable fact and the great variability of the shapes and scales that the protuberances show within each image and between images. When performing the manual labelling of sample images, the agreement between the human observers is very low. Besides, bumpiness fine manual discrimination has proved impossible, as it seems that the human observers cannot come up to, and sustain in time, any consistent criteria for such fine discrimination. To obtain a manual labelling that may serve as the reference for the construction of automatic recognition systems, we have stated the bumpiness characterization problem as a three-class classification problem. In this setting we obtain, with the proposed filter bank approach, classification accuracies comparable to the percentage of agreement in human observers Figure 1 shows several images of recycled paper sheets. Image acquisition was performed with a conventional flatbed office scanner at an optical resolution of 1200 dpi, which generated high-resolution images. Images of recycled paper were preprocessed applying a contrast enhancement that consists on the selection of the upper grey levels that encompass 90% of the image accumulative histogram and renormalization of the image intensity range, to emphasize the visual features of the bumpiness phenomenon, because scanning paper sheets produces white images with very little contrast. The enhanced images show the presence of certain textures that do not keep any regular pattern. They show also some strong impulsive noise due to the contrast enhancement procedure. Impulsive noise is dealt with by Gaussian smoothing previous to any feature extraction process. Original size of each paper sheet is standard A4: 24 cm x 29.7 cm, the size of the scan images was 850 x 1170 pixels. We have found some, but not many, precedents of the application of computer vision techniques in the paper and printing industries: to determine the distribution of local strain during a tensile test [4], for defect detection in paper pulp images [5], for mottling assessment [3]. Instances of works that perform quality inspection using computer vision and texture features are [6], [7], [8], [9], [10] [11], [12] for textile defect detection, [13] for the classification of marble slabs, and [14] for classification of wood surfaces. Gabor Filter Banks (GFB) are a well established texture feature extraction method for image segmentation [15] and image data retrieval [16]. Filters based on Gabor functions have been applied to texture characterization and image segmentation since the early 90s [17, 18, 19, 20, 21, 22]. Recent works demonstrate the that Gabor filters maintain their interest for the analysis of textures [23, 24, 25]. A recently overview of Gabor filters in image processing, with a short literature survey of the most significant results can be found in [26]. Each GFB is a collection of band-pass filters that define a particular sampling of the Fourier transform space, varying the parameters of the filters allows to define diverse sampling strategies with different properties. We have worked on the tuning of the filters to obtain features that may allow the discrimination 93

107 into classes between images with different bumpiness degrees, and the definition of a continuous index of the bumpiness defect. Our works have produced a collection of filters that obtain classification accuracies comparable to the agreement between human observers. The paper is organized as follows: Section 2 is reviews the essentials of GFB design. Section 3 presents our efforts towards the definition of a classification problem on the premises provided by the manual labelling of these recycled paper images. Section 4 gives the results on the classification of the recycled paper images based on GFB features. 5 gives some conclusions and further work. 2 Gabor Filter Bank design Some studies [27, 28, 29, 30, 31, 32, 33] about human perception have suggested human visual system perform multiresolution and multiorientation image analysis, that can be modeled by means of a pyramidal scheme that decompose the image in multiple scales and orientations. Within this paradigm, some studies have suggested that filters banks allow extracting the image information for further segmentation or classification. In particular the approach based on Gabor elementary functions [34] has the property of being highly selective in the space domain, as well as in the frequency domain. Although Gabor original works focused in 1D representation, their principles were extended later by [35] to 2D domain. Filters based on these functions can be considered as orientation and scale tuneable edge and line detectors, and the statistics of these micro features in a given region are often used to characterize the underlying texture information [16], [26]. Gabor features have some robustness against illumination changes, but not to rotation and scale modifications of the images because those are closely related to GFB parameters. A two dimensional Gabor function can be written as: g x' y',, 2 2 x y 2 2 x y x y exp exp 2 i Ux Vy where (x, y ), are rectangular coordinates (x,y) rotated in the space domain: x' x cos( ) ysen( ) (2) y' xsen( ) ysen( ). Thus, a Gabor function is a Gaussian function that is modulated by a complex sinusoid. Parameters x y, characterize the spatial extent and bandwidth of the filter. They are usually assumed to be non-isotropic, thus x y. The Gaussian s major axis is rotated by an angle around the positive z-axis. If we denote (u,v) the euclidean coordinates in frequency domain, the point (U,V) represent a particular 2D frequency. The complex exponential is a 2D complex sinusoid of frequency F U 2 V 2, and orientation = tan -1 (V/U). (1) 94

108 It can be shows that the Fourier transform of g(x,y) is 1 H ( u, v) exp u U ' v V ', x Where u U ', v V ' u U cos v V sin, u U sin v V cos y. (4) The frequency response function has the shape of a Gaussian function. The Gaussian s major axis length is determined by x, y respect to the positive u axis, and the Gaussian is centered on the frequency (U,V), so the Gabor function acts as a band-pass filter in the Fourier domain. The Gabor filter has also been implemented for texture analysis using only its real (even) component. In this circ*mstance, the filter impulse response is defined as: g 1 2 x y 1 2 x' 2 2 x x y exp cos 2 Fx, (3) and it is rotated by an angle, y', 2 y in this case, two symmetrically located Gaussians represent the filter in the frequency domain: x u F yv 2 2 u F v H ( u, v) exp 2 exp 2. x An analogous analysis can be done if we define the Gabor filter using only the imaginary part. In any case, either taking the complex (odd) or real (even) versions of the filters there are six parameters that must be set when implementing the Gabor filter: [F,, x, y, BF, y B.] The frequency and angular bandwidths (B F, B ) can be established to constant values according to the approach found in the psycho visual studies. The frequency (F) and orientation ( ) define the filter centre location. In order to determine the unknown parameters, the following equations can be used [15] : x ln 2 2 f y BF , BF (5) (6) (7) y ln2 2 f tan B 2. (8) 2.1 Texture Features based on Gabor filters In order to extract the features using filters banks the even and odd versions of each filter have been used. Let I(x,y) denote an image to be analyzed, G c (x,y) and G r (x,y) 95

109 are convolution masks corresponding to the even and odd filter versions previously deduced from the point spread function g(x,y) constructed with specific values of the parameters [F,, x, y, B F, y B.,]. We calculate the Gabor energy of the filter response as: E 2 2 x, y G I x, y G I x, y, c where denotes the convolution operator (in practice, convolution is often computed through Hadamard product in the Fourier domain) the direct and inverse discrete Fourier transform. Given a filter bank with m orientations and n spatial frequencies, we construct the following texture feature vector: V ( S f,, A f, ) : f 1,.., m; 1,.., n, (10) r (9) where S f 1 MN M N, x 1 y 1 E f, x, y, (11) A f, 1 MN M N S f, E f, x, y. x 1 y 1 In this expression, M and N denote the size of the image and E f, x, y is the Gabor energy of the response of a filter tuned in frequency f and orientation. If we consider that a texture element is a given spatial periodic function of a determined frequency and orientation, each individual filter is tuned to detect a specific texture element and the feature vector in (10) is expected to provide discrimination between different texture regions. The quantitative measure of the bumpiness is given by the norm of the vector V of equation (10). (12) 3 Establishing the classification problem ground truth In the search for a bumpiness reference index, we start by proposing an image classification into various degrees of bumpiness. If we obtain image features that allow the image discrimination, then we can propose an index as a function of these features. With the desire to obtain an image labelling as precise as possible, we proposed a 10 level scale. The results of the manual labelling of the images showed almost null intra and inter observer agreement measured as the number of identical classifications of the same image. We did reduce the task complexity, proposing a three class labelling: Hard, Middle and Low bumpiness. We have used five human observers, each performing three times the manual classification of the paper images. After this manual classification process we have 15 labels for each image so we can assign it a class label by majority voting. This is the ground truth for construction and validation of the image classifiers. The degree of agreement between human 96

110 observers can be assumed as a prediction of the difficulty in constructing an automated classifier. Thus we summarize the agreement matrices between manual labelling of the human observers in the tables gathered in fig. 2. Tables a), b) and c) in figure 2 show the agreement between human observers computed as the percentage of images labeled identically by the observers. Table a) contain the agreement between observers when making the first attempt to label the images. The matrix is symmetric and its diagonal entries are equal to 1. Table b) corresponds to the second labeling attempt. Their examination shows that the agreement between observers O1, O4, O5 is relatively high, although variable. In table a) the highest agreement is between O4 and O5, while in table b) it is between O1 and O4. Observers O2 and O3 have a low agreement with each other and with the remaining observers. Table c) contain the agreement between the first (rows) and second (columns) labeling of the images. The table is not symmetric. The diagonal values correspond to the agreement of each observer with himself at different labeling attempts, which is quite low in general. The patterns of agreement between observers are similar to the ones in tables a) and b). These agreements between observers are a guide to the difficulty of the classification problem. Fig. 2. Agreement between manual labelling made by human observer. Ox denotes the x-th human observer. Table entries contain the ratio of identical image labelling made by the observers individuals. a) Agreement between the first labelling b) idem for the second labelling c) idem between the first and the second labelling. The manual labeling confusion matrices show that the greatest confusion is between middle and low Bumpiness classes, therefore we have decided to merge them into one single class. The average agreements for the first attempt, the second attempt and the first versus second attempts grow from 0.69, 0.67 and 0.63 up to 0.79, 0.75 and 0.73, respectively, when we merge the middle and low classes. We propose 0.75 as a reference value for the success ratio of automatic classification algorithms using as the desired correct classification the one obtained by majority voting of the 15 manual labels obtained for each image, meaning that if we obtain this success ratio, we can say that the automatic classifier has a performance comparable to that of human observers. 4 Automatic recycled paper image classification: experimental results Classifier validation will be done by two-fold crossvalidation. Two methods for the automatic classification of images, using the texture feature vectors as inputs have 97

111 been examined: the well-known algorithm of the k-nearest neighbour (k-nn) and a feedforward artificial neuronal network trained with the backpropagation algorithm, usually referred as Multi Layer Perceptron (MLP) in the literature. We designed two filter banks that gave us two different texture feature vectors for each image, with the aim to test the sensitivity of the approach to filter bank design. Since we have based on the classification obtained by human observers, a near model to the human visual system is desirable. Therefore considering the appreciations on cortex visual found in [36, 37], in the first bank, we used a set of Gabor filters with radial bandwidth of 1.4 and angular bandwidth of 35º. The individual filters were tuned to frequencies of 1/8, 1/16, 1/32 and 1/64 cycles/pixel, and with orientation of 0º, 30, 60, 90º, 120º and 150º. With this parameter configuration there is an overlapping of the 56% of the receptive fields of the filters in frequency domain. The receptive field is defined as the ellipsoid that corresponds to the half-magnitude contour of the band filter in frequency space. In the second filter bank design the parameter setting is defined so that the receptive fields of band filters do not overlap. The corresponding ellipsoids are touching, with the purpose of avoiding information redundancy. Thus, we have 20 filters in each of the filter bank designs. The best k-nn algorithm results were obtained for a value of k=7, and the MLP was trained with the on-line gradient descent Backpropagation algorithm. The MLP architecture consist of three layers: the input layer that matches the texture feature vector, the hidden layer, with ten neurons, and the output layer, with two neurons, one for each Bumpiness class. The activation functions chosen was the hyperbolic tangent for all layers. Tables 1 and 2 present the classification results obtained on the test set of recycled paper images. Table 1. Results for GFB features without receptive field overlap. 7-NN MLP Success Error Success Error C1 80% 20% 78,5% 21.5% C2 67.7% 32.3% 76.9% 23.1% Total 73.8% 26.2% 77.7% 22.3% Table 2. Results for GFB features with receptive field overlap. 7-NN MLP Success Error Success Error C1 87.7% 12.3% 80% 20% C2 64.6% 35.4% 75.4% 24.6% Total 76.2% 23.8% 77.7% 22.3% The k-nn algorithm does not improve on the MLP and falls below the reference value of 75% success classification. However the MLP results improve over the manual labeling agreement reference value, so we can say that the automatic 98

112 classification results are comparable and improve the manual accuracy. The effect of the overlapping in the receptive fields of the GFB is minor for the MLP classifier and greater for the k-nn, although the effect in both cases is the increase on the accuracy of the classification of the hard Bumpiness class C1. The improvement of MLP over k-nn is in the classification of the low Bumpiness class. In all cases we observe that the error of the classification is smaller for hard Bumpiness images, which agrees with the results found in the analysis of manual image labeling, where it is easy to notice that, in general, an image with hard Bumpiness is easier to distinguish and to classify by the user. The boundary cases between hard and low Bumpiness are the bigger source of disagreement between the human observers, and the main source of error for the automatic classification systems. 5 Conclusions and further work Detection and measurement of the Bumpiness phenomenon on recycled paper can be made by means of image processing and statistical pattern recognition techniques. The problem is stated as a classification problem: each class corresponds to a degree of bumpiness. Due to the difficulties encountered by the human observers in the image labeling process, the number of classes has been reduced to three ( no bumpiness, mild bumpiness and severe bumpiness ). The no bumpiness class is trivial, because the image lacks any feature whatsoever. In this paper we focus on the definition of the texture features and the classification algorithms are standard ones: the k-nn algorithm and the MLP neural network. Specifically, the use of GFB to compute texture features of the images allows for the construction of automated classifiers that reach a level of classification success comparable with that obtained by human labelers. Our future research will focus in testing the use of the texture features to allow for the computation of an index that may serve as a continuous measure of the Bumpiness level of a recycled paper image, overcoming the limit to a small number of classes. This continuous index may later be correlated with the production parameters with the aim of incorporating it in the quality control process. This testing will involve new human labelling tests, redesigned to lower the burden of maintaining a precise discrimination between past viewed images and the new ones being presented. This can be accomplished asking the human observer to verify some properties on collections of images, such as being of equal Bumpiness or ascending/descending order of Bumpiness. Other line of future work is the automatic optimization of the GFB in order to obtain the maximal discrimination between Bumpiness graduations or classes. This needs a well established corpus of data and even more confidence in the ground truth definition. 99

113 References 1. Holmstad, R., et al. Modelling the paper sheet structure according to the equivalent pore concept. in Action E11 Final workshop. pp Espoo, Finland. (2001) 2. Klungness, J.H., et al. Lightweight, high-opacity paper by fiber loading: filler comparison. Nordic Pulp and Paper Research Journal. 15, (2000). 3. Sadonikov, A., et al. Mottling Assessment of Solid Printed Areas and Its Correlation to Perceived Uniformity. in Proc. of the 14th Scandinavian Conf. of Image Processing pp LNCS Joensuu, Finland. (2005) 4. Considine, J.M., et al. Use of digital image correlation to study the local deformation field of paper and paperboard. in 13th Fundamental Research Symposium. pp Cambridge. (2005) 5. Calderon-Martinez, J.A. and P. Campoy-Cervera. Use of digital image correlation to study the local deformation field of paper and paperboard. in ISCAS '03. Proceedings of the 2003 International Symposium on Circuits and Systems. pp. V-749- V-752 IEEE. Bangkok, Thailand. (2003) 6. Sari-Sarraf, H. and J.S. Goddard, Jr. Vision system for on-loom fabric inspection. Industry Applications, IEEE Transactions on. 35, (1999). 7. Chi-Ho, C. and G.K.H. Pang. Fabric defect detection by Fourier analysis. Industry Applications, IEEE Transactions on. 36, (2000). 8. Anagnostopoulos, C., et al. High performance computing algorithms for textile quality control. Mathematics and Computers in Simulation. 60, (2002). 9. Abouelela, A., et al. Automated vision system for localizing structural defects in textile fabrics. Pattern Recognition Letters. 26, (2005). 10. Ngan, H.Y.T., et al. Wavelet based methods on patterned fabric defect detection. Pattern Recognition. 38, (2005). 11. Kumar, A. and G.K.H. Pang. Defect detection in textured materials using Gabor filters. Industry Applications, IEEE Transactions on. 38, (2002). 12. Scharcanski, J. Stochastic Texture Analysis for Measuring Sheet Formation Variability in the Industry. Instrumentation and Measurement, IEEE Transactions on. 55, (2006). 13. Martinez-Alajarin, J., J.D. Luis-Delgado, and L.M. Tomas-Balibrea. Automatic system for quality-based classification of marble textures. Systems, Man and Cybernetics, Part C, IEEE Transactions on. 35, (2005). 14. Funck, J.W., et al. Image segmentation algorithms applied to wood defect detection. Computers and Electronics in Agriculture. 41, (2003). 15. Clausi, D.A. and M. Ed Jernigan. Designing Gabor filters for optimal texture separability. Pattern Recognition. 33, (2000). 16. Manjunath, B.S. and W.Y. Ma. Texture features for browsing and retrieval of image data. Pattern Analysis and Machine Intelligence, IEEE Transactions on. 18, (1996). 100

114 17. Jain, A.K. and F. Farrokhnia. Unsupervised texture segmentation using Gabor filters. Pattern Recognition 24, (1991). 18. Dunn, D., W.E. Higgins, and J. Wakeley. Texture segmentation using 2-D Gabor elementary functions. Pattern Analysis and Machine Intelligence, IEEE Transactions on. 16, (1994). 19. Dunn, D. and W.E. Higgins. Optimal Gabor filters for texture segmentation. Image Processing, IEEE Transactions on. 4, (1995). 20. Hofmann, T., J. Puzicha, and J.M. Buhmann. Unsupervised texture segmentation in a deterministic annealing framework. Pattern Analysis and Machine Intelligence, IEEE Transactions on. 20, (1998). 21. Pichler, O., A. Teuner, and B.J. Hosticka. An unsupervised texture segmentation algorithm with feature space reduction and knowledge feedback. Image Processing, IEEE Transactions on. 7, (1998). 22. Teuner, A., O. Pichler, and B.J. Hosticka. Unsupervised texture segmentation of images using tuned matched Gabor filters. Image Processing, IEEE Transactions on. 4, (1995). 23. Clausi, D.A. and D. Huang. Design-based texture feature fusion using Gabor filters and co-occurrence probabilities. Image Processing, IEEE Transactions on. 14, (2005). 24. Gonzaga de Oliveira, S.L. and J. Teixeira de Assis. A methodology for identification of fingerprints based on Gabor filter. Latin America Transactions, IEEE (Revista IEEE America Latina). 4, 1-6 (2006). 25. Kandaswamy, U., D.A. Adjeroh, and M.C. Lee. Efficient Texture Analysis of SAR Imagery. Geoscience and Remote Sensing, IEEE Transactions on. 43, (2005). 26. Kamarainen, J.K., V. Kyrki, and H. Kalviainen. Invariance properties of Gabor filter-based features-overview and applications. Image Processing, IEEE Transactions on. 15, (2006). 27. Blakemore, C. and F.W. Cambell. On the existence of neurones in the human visual system selectively sensitive to the orientation and size of retinal images. Journal of Psychology. 203, (1969). 28. Cambell, F.W. and J.G. Robson. Application of Fourier analysis to the modulation response of the eye. Journal of the Optical Society of America. 54, (1964). 29. Cambell, F.W. and J.G. Robson. Application of Fourier analysis to the visibility of gratings. Journal of Psysiology. 197, (1968). 30. Hubel, D.H. and T.N. Wiesel. Receptive Fields of Single Neurones in the Cat's Striate Cortex. Journal of Psychology. 148, (1959). 31. Hubel, D.H. and T.N. Wiesel. Receptive fields, binocular interaction and functional architecture in the Cat's Visual Cortex. Journal of Physiology. 160, (1962). 32. Hubel, D.H. and T.N. Wiesel. Receptive field and functional architecture of monkey striate cortex. Journal of Physiology. 195, (1968). 33. Maffei, L. and F. Fiorentini. The visual cortex as a spatial frequency analyser. Vision Research. 13, (1973). 34. Gabor, D. Theory of communication. Journal of the Institute of Electrical Engineering 93, (1946). 101

115 35. Daugman, J.G. Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by twodimensional visual cortical filters. Journal of the Optical Society of America. 2, (1985). 36. Wilson, H.R. and J.R. Bergen. A four mechanism model for threshold spatial vision.. Vision research. 19, (1979). 37. Petkov, N. and P. Kruizinga. Computational models of visual neurons specialised in the detection, of periodic and aperiodic oriented visual stimuli: bar and grating cells. Biological Cybernetics. 76, (1997). 102

116 Evaluation of Random Forest Classifiers for Feature Point Matching Iñigo Barandiaran 1, Charlotte Cottez 1, Céline Paloc 1 1 VICOMTech, Mikeletegi Pasealekua, 57, Parque Tecnológico 20009, San Sebastian, Spain {ibarandiaran, ccottez, cpaloc}@vicomtech.org Abstract. Augmented reality (AR) is a very promising technology that can be applied in many areas such as healthcare, broadcasting or manufacturing industries. One of the bottlenecks of such application is a robust real-time optical markerless tracking strategy. In this paper we focus on the development of tracking by detection for plane hom*ography estimation. Feature or keypoint matching is a critical task in such approach. We propose to apply machine learning techniques to solve this problem. We present an evaluation of an optical tracking implementation based on Random Forest classifier. The implementation has been successfully applied to indoor and outdoor augmented reality design review application. 1 Introduction The main goal of the Augmented Reality (AR) technology is to add computergenerated information (2D/3D) to a real video sequence in such a manner that the real and virtual objects appear coexisting in the same world. In order to get a good illusion, the registration problem must be addressed. The real and virtual objects must be properly aligned with respect to each other. In this way, the position-orientation (pose) of the camera respect to a reference frame must be accurately estimated or updated over time. In this work, we address the registration problem for interactive AR applications, working on a fully mobile wearable AR system based on a visionbased (optical) tracker. Our approach to solve the registration problem is based on the tracking of plane surfaces [7]. Either in an indoor or outdoor scenario, planes are common structures. The ground, the building facades or walls can be seen as planes. These 3D world planes and its projection in the image are related by a hom*ography. Recovering this transformation it is possible to estimate the position and orientation (pose) of the camera. Keypoint matching is the most important feature of the markerless module. As described in [1], we propose to treat wide line base-line matching of features points as a classification problem. We have implemented the Random Forest classifiers and car- 103

117 ried out an evaluation in the context of optical markerless tracking for Augmented Reality applications. The article is structured as follows. Section 2 gives an overview of current optical tracking techniques and methods in augmented reality applications. Section 3 describes the approach to keypoint matching based on Random Tree classifiers. Section 4 presents an evaluation of the implementation. In Section 5, a practical augmented reality application using our implementation is described. Section 6 summarizes some conclusions and future work. 2 Related Work Though the real-time registration problem using computer vision techniques has received a lot of attention during last years is still far from being solved. Ideally, an AR application should work without the need of adaptation neither the object nor the environment to be tracked, by placing special landmarks or references. This issue is known as markerless tracking. We can divide the optical markerless tracking technology in two main groups: recursive techniques or model-based techniques. Recursive techniques start the tracking process from an initial guess or a rough estimation, and then refine or update it over time. They are called recursive because they use the previous estimation to propagate or calculate the next estimation. During the estimation process several errors may occur, such as wrong point matching or ill conditioned data that can degenerate the estimation. Due to the recursive nature of this kind of tracking, they are highly prone to error accumulation. The error accumulation over time may induce a tracking failure, requiring a new tracking process initialization, which can be cumbersome and not feasible in practical applications. Other approaches are known as tracking by detection or model-based tracking. In this kind of techniques some information of the environment or the object to be tracked is known a priori. They are also known as model-based tracking because the identification in the images of some features (texture patches or corners) corresponding to a known model are used to recognize such object. This kind of tracking does not suffer from error accumulation (drift) because, in general, does not rely on the past. Furthermore, they are able to recover from a tracking fail since they are based on a frame by frame detection not depending on the past. They can handle problems such as matching errors or partial occlusion, being able to recover from tracking failure without intervention [9]. Tracking by detection needs information data about the object or objects to be tracked prior to the tracking process itself. This data can be in the form of a list of 3D edges (CAD model) [10] colour features, texture patches or point descriptors [12]. A good comparison about different point descriptors can be found in [6]. The tracker is trained with that a priori data, to recognize the object from different points of view. A good survey about different moded-based tracking approaches can be found in [3]. Some authors propose to use machine learning techniques to solve the problem of wide baseline keypoint matching [2]. Supervised classification system requires a previous process, in which a system is trained with a determined set of known ex- 104

118 amples (training set) that present variations in all their independent variables. Once the process is finished, the system is trained and ready to classify new examples. The most widely used supervised classifiers are for example, k-nearest Neighbors, Support Vector Machine or decision trees. While k-nearest Neighbors or Support Vector Machine can achieve good classification results, they are still too slow and therefore not suitable for real-time operation [4]. Recently the approach based on decision trees has been successfully applied on tracking by detection during feature point matching task [2]. Based on this recent progress in the field, we propose to integrate Random Forest classifiers in the implementation of a tracking module and carry out some evaluation studies. Fig. 1. Example on an indoor augmented reality scene. Fig. 2. Example on an outdoor augmented reality scene (San Telmo square in San Sebastian, Spain.) 105

119 3 Description In this section we describe a Random Forest classifier implementation as a core of a tracking module. 3.1 Random Trees As in [1], we propose a supervised classification method based on Random Forest for interest point matching. The classifier is able to detect key-point occurrences even in the presence of image noise, variations in scale, orientation and illumination changes. This classifier is a specific variation of a decision tree. This type of classifiers is known as trees because of their hierarchy structure. This structure is built up starting from a special point, known as the root node, and the descending nodes, known as children nodes. As mentioned in [5] the main characteristics of a Random Forest classifier are: Its accuracy is as good as Adaboost. Robust to outliers and noise. Faster than bagging and boosting. It s able to give information related to strench, variable importance and correlation between trees. It s simple to implement and easily parallelizable. Fig. 3. Example of a decision tree. The people will select the class play or not play depending on the weather conditions. When the tree is constructed and trained it can correctly classify a given data (descriptor) by pushing it down the tree. In order to do it, while the data is descending down on the tree, in every node there is a discriminant criteria which allows to know to which child the descriptor has to go. This criteria belongs to one of the independent variables, or to a set of them. This set can be chosen, for example, according to a value called the information gain [5]. In machine learning this value can be used to define a preferred sequence of attributes to investigate rapidly the state of a given data. The information gain can be seen as a measure of entropy. A high value of in- 106

120 formation gain in an attribute or a set of attributes meaning a reduction in the entropy. This reduction in the entropy favours the classification ability. The random forest is a special type of decision tree. They are called random because instead of do exhaustive search for the best combination of features to be tested in each node to determine the discriminant criteria, just some random combinations of them are evaluated. When the number of different classes to be recognized and the size of the descriptor of such classes are high, an exhaustive analysis is not feasible. In addition, the examples that are going to be used during the training process are selected at random from the available ones. Also, the term forest means that the classifier is a combination of classifiers. Each of those classifiers is a random tree. Therefore a random forest is a multi classifier of ( T 1...T N ) random tree classifiers. One of the advantages of the random forest is their combination behaviour. Even when a random tree can be weak by itself, their recognition rate is low; the combination of such weak classifiers can generate a strong one. 3.2 Training In supervised classification each class must be defined before the training process itself. When the extractor gets the candidate points and their surrounding patches, the classifier assigns a class number to each point, and their class descriptor is defined. In our implementation we have defined the class descriptor as the intensity value of the pixels surrounding the interest point given a fixed radius. Fig. 4. (left) Interest point. (Right) Pixels surrounding interest point p. [11]. Fig. 5. Examples of classes and their descriptors. Once the classes to be recognized by the classifier are defined, the training set must be generated. As described in [1] we can exploit the assumption that the patches belong to a planar surface, so we can synthesize many new views of the patches using warping tech- 107

121 niques as affine deformations. These affine transformations are needed to allow the classifier to identify or recognize the same class but seen from different points of view and at different scales. This step is particularly important for tracking, where the camera will be freely moving around the object with six degrees of freedom. Fig. 6. Randomly generated training examples of four classes by applying affine transformations. Once the training set is ready, the training task can be performed. During this task, a number of examples are randomly selected from the available ones. These examples are pushed down in the trees. In order to decrease the correlation between trees, and therefore increase the strength of the classifier, different examples must be pushed down in each tree. This randomness injection favors the minimization of trees correlation. During the construction of the tree, the test set, i.e., the features to be tested in each node must be defined. While building up the tree, each node of the tree is treated as follows: N training descriptors from the training set are in the node. S random sets of two descriptor's variables are selected. For each set, its information gain is calculated. The variables set with the greatest information gain value are selected. The descriptors are tested with the selected set of features. Depending on the result of this test, they are pushed down to their corresponding child node. The same process is recursively done for the children nodes, until there is only one descriptor, only one class is represented in the descriptors or the maximal predefined depth is reached. Fig. 7. Example of tree construction. 108

122 The tests are simple comparison of the intensity values of the pixels indicated by the feature set. Once the descriptors reach the bottom (maximal depth) of the tree, it is said that they reached a leaf node and the recursion stops. In leaf nodes the class posterior class distributions are stored. These distributions represent the number of class examples from the training set that has reached that node. Once an example of a given class reaches a leaf node, the posterior probability distribution stored in that node must be updated accordingly. 3.3 Classification Once the classifier is built, i.e, the class posterior distribution are calculated, it is ready to classify new examples different from the ones in the training set. During the classification task any new example is dropped down in every tree that constitutes the forest. These examples will reach a leaf node depending on the results of the tests obtained in the previous nodes they visit. The posterior distributions stored in leaf nodes are used to assign a class probability value to the examples that reach that node, P( Y = c T = T, 1 l n = η) where T l is a given tree of the forest and η is the reached node by the example (patch) Y and c is the assigned class label. As any multi-classifier, the random forest needs to combine the independently generated output by each tree in the forest, in order to assign a final class label to the examples to be classified. 4 Evaluation We have implemented our own API to evaluate the influence of different factors on the behaviour of random forest classifiers during the training period as well as during the execution period. Depending on different factors such as, number of classes, number of trees in the forest, or the size of the training set, the point classification rate may vary. In addition, other factors such as the training time and the execution time are also very important factors to be evaluated. 4.1 Combination Methods During the run time point classification (point matching) a probability and therefore a class label must be assigned to every point (texture patch) that needs to be matched against the model (trained points). In this way, once the point extractor generates the potential matches, they all must be dropped down in the trees. Each tree will independently give a probability value to a given patch, and then all these values must be combined to assign the most probable match. We have implemented and evaluated the following combination methods: 109

123 The maximal number of occurrences method: it consists in taking in every tree the greatest number of occurrences (and its corresponding class), add one to the corresponding class (as it corresponds to one occurrence in the whole forest), and then taking the greatest number of occurrences (and its corresponding class) among all. The maximal value of maximal values of probabilities method: in every tree, the greatest probability and its corresponding class are taken. The most probable class will correspond to the one who has the greatest probability among all the trees. The maximal value of average values of probabilities method: it consists in calculating the probability average of each class, and then taking the greatest value. The maximal value of probabilities product. All the probabilities of each class are multiplied, and the greatest value is taken. The ranking method: it consists in putting a trust weight on the probabilities. This will depend on the value of the probability. In fact, in each leaf, the greatest probability will have the greatest trust weight and the smallest one will have the smallest value. Every class probability is multiplied by its trust weight and added. Finally, we take the greatest value, and its corresponding class. Our first study consisted in comparing the classification rate of the respective methods. The tests were done with the same number of trees and with the same value of depth. Due to the random behaviour of the random forest classifier, the tests were run 10 times. All the tests were carried out with 100 different classes, 15 different trees, and 10 as the maximum reachable depth. The results are shown on the next figure. Combination Methods 85 %Good classification Rate Maximal number of Occurrences Maximal Probability Maximun of the Average of probability Maximun of the Product of Probabilities Ranking Method Number of Test Fig. 8. Comparison between Combination Methods performance. As see in the Figure 8, the Maximum of the average probability method reaches the best results, being the most stable method among the tested ones. 110

124 4.2 Classification Rate We also evaluated the influence of the number of trees on the classification rate. The results are shown on the next figure. It is seen that reaching a certain number of trees for a same training set, the increase in performance is not significant. Recognition Rate % Good Classification Rate Number of trees Fig. 9. Classification rate in function of the number of trees. 4.3 Training Time The training time was then evaluated. This factor mainly depends on the size of the training set, this is, on the number of examples that are going to be dropped down in the trees to estimate the final posterior probability distributions of each class. The size of the training set has also impact on the recognition rate, but no significant improvement of classification rate are seen from about 500 training examples, given the same forest, i.e, the same number of trees with the same value of depth each tree, while the training time notably increases. As in the previous one, this test shows that the classifier has an optimal maximum that once reached (converged) the performance gain is very slow. Training Time training time (s) Number training examples Fig. 10. Training time in function of the size of the training set. 111

125 4.4 Computational Cost In order to evaluate the computational cost of the method, we conducted some tests using different hardware with the same memory amount but different CPUs. Because of the highly CPU demanding tasks during the tracking, the results show clearly that the performance drastically decreases with a poor hardware. CPU Type Frames Per Second Intel Core 2 DUO 1600Mhz AMD Mhz Intel Pentium Mhz Intel Centrino 1000 Mhz Fig. 11. Computational cost and CPU. 4.5 Discussion The random tree classifier performs well when the number of different points (classes) is moderate, around 100 different points. When this number increases, the classification rate starts to decrease. We think this is motivated because the strength of the trees decreases individually due to the excessive number of different classes, so that the classification ability or the forest also decreases. When the classification rate is low, the number of miss-matched points (outliers) increases. Once the population of outliers is high, the number of iterations of either RANSAC or non-linear estimation methods before convergence is very high. This is especially crucial with the Levenberg-Marquardt algorithm because it is a very time consuming task. This algorithm is used to refine the estimation obtained by RANSAC by non-linear minimization over the inlier points. This method needs an initial estimation of the transformation to be minimized before convergence. If the initial estimation is far from the true one, it requires a lot of iterations until convergence. 5 Application The approach described previously was applied within an innovative system using head mounted displays (HMD) for collaborative mobile mixed reality design reviews. The following scenarios have been considered: 112

126 In the automotive domain to review a virtual prototype in a real show room. In the architectural domain to display the model of a building on site to discuss design alternatives. Our tracking module uses natural features to estimate the position and orientation of the camera, mounted on the HMD. Once this transformation is computed, the virtual object can be registered and viewed through the HMD as part of the real world. During the tracking process, the transformation must be updated over time. Fig. 12. See-through Head Mounted Display with digital camera attached (Trivisio Prototyping GmbH). By using natural features, the use of artefacts such as reflective markers is avoided, allowing the system to be more flexible and being able to work in non-well controlled conditions, such as outdoor environments. Fig. 13. Feature or interest point extracted from a building facade. The internal camera parameters estimation task is performed only once, when the camera is to be used for the first time. It consists of taking several images (about 40) of a calibration pattern. This step takes about 5 minutes. As described earlier, tracking by detection techniques requires an off-line process where the classifier is trained. During this period, one image of a highly textured plane, such as a building facade or a picture over a table, must be acquired. After the acquisition, some features points and their surrounding texture patches are extracted from the image [11], and synthetic views of the plane are generated. 113

127 Based on the results described previously, the classifier is trained to be able to recognize about different classes (points). The forest is constructed with trees, and a training set compound of 500 synthetically generated examples, in less than 30 minutes. This size of the training set is a good compromise between training time and final accuracy of the classifier. Training time is a very important factor in practical situations such as outdoor setup preparation time. Once the training set is ready, the system is ready for tracking. The obtained frame rate is about frames per second (near real-time) on a 1.6Ghz dual core CPU. This frame rate may vary depending on the accuracy of the tracker, i.e, depending on the number of different points to be recognized. The drift and jitter are well controlled, so no severe movements of the objects occur. On a lower CPU, such as the one installed on a JVC portable device, the obtained frame rate is 5 frames per second, for the same number of points. Fig. 14. Outdoor Tracking of a building facade. Independently on the robustness of the classifier, the wrong classified points (outliers) can be removed by using asy robust estimation techniques, such as RANSAC or MLESAC[8]. The final estimation is refined by using Levenberg-Marquardt non-linear minimization method, starting from the estimation obtained by RANSAC. This final minimization is very useful to avoid virtual object jittering, what is an uncomfortable behaviour during augmented reality scene visualization. In comparison with a recursive tracking approach, the tracking by detection allows the tracking to run faster and being more robust against partial object occlusion, or fast camera movement. The tracker can run indefinitely without requiring a new initialisation. Fig. 15: Indoor tracking of a textured floor. 114

128 6 Conclusion and Future Work In this work we have presented an approach of tracking by detection for plane hom*ography estimation using the Random Forest based classifier for interest point matching. An evaluation and a practical application of the approach in an augmented reality setup has been described. The proposed method is able to robustly track a plane even if partial plane occlusion occurs, at real-time frame rate. We think that machine learning techniques such as Random Forest is a very promising technique for optical marker-less tracking. We want to extend our work to support on-line training classification [2] On-line training allows the tracking to update the model with new feature points not present in the original training set. As described in [9] on-line training can be exploited in several frameworks such as Simultaneous Localization and Mapping (SLAM). Also the use of the new generation Graphic Processor Units (GPU) to perform some task, such as the generation of warping transformations during training step is planned. Some demonstration videos can be downloaded from: References 1. Lepetit, V., Fua, P.: Keypoint Recognition Using Randomized Trees IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28(9), pages ISSN: ,(2006) 2. Özuysal, M., Fua, P., Lepetit, V.: Feature Harvesting for Tracking-By-Detection. In Proc. European Conference on Computer Vision, pages ISBN: , (2006) 3. Lepetit, V., Fua: Monocular model-based 3D object tracking of rigid objects: A survey. Foundations and Trends in Computer Graphics and Vision., Vol. 1, pages 1 89, (2005) 4. Lepetit, V., Pilet, J., Fua, P.: Point Matching as a Classification Problem for Fast and Robust Object Pose Estimation. In Conference on Computer Vision and Pattern Recognition. ISBN: , (2004) 5. Breiman, L.: Random Forests. Machine Learning Journal, Vol. 45, pages ISSN: (2004) 6. Mikolajczyk, K., Tuytelaars, T., Schmid, C., Zisserman, A., Matas, J., Schaffalitzky, F., Kadir, T., and Gool, L. V: A Comparison of Affine Region Detectors. Int. Journal of Computer Vision. Vol. 65(1-2), pages ISSN: , (2005) 7. Hartley, R., Zisserman, A: Multiple View Geometry in Computer Vision, Cambridge University Press, 2nd edition. ISBN: , (2004) 8. Stewart, C: Robust parameter estimation in computer vision. SIAM Review, Vol. 3(3), pages ISSN: (1999) 9. Williams, B., Klein, G., Reid, I: Real-time SLAM Relocalisation. In Proc. IEEE Interrnational Conference on Computer Vision.() 10. Vacchetti, L., Lepetit, V., Fua, P: Combining Edge and Texture Information for Real-Time Accurate 3D Camera Tracking. In Proc. IEEE and AM International Symposium on Mixed and Augmented Reality. Vol. 4, pages ISBN: , (2004) 11. Rosten, E., Drummond, T: Machine Learning for High-Speed Corner Detection. In Proc. European Conference on Computer Vision. Pages ISBN , (2006) 12. Lowe, D Distinctive Image Features from Scale Invariants Keypoints. International Journal of Computer Vision. Vol. 20(2), Pages , (2004) 115

129 AUTOMATIC METHODOLOGY FOR MAPPING BURNT AREAS USING LANDSAT TM/ETM+ DATA: IDENTIFICATION OF BURN SCARS USING LOGISTIC REGRESSION MODELS A. BASTARRIKA Surveying Engineering Department, University of Basque Country, Nieves Cano 12, Vitoria-Gasteiz, Spain, E. CHUVIECO Department of Geography, University of Alcalá, Calle Colegios 2, Alcalá de Henares, Spain, M. P. MARTÍN Institute of Economics and Geography, Spanish Council for Scientific Research (CSIC), Pinar Madrid, Recent works have demonstrated the benefits of using a two phase methodology to improve burned area mapping from remotely sensing data. In this approach, the first phase aims at detecting the most likely burned areas (core pixels), whereas the second one improves the burned area mapping by analyzing the neighbors of previously detected pixels. This work tries to tackle the first phase by means of several logistic regression models, using original bands and spectral indices and exploring unitemporal and multi temporal approaches. To adjust the models we used 5 pairs of Landsat TM/ETM+ data including a representative sample of burned areas in Mediterranean ecosystems. The validation of the models has been done using a Landsat scene located between Portugal and Spain with a large number of fires of different size. Visual interpretation of a color composite has been used to discriminate the fire perimeters used for validation. Logistic regression models have shown to be an effective technique to identify burned core pixels due to their ability to identify the most appropriate variables for burned area discrimination. All proposed models achieved a correct identification of the areas affected by fires larger than 25 ha where the burned patches detection probability increased up to 95%. The models that include the Red, -NIR and two SWIR regions have shown the most adequate, particularly the model postmirbi-posttm54-premirbi-prendvi that offered confusion rates of 0.1%, almost 100% detection probability of burned patches larger than 25 ha, and 88% for those less than 25 ha, as well as 46.7% of total burnt area detected. Keywords: burnt area mapping, logistic regression, spectral indices 1. Introduction The spectral characterization of burnt areas is widely affected by fire intensity, residence-time and pre-fire biomass loads, all of which affect the amount of green versus scorched leaves, the proportion of ash and char, and the amount of remnant leaves. The time elapsed between fire occurrence and the acquisition of the image can also significantly alter the spectral behaviour of the burned area. Additional variations are expected for various illumination types and observation 116

130 angles, especially in low resolution imagery. Consequently, spectral features of burned scars may be very diverse, and hence the automatic discrimination, especially at regional and global scales becomes very difficult. Previous studies have tried to tackle these problems by modifying global algorithms to local and regional conditions, but yet either omission or commission errors were made, depending on whether the local thresholds match the field conditions. Moreover, these modifications limit the operational application of the proposed algorithms. An alternative to this approach is the discrimination of burned scars in two phases: the first one aims detecting the most likely burned areas (core pixels), whereas the second one should improve the burned area mapping by analysing the neighbours of the previously detected pixels. Based on this method proposed a valid approach for mapping small/medium size burned areas (larger than 1 ha) in Italy. The algorithm was tested in three test-sites in three different years (1998, 1999 and 2000) and it was based on the processing of three pairs of Landsat TM and ETM+ images, acquired before and after each fire-season. Later this methodology was applied in a semi-operative way in the ITALSCAR project to map burned areas during four consecutive years ( ). Recently, Bastarrika and Chuvieco have used on this bi-phase approach in four Mediterranean sites supported by unitemporal TM and ETM+ data. This methodology was also applied to low resolution imagery. Martín ( proposed a similar approach to analyse NOAA-AVHRR images, which was more recently used by with MODIS data for the discrimination of large fires in the Iberian Peninsula. Fraser et al. applied this method in Canada during the fireseason using VEGETATION ten day composite data. Garcia and Chuvieco analysed SAC-C/MMRS images for burned area mapping in three large fires in Spain during the summer of This paper focuses on the first phase of this approach. The objective of this phase is to minimize commission errors, avoiding confusion with other covers presenting similar spectral behaviour such as cloud shadows, water and topographical shade. We made use of reflectance bands and spectral indices for a set of multitemporal Landsat TM images on five sites that include a representative range of burnt areas in Mediterranean ecosystems. Several logistic regression models were developed to discriminate core burn scars. 2. Methods 2.1. Test areas and data The development of various logistic regression models have been accomplished using TM and ETM+ imagery of five Mediterranean areas affected by forest 117

131 fires: four of them are located in Spain (Buñol in Valencia, Atazar, Méntrida and Guadalajara in the Center of the country) and another one in Greece (Kassandra in the Northeast of the country). These areas have been selected to take into account different land cover types that are burned in Mediterranean ecosystems. Atazar fire mainly burned sclerophyllous vegetation (90%), being the rest marginal agricultural areas. In Buñol, almost half of the burned area was also sclerophyllous (47%), and the rest transitional woodland-scrub (25%), coniferous forest (22%) and agricultural land (6%). In Guadalajara mainly forest mass got burned, coniferous (66%) and mixed forest (15%), together with sclerophyllous vegetation (11%) and transitional woodland-scrub (6%). Finally, fires in Kassandra and Méntrida burned mainly agricultural land (66% and 49% respectively), being transitional woodland-scrub (14% and 22%), sclerophyllous vegetation (18% and 6%) and grassland (2% and 14%) the rest. Atazar, Kassandra and Méntrida were medium size fires, with burned areas of 1089 ha, 1675 ha and 1900 ha, respectively, while Guadalajara and Buñol were big fires, with more than and ha burned, respectively. For each of the test areas we chose a pair of Landsat TM/ETM+ images acquired before and after the fire. In all cases, the post-fire images were acquired soon after the fire, with a maximum interval of 20 days after fire extinction, whereas the pre-fire images were about the same year time. The validation of the models was carried out in a dataset of areas located between Portugal and Spain covered by the Landsat scene: a post ETM+ image acquired on the 5 th of September of 2000 and a pre-fire image of the 30 th of July of 1995; here, 417 patches smaller than 25 ha, 102 patches between ha and 104 patches bigger than 100 ha were visually identified, with an approximately 66,910 ha total burned area. The biggest proportion is scrub and herbaceous vegetation (65%), agricultural land (20%) and forest (15%) the rest Geometric and atmospheric correction and reflectance The post-fire images were geometrically corrected to UTM projection (Datum ED50 for Spain, EGSA87 for Greece and WGS84 for the validation scene between Spain and Portugal), within one pixel (RMS<1pixel) using control points and reference cartography. The pre-fire images were adjusted to the former by an image to image geometric correction to minimize misregistration errors. For the complete scene the itpfind tool was used with a relative error below 0.5 pixels. The images were then converted to radiance values using sensor calibration values, and to reflectance using an atmospheric correction procedure based on the Dark Object Subtraction method. 118

132 2.3. Development of logistic regression models Discrimination models based on logistic regression analysis were based on both the original bands and on spectral indices that improved the discrimination of burnt areas, such as Normalized Difference Vegetation Index (NDVI), Global Environmental Monitoring Index (GEMI), Burnt Area Index (BAI), Modified Burned Area Index (BAIM), and the ratios TM7/TM4 and TM5/TM4. Once visually delimited the burned areas (by means of TM7-TM4-TM3 colour composition), we have followed the criteria proposed by to extract the burned sample pixels. To get the non-burned samples we select representative samples of different land covers in each test area using as a reference the Corine Land Cover map. Burned samples were taken from random extractions within the burned perimeters. 60,000 samples were obtained: 30,000 burned and 30,000 nonburned. Models have been calibrated using 50% of the samples, while the other 50% were kept for initial consistency tests. The models were developed considering the different spectral spaces of the most common sensors used for the burned area mapping; Red-NIR spectral domain (NOAA-AVHRR/2, IRS-WiFS, ENVISAT-MERIS, SPOT-HRV), Red-NIR- SWIR domain (NOAA-AVHRR/3, SPOT-VEGETATION, IRS-AWiFS, SPOT- HRVIR) and Red-NIR-2SWIR domain -with two bands in the SWIR region- (Landsat TM y ETM+, TERRA/AQUA-MODIS, TERRA-ASTER). In this way, we have developed 10 different models using the Stepwise logistic regression method and adding the bands and indices that belong to each spectral domain considered. Some of the models have been constructed using only post-fire images and others with multiemporal data (before and after the fire) to allow for both situations in which data before the fire is or not available. The logistic regression models provided a probabilistic result between 0 (nonburned) and 1 (burned). Generally the threshold of 0.5 is used to classify the output variable because it represents an ideal balance between omission and commission errors. The goal of this phase was to minimize commission errors; however, it is also necessary to detect the maximum number of burned patches and this is the reason why thresholds applied are rather strict. Not all the models presented the same ability for burned patches identification; for this reason the thresholds were set up statistically at median of the burned samples used for the adjustment of models. These thresholds proved to be appropriate among all the validation data set and allowed an objective comparison between the models Validation For the scene validation perimeters were generated by visual interpretation of TM7-TM4-TM3 colour composites in the post-fire image, 119

133 supported by the Portugal official perimeters. They do not provide the registration date of the fire and we have not been able to identify the fires that still do not appear in our image. This is the reason they have not been used as reference validation data. 3. Results and discussion In general, all the models provided a correct identification of the largest fires (table 1), specially those bigger than 25 ha where the detection of the burned patches reach 95%. It is important to note that there was not cloud problems in this scene, therefore, the models based on the Red-NIR spectral regions don t have problems with the clouds shadows, one of the common problems of this spectral domain. On this domain, the models which include BAI, specially the post-fire approach (postbai), show large confusion with water areas. This confusion mainly arises due to the difficulty of discerning limits betteen water bodiesand land, and also due to the construction of new water reservoirs between pre and post fire images. The postnir-prenir-prendvi-postred-postgemi model shows similar confusion rates than de postbai-prebai model, but with a less significant confusion with water areas, and also between soil and scrub, although it increases the confusion with agricultural areas. In Models that incorporate a SWIR band to the Red-NIR domain, such as the unitemporal and multitemporal BAIM models showed more confusion rate than the previous domain models, with less confusion with water areas but increased the confusion with all other land cover types, especially soil, scrub and old burned areas. Within the models that include 2 SWIR bands, the model composed by MIRBI (postmirbi-posttm54-premirbi-prendvi) showed high confusion rates with water cover due to MIRBI index, but showed less confusion in the rest of covers than the other models, although, they detected significant less burned area than the other two models (40% vs. 70%); however, they were able to detect almost all the burn patches bigger than 25 ha, and 88% of those smaller than 25 ha. The other two models, the unitemporal postnir-postswir(tm7)- postgemipostswir(tm5) and multitemporal postnir-postswir(tm7)- postswir(tm5)- postgemi-prendvi-prenir showed an effective detection of the burned areas (almost 100%), and showed less confusion with water areas (specially the unitemporal); however, they increased confusion with soil and area burned in previous years (specially the unitemporal). 4. Conclussions The logistic regression models have demonstrated to be an effective technique to 120

134 Model composed by identify burn core pixels due to their sensitivity to identify the most sensible input variables for discrimination. This work incorporates different unitemporal and multitemporal models taking into account different spectral domains and thus they can be used with different type of sensors. In our validation data, the models that include NIR and two SWIR bands presented the lowest confusion rates, specially the model postmirbi-posttm54-premirbi-prendvi, maintaining a high detection rate with almost 100% detection of burned patches larger than 25 ha, and 88% of those less than 25 ha, as well as 46.7% of burned area detected. Furthermore, it shows significant confusion with water bodies but this can be avoided using an adequate land cover data to mask those areas. More validation work is being done to check the consistency of the results. The extension of this work would require to test its performance in different Mediterranean land covers as well as with other sensors, specially those with a low spatial and high temporal resolution that could eventually help identifying burned areas avoiding too strict thresholds. Table 1. Validation results in scene. %detected burned patches = (patches detected)/(total of patches)x100; %detected area total = (burned correctly detected pixels/total burned pixels)x100; %confusion area total = (incorrectly burned detected pixels/total not burned pixels)x100; %confusion type cover = (incorrectly burned pixels in the cover type/ total cover type pixels). % Detected Burned patches <25 ha ha %Detected Area %Confusion Area >100 ha Total Total Water Soil Agric. Forest Scrub Burnt postbai 91 % 100 % 100 % 57,5 % 0,6 % 21,65 % 1,8 % 0,13 % 0,2 % 0,71 % 0,84 % postbai - prebai 89 % 100 % 100 % 55,6 % 0,3 % 12,94 % 0,9 % 0,07 % 0,12 % 0,3 % 0,48 % postnir-prenirprendvi-postredpostgemi 91 % 100 % 100 % 51,7% 0,3 % 8,83 % 0,61 % 0,15 % 0,12 % 0,19 % 0,84 % postbaim 76 % 95 % 100 % 39,1 % 1,2 % 7,26 % 3,68 % 0,27 % 0,47 % 2,26 % 2,21 % postbaim-prebaim 76 % 95 % 100 % 38,8 % 1,1 % 7,12 % 3,47 % 0,24 % 0,44 % 2,03 % 2,03 % postnir- postswir(tm7)- postgemi- 100 % 100 % 100 % 76,9 % 0,5 % 0,12 % 2,55 % 0,18 % 0,08 % 0,43 % 3,47 % postswir(tm5) postnir- postswir(tm7)- postswir(tm5)- 99 % 100 % 100 % 71,2 % 0,3 % 1,03 % 1,44 % 0,21 % 0,05 % 0,2 % 1,72 % postgemi-prendviprenir postmirbi-posttm54- premirbi-prendvi 88 % 100 % 99 % 46,7 % 0,1 % 6,97 % 0,08 % 0,01 % 0,01 % 0,02 % 0,14 % 121

135 References 1. Bastarrika, A. and E. Chuvieco (2006). "Cartografía del área quemada mediante crecimiento de regiones: aplicación en entornos mediterráneos con imágenes TM y ETM+." GeoFocus (Artículos) 6: Benvenuti, M., E. Chuvieco and C. Conese (2000). A new double step methodology based on satellite image proc-essing for forest fire mapping on the Italian territory. EARSeL Symposium Paris. 3. Chavez, P. S. (1996). "Image-Based Atmospheric Corrections- Revisited and Improved." Photogrammetric Engineering&Remote Sensing 62(9): Chuvieco, E., M. P. Martín and A. Palacios (2002). "Assessment of different spectral indices in the red-near-infrared spectral domain for burned land discriminations." Int. J. Remote Sensing 23(23): Fraser, R. H., R. Fernandes and R. Latifovic (2002). "Multi-temporal burned area mapping using logistic regression analysis and change metrics." IEEE Transactions on Geoscience and Remote Sensing: Garcia, M. and E. Chuvieco (2004). "Assessment of the potential of SAC-C/MMRS imagery for mapping burned areas in Spain." Remote Sensing of Environment 92(3): Kennedy, R. E. and W. B. Cohen (2003). "Automated designation of tie-points for immage-to-image registration." Int. J. Remote Sensing 24: Koutsias, N. and M. Karteris (1998). "Logistic regression modelling of multitmporal Thematic Mapper data for burned area mapping." Int. J. Remote Sensing 19(18): Martín, M. P. (1998). "Cartografía e inventario de incendios forestales en la Península Ibérica a partir de imágenes NOAA-AVHRR." Doctoral thesis, Universidad de Alcalá, Alcalá de Henares. 10. Martín, M. P., R. Diaz-Delgado, E. Chuvieco and G. Ventura (2002). Burned land mapping using NOAA-AVHRR and TERRA-MODIS. IV International Conference on Forest Fire Research, Luso, November, Paganini, M., O. Arino, M. Benvenuti, M. Cristaldi, M. Bordin, C. Coretti and A. Musone (2003). "ITALSCAR, a Regional Burned Forest Mapping demonstration project in Italy." IEEE Transactions on Geoscience and Remote Sensing:

136 C. Aplicaciones en biotecnología e informática médica No Author Given No Institute Given C1 Desarrollo de una herramienta para planicación en cirugía hepática. Ivan Macia, Diana Wald, Céline Paloc (VICOMtech). C2 Técnicas para la detección de diferencias estructurales en imágenes de Resonancia Magnética Nuclear. Hallazgos en la enfermedad de Alzheimer. Maite García (Grupo de Inteligencia Computacional). C3 Evaluación de la calidad de cítricos a partir de imágenes de Resonancia Magnética. Elsa Fernández (Grupo de Inteligencia Computacional). C4 Clasicación de conductas animales mediante modelos ocultos de Markov. Flavio Banterla (Nesplora), Carmen Hernández (Grupo de Inteligencia Computacional). C5 Uso de las Memorias Morfológicas Asociativas para el análisis de estrategias de afrontamiento en el estrés social en ratones. Miguel Angel Veganzones (Grupo de Inteligencia Computacional), Zurine de Miguel (Procesos Psicológicos Básicos y su Desarrollo). C6 Efecto de la familiaridad sobre el consumo y la palatabilidad de una sustancia sápida en crías de ratas. Elena Díaz, Gabriela Chotro (Procesos Psicológicos Básicos y su Desarrollo). C7 Visión por computador y clasicación aplicadas a la micología. Ramón Moreno (Grupo de Inteligencia Computacional). 123

137 Desarrollo de una Herramienta para Planificación en Cirugía Hepática Iván Macía 1, Diana Wald 1, Céline Paloc Departamento de Aplicaciones Biomédicas, Asociación VICOMTech, San Sebastián, {imacia, dwald, cpaloc}@vicomtech.es Abstract. El desarrollo de una herramienta de planificación para cirugía hepática requiere un conocimiento preciso de las estructuras intrahepáticas y su relación respecto a posibles lesiones. Para ello, es necesario desarrollar algoritmos que permitan la segmentación y análisis de las estructuras intrahepáticas específicas de cada paciente de manera semiautomática a partir de las imágenes volumétricas de Resonancia Magnética o Tomografía Computerizada. En el presente trabajo, se describen los métodos desarrollados para la segmentación del parénquima y detección de vasos hepáticos a partir de imágenes de Resonancia Magnética con contraste. 1 Introducción En la cirugía hepática moderna, el conocimiento preciso de la morfología de las estructuras intrahepáticas y posibles lesiones es crucial a la hora de decidir si el paciente puede ser operado o no y cual es la mejor estrategia a seguir en términos de riesgo de la operación y supervivencia a largo plazo del paciente. En la fase de planificación de la operación, se utilizan imágenes de alta calidad del paciente para decidir si la operación es factible. Por ejemplo, en el caso de resecciones de tumores se intenta determinar cuál es la extensión del tumor, cuáles son los segmentos del hígado afectados [1] y cual sería la mejor línea de resección. Tradicionalmente, para la planificación en cirugía hepática, se ha venido utilizando como modalidad de imagen médica la Tomografía Computerizada (TC). Sin embargo, es cada vez más importante la utilización de secuencias dinámicas con contraste de imágenes de Resonancia Magnética (IRM) [2] para el diagnóstico y la planificación, debido a que presentan una mejor caracterización de las lesiones en tejidos blandos como el hígado y a que no se expone al paciente a radiación. Además los protocolos actuales permiten realizar adquisiciones volumétricas en un tiempo reducido. Dicha modalidad es la empleada en el Hospital de Cruces para la planificación en Cirugía Hepatobiliar. Un requisito previo para la planificación es la obtención de modelos tridimensionales de las estructuras hepáticas (parénquima, vasos sanguíneos, posibles lesiones ) a partir de las imágenes de TC o RM mediante algoritmos de segmentación. De esta manera, se puede visualizar de forma sencilla el alcance de las lesiones y su localiza- 124

138 ción espacial en relación a las estructuras intrahepáticas. Dada la dificultad intrínseca de la segmentación, resulta necesario desarrollar métodos automáticos o semiautomáticos específicos para la segmentación de las estructuras hepáticas que sea robusto ante la variabilidad en los parámetros de las imágenes o en la morfología de las estructuras entre sujetos. Existen algunos trabajos de investigación que realizan una segmentación, análisis y visualización avanzada de las estructuras intrahepáticas con el objeto de planificar la intervención [3][4][5]. La mayoría utilizan escáneres TC para la adquisición de las imágenes que se utilizarán para el análisis. Sin embargo, a día de hoy no existen sistemas específicos que utilicen la RM y los métodos de análisis utilizados suelen adolecer de poca robustez o necesitan una elevada interacción del usuario. Esto se debe a algunas características de la imagen RM que hacen que sea más difícil automatizar el proceso de segmentación, entre las que se puede citar : La variabilidad de la señal inherente al proceso de generación de la imagen (diversidad de secuencias utilizadas en la adquisición, parámetros de la máquina ). Esto hace que los valores de la señal no puedan representarse en unidades estándar comparables, como en el caso de la TC. La presencia de una polarización (bias) en la señal o componente de baja frecuencia característica en las imágenes RM. Esto hace que cualquier algoritmo basado en los valores de intensidad absoluta de la imagen fallen (ej. selección de umbrales, crecimiento de regiones, clasificación por intensidades, etc.). Los artefactos inherentes a esta modalidad o aquellos debidos al movimiento del paciente. En el presente trabajo se describen los métodos que estamos desarrollando para la segmentación de estructuras hepáticas utilizando imágenes de RM que pretenden superar las dificultades mencionadas. El objetivo último es desarrollar un sistema de planificación para planificación quirúrgica robusto, basado en imágenes de RM. 2 Algoritmos para la segmentación de estructuras hepáticas 2.1 Segmentación del parénquima hepático Para la segmentación del parénquima hepático se ha utilizado el algoritmo de Watersheds [6] precedido de una serie de operaciones de preprocesamiento. Inicialmente, se realiza un filtrado de la imagen se mediante un algoritmo de Difusión Anisotrópica de Curvatura [7]. Este algoritmo pertenece a la familia de filtros de suavizado anisotrópico, que tienen la cualidad de atenuar el ruido y detalles poco significativos de la imagen preservando los contornos más importantes de ésta. Seguidamente se obtienen los contornos de la imagen mediante el cálculo de la magnitud del gradiente gaussiano. Este procesamiento combina en una sola operación un filtrado gaussiano de la imagen con el cálculo de la magnitud del gradiente. El 125

139 filtrado gaussiano actúa como un operador que permite seleccionar la escala σ [8] de las características de interés de la imagen. Respecto al algoritmo Watersheds, en el presente trabajo, hemos una utilizado una técnica interactiva descrita por primera vez en [9]. Dicha técnica consiste en ir seleccionando del resultado del algoritmo Watersheds las regiones volumétricas pertenecientes al parénquima. Para la segmentación con Watersheds se necesita especificar dos parámetros : el nivel (level) o profundidad de los watersheds y un parámetro umbral (threshold) que evita sobresegmentaciones al descartar aquellos valores de la imagen de entrada que queden por debajo de dicho umbral. La selección de dichos parámetros se realiza por inspección visual. Ambos parámetros se seleccionan de tal manera que se obtenga una región que corresponde a la mayor parte del volumen del parénquima, para luego ir corrigiendo mediante la adición de pequeñas regiones que hayan quedado fuera Detección de las venas hepáticas Para la detección tubular se utiliza el concepto de funciones medialness que miden en cada punto el grado de pertenencia al eje o línea media (medial axis) de un tubo. La línea media se define como el lugar de los centros de discos de radio máximo que se pueden inscribir en el objeto. Por otro lado, el eje medio multiescala (multiscale medial axis) puede definirse aplicando la función de medialness en múltiples escalas [8] y seleccionando para cada punto la escala que de respuesta máxima. Siguiendo la definición de Krissian et al. [10], dada una imagen a una escala σ, la función de medialness inicial en un punto x puede calcularse como : π R0 (, σ, θ ) = I σ θσ α dα π ( x + v ) 2 α = 0 x (1) donde vα es un vector rotativo o fasor dado por v α v 2 cosα + v3 sinα = (2) Aquí, v2 y v3 son los autovectores correspondientes a los autovalores de menor valor λ2 y λ3 de la matriz hessiana de la imagen I en el punto x dada por I xx ( x) I xy ( x) I xz ( x) 2 Η( x) = I ( x) = I yx ( x) I yy ( x) I yz ( x) (3) I zx ( x) I zy ( x) I zz ( x) Los autovalores y autovectores de dicha matriz corresponden a las curvaturas principales de la imagen y pueden ser usados para determinar puntos extremos o con características geométricas especiales, como pueden ser las estructuras tubulares [12]. En el caso de que el punto x pertenezca a una estructura tubular, los autovectores v2 y v3 definen el plano de la sección del tubo mientras que el autovector v1 sigue la dirección del eje de éste. 126

140 La ecuación de medialness descrita calcula sobre dicho plano la media de los valores del gradiente de la imagen en una circunferencia definida por los vectores v2 y v3, con centro en el punto actual x y con un radio r = σθ, donde σ es la escala actual y θ un factor de proporcionalidad que se usa como parámetro. Si el punto x corresponde al centro de un vaso, y el valor del radio (proporcional a la escala) elegido es el adecuado, el valor de la función de medialness será elevado. En [10], se demuestra que el valor de θ que maximiza la respuesta de medialness tomando un modelo de sección gaussiano es. Este modelo de sección es generalmente válido para vasos de pequeño tamaño. Los vasos de mayor tamaño se modelizan mejor con una sección tipo barra, pero el valor anterior también puede resultar adecuado. En la práctica, se utiliza una versión discretizada de la ecuación de medialness: R 1 N (, σ, θ ) = Iσ ( x + θσ vα ) i N i= 0 x (4) donde N es el número de muestras a lo largo de la circunferencia, dado por N = 2πσ, tomando como ángulos discretos del fasor αi = 2πi / N. El problema de la función medialness inicial descrita, es que presenta valores elevados para estructuras simétricas, pero también para otro tipo de contornos y estructuras no tubulares. Siguiendo el trabajo de Pock et al. [10], se ha utilizado una función de medialness que permite tener en cuenta la simetría en la distribución de valores alrededor de la circunferencia a través de unos factores de peso. Todas las consideraciones anteriores han sido hechas teniendo en cuenta que se utilizaba una sola escala σ. Para conseguir detectar vasos de diversos diámetros es necesario considerar más de una escala. Así, se ha utilizado la respuesta de medialness multiescala normalizada que se obtiene seleccionando la respuesta máxima entre un rango de escalas seleccionado R multi γ ( x, θ ) = max σ i R( x, σ i, θ ) (5) σ donde σγ es un factor de normalización de las derivadas [8] y γ es un parámetro que generalmente vale 1. Una vez calculada la respuesta medialness multiescala, ésta se utiliza para obtener las líneas centrales de los vasos mediante un proceso de esqueletonización. El algoritmo utilizado elimina iterativamente los puntos simples, que son aquellos cuya eliminación no altera la topología del objeto. Dichos puntos simples, se detectan siguiendo el método descrito en [13]. Normalmente, para conseguir que el esqueleto quede suficientemente centrado, los puntos simples se eliminan por orden de su distancia inicial al borde [14]. En nuestro caso, se eliminan primero aquellos puntos con menor valor de medialness. Por último, el cálculo de las líneas centrales es el punto de partida para realizar un análisis vascular más avanzado que incluya un modelo de vasos con informaciones y diámetros. Actualmente, nos encontramos abordando dicho análisis. 127

141 2.3 Interfaz de usuario Los algoritmos desarrollados se han integrado en una interfaz de usuario que permite cargar los volúmenes DICOM correspondientes a las distintas secuencias, explorar dichos volúmenes en 2D y 3D, realizar las segmentaciones y grabar los resultados. Los algoritmos se han integrado en el interfaz permitiendo cambiar parámetros clave y observar el resultado. En la segmentación interactiva con Watersheds (Figura 1), el usuario puede seleccionar regiones volumétricas en la imagen segmentada con Watersheds observando en todo momento el resultado de la segmentación superpuesto a la imagen original. Además el usuario puede moverse por las vistas axial, sagital y coronal ayudarse de herramientas tipo zoom y traslación. Para el desarrollo del presente trabajo se han utilizado las librerías Insight Toolkit y Visualization Toolkit.. Fig. 1. Interfaz de usuario para segmentación Watersheds. 3 Resultados y discusión Se ha realizado un estudio preliminar con imágenes de pacientes del Hospital de Cruces, obtenidas con un escáner Philips Gyroscan Intera 3T. Para la adquisición se utilizó una secuencia volumétrica con contraste tipo VIBE [17] obteniéndose para cada paciente volúmenes correspondientes a las fases precontraste, arterial, portal venosa y post-portal. Las imágenes tenían una resolución de 256x256x60, con una resolución espacial variable entre mm./píxel y un espesor de corte de 3 mm. Para la segmentación del parénquima se utilizó la fase portal-venosa, pues es la que imagen que mejor contraste presenta entre el parénquima y el tejido circundante. Los tiempos totales de cálculo durante la segmentación fueron en todos los casos inferiores a 90s. en un ordenador con procesador AMD Athlon con 1 Gb. 128

142 de RAM. Gran parte de este tiempo se consumió en el cálculo del filtrado anisotrópico [7], que consume aproximadamente el 75% del tiempo de cálculo. A este tiempo hay que sumarle el tiempo necesario para la selección de parámetros. Tiempos superiores a 10 minutos indican que la segmentación es inviable y generalmente esto se debe a una mala calidad de la imagen de entrada (p.ej. ejemplo fuerte presencia de ruido o bias de campo) que hace difícil discernir los límites del contorno hepático. En la Figura 1, puede verse que con el método descrito se pueden conseguir segmentaciones de alta calidad y todo ello en tiempos muy inferiores a la segmentación manual. Además, la interactividad introducida, permite aumentar la robustez del sistema y dar un mayor control al usuario del proceso de segmentación. En [9] se demuestra que esta técnica mejora sobremanera los tiempos de interacción y produce resultados visual y estadísticamente comparables a los de la segmentación manual. La Figura 2 muestra el resultado del cálculo de la respuesta de medialness multiescala donde puede observarse que se han detectado las principales venas hepáticas. La respuesta se muestra en forma de render de volumen utilizando la técnica de Maximum Intensity Projection (MIP). Puede verse que el algoritmo es capaz de localizar las estructuras tubulares con una precisión superior a métodos basados únicamente en heurísticos que utilizan autovalores de la matriz hessiana [12]. Una vez calculada la respuesta de medialness, esta debe de ser post-procesada estableciendo un umbral para evitar la influencia del ruido. En este caso se utiliza como imagen de entrada la resta entre las fases portal venosa y precontraste pues resalta las venas hepáticas. Por otro lado se ha utilizado una máscara para acelerar los tiempos de cálculo y evitar la detección de falsos vasos en el contorno del parénquima en zonas de gran curvatura. Dicha máscara delimita la zona de cálculo y se obtiene tras un proceso de erosión de la segmentación inicial. Finalmente, en los ejes centrales calculados tras la esqueletonización, se observa la presencia de falsos ejes medios y zonas sin conectar debido a artefactos en la imagen y que el modelo no prevé la presencia de bifurcaciones. Tras la detección de los vasos, se hace necesario un análisis posterior que elimine estos fallos y permita extraer información relevante acerca de longitudes y diámetros, para generar el modelo final. Fig. 2. MIP de la respuesta medialness multiescala utilizando 10 escalas desde R=1.25 a R=4. 129

143 4 Conclusiones y líneas futuras El método de Watersheds interactivo ha demostrado ser un método eficaz para la segmentación del parénquima hepático en imágenes de RM. La introducción de una cierta interactividad permite controlar el proceso y aumentar la robustez global del mismo. En cuanto al análisis vascular, el cálculo de la respuesta medialness multiescala presenta una mayor robustez que otra serie de métodos y funciona bien en imágenes RM puesto que se basa en el cálculo de valores de gradiente y no en valores absolutos de intensidad. Sin embargo, se requiere un análisis posterior para evitar errores y extraer información relevante. Es necesario completar la extracción de las líneas centrales con un análisis vascular profundo para obtener información de longitudes y diámetros, eliminar falsas ramas y realizar reconexiones. Finalmente, es necesario incorporar dicha información para obtener un modelo vascular tridimensional de elevada precisión que pueda incorporarse al sistema de planificación. Por otro lado, iremos avanzando en el desarrollo del sistema de planificación, automatizando algunas de las tareas intermedias y escondiendo gran parte de los detalles al usuario final. Finalmente, tanto los algoritmos de segmentación como el sistema de planificación completos deben ser debidamente evaluados y validados por parte de radiólogos y cirujanos. Referencias 1. Couinaud, C. (1957). Le Foie : Études Anatomiques et Chirurgicales. Masson Edition, France. 2. Lee, V.S., Lavelle, M.T., Rofsky, N.M., Laub, G., Thomasson, D.M., Krinsky, G.A., Weinreb, J.C. (2000). Hepatic MR-Imaging with a Dynamic Contrast-enhanced Isotropic Volumetric Interpolated Breath-hold Examination : Feasibility, Reproductibility and Technical Quality. Radiology, 215: Soler L., Delingette, H., Malandain, G., Montagnat, J., Ayache N., Koehl, C., Dourthe O., Malassagne B., Smith M., Mutter D., Marescaux J. (2001) Fully Automatic Anatomical, Pathological, and Functional Segmentation from CT Scans for Hepatic Surgery. Computed Aided Surgery, 6(3): Selle, D., Preim B., Schenk, A., Peitgen, H.-O. (2002). Analysis of Vasculature for Liver Surgery Plannning. Trans.Medical Imaging 21(11): Meinzer H.-P., Schemmer P., Schöbinger M., Nolden M., Heimann T., Yalcin B., Richter G.M., Kraus T., Büchler M.W., Thorn M. (2004). Computer-based Surgery Planning for Living Liver Donation. Int. Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 34: Vincent, L., Soille, P. (1991). Watersheds in Digital Spaces: An Efficient Algorithm Based on Immersion Simulations. IEEE Trans. on Pattern Analysis and Machine Intelligence, 13(6): Whitaker, R.T., Xue, X. (2001). Variable-conductance, level-set curvature for image denoising. In Proc. Of Int. Conf. on Image Processing, 3:

144 8. Lindeberg, T. (1998). Feature detection with automatic scale selection. Int. J. of Computer Vision, 30(2): Cates, J.E., Whitaker, R.T., Jones, G.M. (2005). Case study: an evaluation of user-assisted hierarchical watershed segmentation. Medical Image Analysis, 9(6): Krissian, K., Malandain, G., Ayache, N., Vaillant, R., Trousset, Y. (2000). Model-Based Detection of Tubular Structures in 3D Images. Computer Vision and Image Understanding, 80(2): Pock, T., Janko, C., Beichel, R., Bischof, H. (2005). Multiscale Medialness for Robust Segmentation of Vessel Structures. In Proc. of 10th Computer Vision Winter Workshop (CVWW 05), Zell an der Pram, Austria. 12.Sato, Y., Nakajima, S., Shiraga, N., Atsumi, H., Yoshida, S., Koller, T., Gerig, G., Kikinis, R. (1998). Three-dimensional multi-scale line filter for segmentation and visualization of curvilinear structures in medical images. Medical Image Analysis, 2(2): Bertrand, G., Malandain, G. (1994). A New Characterization of three-dimensional Simple Points. Pattern Recognition Letters, 2(15): Pudney, C. (1998). Distance-ordered hom*otopic thinning : a skeletonization algorithm for 3D digital images.computer Vision and Image Understanding, 72(3): Ibañez, L., Schroeder, W., Ng, L., Cates, J. (2003) The ITK Software Guide: The Insight Segmentation and Registration Toolkit. Kitware Inc. ISBN: Schroeder, W., Martin, K., Lorensen, B. The Visualization Toolkit. Third Edition. Kitware Inc. ISBN: Lee, V.S., DPhil, Lavelle, M.T., Rofsky, N.M., Laub, G., Thomasson, D.M., Krinsky, G.A., Weinreb, J.C. (2000). Hepatic MR Imaging with a Dynamic Contrast-enhanced Isotropic Volumetric Interpolated Breath-hold Examination: Feasibility, Reproducibility, and Technical Quality. Radiology, 215:

145 Técnicas para la detección de diferencias estructurales en imágenes de Resonancia Magnética Nuclear. Hallazgos en la enfermedad de Alzheimer. Maite García-Sebastián Grupo de Inteligencia Computacional, UPV/EHU. Abstract. En este artículo se recogen la descripción y una discusión sobre las ventajas e inconvenientes de algunos de los métodos más utilizados para el análisis de imágenes de RMN. En concreto, para la detección de diferencias estructurales en el cerebro (voxel-based morphometry, deformation morphometry, tensor-based morphometry). Además se hace una revisión de su aplicación en el estudio de la progresión de los cambios cerebrales en la enfermedad de Alzheimer (EA) y su correlación con el declive cognitivo. Introducción Los avances en las últimas décadas en la adquisición de imágenes médicas de alta resolución, así como el desarrollo de plantillas cerebrales basadas en el atlas estereotáctico de Talairach, han potenciado nuestra capacidad de investigar las enfermedades neurodegenerativas. Una de las plantillas más utilizadas [1-3] es la la del International Consortium for Brain Mapping (ICBM), que forma parte del paquete SPM (Statistical Parametric Mapping) [4]. La Resonancia Magnética Nuclear (RMN) es una de las técnicas de neuroimagen más utilizadas en el apoyo al diagnóstico de la enfermedad de Alzheimer (EA), con la que se pueden realizar estudios estructurales del cerebro. La morfometría es la medida de las formas o de las estructuras cerebrales, por lo tanto, es la herramienta básica de análisis para estudiar los cambios cerebrales producidos por las enfermedades, y para evaluar si pueden servir como marcadores biológicos de la enfermedad. Las aproximaciones para caracterizar las diferencias en la forma y configuración neuroanatómica de diferentes cerebros son básicamente dos: 1. Estudio de diferencias en la forma del cerebro a nivel macroscópico. Hay dos tipos de técnicas, las basadas en deformaciones (Deformation Based Morphometry) y las basadas en tensores (Tensor Based Morphometry). 2. Estudio de diferencias en la composición local del tejido cerebral. Métodos a nivel de vóxel (Voxel Based Morphometry). Las técnicas basadas en deformaciones son posteriores a las técnicas basadas en vóxeles y se han desarrollado para realizar un análisis más fino de las variaciones estructurales del cerebro. En todo caso, las imágenes deben ser de una relativa alta resolución (1mm ó 1.5mm vóxeles isotrópicos). De esta manera la segmentación de la sustancia gris o blanca no se confunde excesivamente debido a los efectos del volumen parcial que se presentan cuando los vóxeles contienen una mezcla de diferentes tipos de tejido. En este artículo se da una descripción de alguno de los métodos más utilizados actualmente para detectar diferencias estructurales en el cerebro, como son voxel-based morphometry, deformation morphometry, tensor-based morphometry. También se recogen algunos de los hallazgos clínicos en la enfermedad de Alzheimer (EA), como patrones de atrofia cerebral o diferencias entre grupos de personas que ya han desarrollado la EA, grupos de alto riesgo (MCI) y personas con problemas normales de memoria, asociados con la edad. En la sección 2 se da una descripción de cada uno de los métodos y en la sección 3 se revisan las aplicaciones reportadas en la literatura con respecto a la enfermedad de Alzheimer. 132

146 Métodos de morfometría basados en imagen de RMN Voxel Based Morphometry (VBM) La morfometría basada en vóxeles (VBM) consiste en la comparación vóxel a vóxel de las concentraciones locales de los diferentes tipos de tejidos cerebrales a analizar (ej. sustancia gris, sustancia blanca, etc.) entre grupos de sujetos. La morfometría basada en vóxeles de imágenes de Resonancia Magnética incluye una normalización espacial de todas las imágenes al mismo espacio estereotáctico, una segmentación del tejido cerebral (normalmente la sustancia gris y/o sustancia blanca), un suavizado y finalmente se realiza un análisis estadístico para localizar y realizar inferencias sobre las diferencias de grupo. El resultado del método es un mapa paramétrico estadístico que muestra regiones donde la concentración de la clase de tejido difiere significativamenete entre los grupos. Este proceso se e en la figura 1. Imágenes RMN Plantilla cerebral Normalización espacial (lineal): imágenes registradas Segmentación de los tejidos: imágenes segmentadas Suavizado: segmentación suavizada Análisis estadístico vóxel a vóxel: mapa paramétrico estadístico Figura 1. Diagrama de flujo genérico de los métodos VBM. En el proceso del VBM se registra cada una de las imágenes con respecto a la misma plantilla cerebral. Una plantilla ideal consiste en el promedio de un gran número de imágenes de RMN que han sido registradas en el mismo espacio estereotáctico. Por ejemplo, en el software SPM, la normalización espacial se realiza en dos pasos. En el primer paso se estima la transformación afin óptima, que registra las imágenes de RMN de un individuo a la plantilla. En el segundo paso, se computa la estimación máxima a posteriori de la transformación espacial basada en el conocimiento a priori de la variabilidad de tamaño del cerebro normal. El segundo paso explica las diferencias de forma no lineales globales, que se modelan mediante una combinación lineal de una base de funciones espaciales suaves. Además se realiza la estimación de los coeficientes de las funciones base, que minimizan la diferencia cuadrada de los residuales entre la imagen y la plantilla, mientras simultáneamente se maximiza la suavización de las deformaciones. Al realizar la normalización espacial no se pretende emparejar exactamente todas las características corticales, simplemente se realiza la corrección de las diferencias globales de la forma cerebral. Si la normalización fuera perfecta, no se podrían detectar diferencias significativas, con lo que el proceso no sería válido. Las imágenes normalizadas espacialmente se segmentan en sustancia gris, sustancia blanca, líquido cefalorraquídeo y tres tejidos no cerebrales. Este resultado se obtiene generalmente mediante la combinación de mapas de probabilidad a priori, que contienen el conocimiento de la distribución espacial de diferentes tejidos en sujetos normales, con un análisis de cluster que asume un modelo de mezcla que identifica las distribuciones de intensidad del vóxel de unos tipos de tejido en particular. En la fase de segmentación también se realiza la corrección de inhom*ogeneidad de intensidad. Luego se realiza un suavizado de las imágenes segmentadas de sustancia gris y blanca, mediante una convolución con un kernel Gaussiano isotrópico. Por último se realiza el test estadístico vóxel a vóxel para buscar las diferencias estructurales basandose en el GLM (modelo lineal general). Deformation Based Morphometry (DBM) Las imágenes cerebrales de RMN se pueden ajustar a una plantilla cerebral o a un atlas, realizando un registro de alta dimensionalidad, mediante campos de deformación. Estos campos se pueden analizar para detectar diferencias cerebrales entre grupos de sujetos pero no localizan directamente las regiones cerebrales con diferentes formas, más bien identifican aquellas estructuras que están en posiciones relativamente diferentes. Para localizar estructuras cuyas formas difieren de un grupo a otro, se requieren 133

147 mapas paramétricos estadísticos de diferencias de forma regional (métodos que se describen más adelante). En los métodos DBM se realiza primero una normalización espacial de la que se obtienen los campos de deformación, luego se realiza un suavizado y, por último, se hace el análisis estadístico con el que se obtienen las diferencias. Este proceso se resume, en forma de diagrama, en la figura 2. Imágenes RMN remuestreadas, vóxeles isotrópicos 1mm 3 Plantilla cerebral Normalización espacial (lineal): imágenes registradas Normalización no lineal: campos de deformación Suavizado: campos de deformación suavizados Análisis estadístico de los campos de deformación: atlas estadístico, diferencias entre grupos Figura 2. Diagrama de flujo genérico de los métodos DBM. El primer paso es realizar una normalización espacial determinando la transformación afin que mejor ajusta la imagen cerebral a la plantilla. Una vez se tienen las imágenes registradas, se realiza un registro no lineal (de alta dimensionalidad) de cada una de ellas con respecto a la misma plantilla, para eliminar diferencias anatómicas. En este paso se calculan las deformaciones locales consiguiendo campos de deformación 3D para todos los cerebros. Estos campos se pueden almacenar como vectores de deformación 3D [5, 6] o como un conjunto de coeficientes de funciones base que parametrizan el ajuste no lineal [7-9]. En [10] se realiza una combinación lineal de funciones base de la transformada de coseno discreta 3D, otras funciones base alternativas son los armónicos esféricos [11, 12], polinomiales [13] o eigenfunctions of self-adjoint differential operators [7]. Es necesario reseccionar (remuestrear) las imágenes para obtener vóxeles isotrópicos de 1 mm 3. En [1] se hace antes de la normalización lineal que ajusta las imágenes al espacio estereotáctico, mientras que en [2] este paso se hace después de la normalización de alta dimensionaldad, es decir, después de introducir las deformaciones no lineales. Finalmente se suele aplicar un kernel Gaussiano sobre los campos de deformación. El análisis de los campos de deformación permite estudiar la naturaleza de las diferencias y realizar deducciones acerca de ellas [10]. Los campos de deformación proporcionan un gran número de datos morfológicos. Los resultados estadísticos se pueden almacenar en un atlas, dando criterios para la detección de anomalías cerebrales. Dependiendo de cómo se almacenen los campos de deformación, como vectores de deformación o como un conjunto de coeficientes de funciones base, el análisis de las diferencias estructurales varía ligeramente. Es más común la segunda representación, para la que se pueden utilizar métodos espectrales [7-9], Riemannian shape manifolds [14] o métodos multivariable. En [10] se ha desarrollado una aproximación estadística multivariable, en la que el conjunto de asociaciones de deformación se compacta mediante el análisis de componentes principales, obteniendo un conjunto de vectores con nuevos coeficientes. Luego se aplica MANCOVA ( análisis multivariable de covarianza) en esos nuevos vectores, para cuantificar o eliminar efectos de factores de confusión, como la edad, que pueden afectar a la estructura cerebral. Tensor Based Morphometry (TBM) Los métodos de morfometría tensorial son una particularización de los métodos basados en deformaciones. Se basan en el análisis local de la contracción o expansión detectada en el campo de deformación elástica calculado para ajustar las imágenes de RMN de un sujeto con respecto a una plantilla. Se pueden obtener índices del cambio cerebral para regiones específicas de interés o presentados en forma de mapa [15]. La contracción o dilatación se detecta a través del jacobiano del campo de deformación calculado en cada voxel de la imagen. Es, por tanto, un método local que nos proporciona información sobre las deformaciones locales de las estructuras cerebrales. La forma en la que se realiza la normalización espacial en las aproximaciones TBM depende de si se está utilizando en estudios longitudinales (figura 3a) o en estudios transversales (figura 3b). Cuando el TBM se utiliza para mapear cambios cerebrales en el tiempo (estudio longitudinal), se considera como imagen de referencia el primer volumen del sujeto obtenido en el estudio. Para las siguientes imágenes de 134

148 seguimiento, primero se alinea globalmente la imagen de seguimiento a la imagen de referencia 1. Luego se estima una deformación elástica de alta dimensionalidad que maximiza la información mútua (o una medida teórica de la información relacionada de correspondencia) entre dos volúmenes consecutivos en el tiempo. Esta deformación 3D reconfigura la anatomía del volumen de referencia a la forma del volumen de seguimiento. La expansión o contracción en cada vóxel de la imagen se computa desde el campo de deformación (utilizando el Jacobiano del campo de deformación para producir un mapa de compresión de vóxel o un mapa tensor). En este mapa, la contracción implica atrofia; la expansión implica un aumento local o dilatación [18]. Los cambios se muestran con un mapa pseudo-coloreado. Este proceso se resume en la figura 3a. También se puede utilizar TBM en estudios transversales. En este caso se realiza una transformación elástica de las imágenes individuales para ajustar una plantilla cerebral y las expansiones y contracciones son analizadas para identificar diferencias sistemáticas de volumen o de forma de un grupo con respecto a otro. Este proceso se resume en la figura 3b. Se realizan estudios MANCOVA sobre los parámetros libres de los campos de tensores, para determinar los vóxeles en los que se detectan las deformaciones más significativas. Imágenes RMN de seguimiento Imágenes RMN de referencia registradas Normalización espacial: imágenes de seguimiento registradas Deformación elástica 3D de las imágenes de referencia: campos de deformación Estudios estadísticos de los campos de deformación: Mapa Tensor y Mapa pseudo-coloreado (a) Imágenes RMN Plantilla cerebral Normalización espacial: imágenes registradas Deformación elástica 3D de la plantilla: campos de deformación Estudios estadísticos de los campos de deformación: Mapa Tensor y Mapa pseudo-coloreado (b) Figura 3. Diagrama de flujo genérico de los métodos TBM en un estudio longitudinal (a) y en un estudio transversal (b). Utilidad para el estudio del Alzheimer La enfermedad de Alzheimer (EA) es la primera causa de demencia senil, afectando a un 10% de las personas mayores de 65 años. Se trata de una enfermedad neurodegenerativa irreversible que se caracteriza por un deterioro progresivo de las funciones cerebrales superiores o cognitivas, con pérdida de memoria, juicio y lenguaje. Transcurren más de 30 años entre el comienzo de la patología celular que causa la EA y los cámbios clínicos que conducen a su diagnóstico. El estudio de imágenes de RMN de pacientes con EA revela los siguientes cámbios anatómicos: atrofia cortical e hipocampal severa, aumento ventricular y sulcal, y reducción en el volumen de la sustancia gris y blanca. Estos cambios ocurren en una secuencia espacio-temporal distinta y se correlacionan con el declive cognitivo y metabólico del paciente. Las técnicas de neuroimagen y brain mapping son herramientas con alto poder para entender la EA, proporcionando información espacial detallada de la extensión y la evolución de la enfermedad, así como de la propagación de sus efectos por el cerebro. Hay dos causas patológicas altamente relacionadas con la EA y con el deterioro progresivo de las 1 En [16] se realiza una transformación lineal de 9 parámetros, obtenidos mediante una función de coste de información mutua [17]. 135

149 funciones cerebrales superiores: los ovillos neurofibrilares (NFT) y la excesiva acumulación de placas neuríticas 2. Los primeros cambios cerebrales en la EA comienzan en el lóbulo temporal medio, concretamente en la corteza entorhinal y el hipocampo, donde se acumulan inicialmente los NFT. Estas acumulaciones de proteinas se extienden por la corteza parietal, occipital y finalmente por la frontal. Por otro lado, la acumulación de placas neuríticas se extienden desde el neocortex temporal lateral al temporal inferior, parietal, occipital y frontal. Las técnicas automáticas basadas en la morfometría se han utilizado extensamente para detectar diferencias cerebrales, como el grado de atrofia, entre grupos de sujetos. Se han aplicado técnicas VBM [19-23], DBM [2, 24] y TBM [15, 25] para estudiar la atrofia de la sustancia gris en el lóbulo temporal y áreas asociadas al neocortex en pacientes con EA respecto de controles. También se han determinado patrones representativos de atrofia cerebral en los lóbulos temporales medios, áreas de asociación neocorticales, tálamo y gánglio basal [2]. Con respecto a los ventrículos cerebrales, en [1] estudian diferencias de forma mediante técnicas DBM y un procedimiento de trazado semi automático (Multi Image Processing Software), dividiendo los sujetos en dos grupos según el índice VBR (Ventricular Brain Ratio). Las personas con MCI 3 se consideran un grupo con mayor riesgo de padecer la EA que las personas con problemas normales de memoria, asociados con la edad. Existen estudios utilizando DBM que intentan distinguir entre las personas con MCI que desarrollarán la enfermedad, de los que no lo harán [2]. Por otra parte, se ha demostrado, mediante técnicas basadas en la VBM, que el grado de atrofia de los MCI se encuentra entre el de los sujetos normales y los que padecen EA [26-29]. Una de las herramientas de evaluación de las demencias es el Mini Mental State Examination (MMSE) [30] del que destaca su sencillez y rapidez. Es un test utilizado frecuentemente para seguir la progresión de la EA y para que los resultados sean fiables es necesario tener en cuenta la edad y la posibilidad de padecer otros trastornos. Se han realizado estudios [31, 32] en los que se ha investigado, a través de las imágenes de RMN, si los cambios cerebrales producidos por la EA o en sujetos MCI se correlacionan con el MMSE. Además se han encontrado correlaciones bilaterales significativas en el girus temporal, frontal medio, en el angular izquierdo y en el girus supramarginal. Referencias 1. Gaser C., Nenadic I., Buchsbaum B.R., Hazlett E.A., et al., Deformation-Based Morphometry and Its Relation to Conventional Volumetry of Brain Lateral Ventricles in MRI. NeuroImage : p Teipel Stefan J., Born C., Ewers M., Bokde Arun L.W., et al., Multivariate deformation-based analysis of brain atrophy to predict Alzheimer's disease in mild cognitive impairment. NeuroImage,. 38(1): p Kipps C.M., Duggins A.J., Mahant N., Gomes L., et al., Progression of structural neuropathology in preclinical Huntington's disease: a tensor based morphometry study. J Neurol Neurosurg Psychiatry, (5): p SPM software, Statistical Parametric Mapping Thompson P. and Toga A.W., Detection, visualization and animation of abnormal anatomic structure with a deformable probabilistic brain atlas based on random vector field transformations. Medical Image Analysis, (4): p Cao J. and Worsley K.J., The geometry of the Hotelling's T-squared random Field with Applications to the detection of Shape changes. Annals of Statistics, ( ). 7. Miller M.I., Trouve A., and Younes L., On the metrics and Euler-Lagrange equations of computational anatomy. Annu rev biomed eng, : p Joshi S., Grenander U., and Miller M.I., On the Geometry and Shape of Brain Sub-Manifolds. IEEE Transactions on Pattern Analysis and Machine Intelligence, : p Csernansky J.G., Joshi S., Wang L., Haller J.W., et al., Hippocampal morphometry in schizophrenia by high dimensional brain mapping. Proceedings of the National Academy of Sciences, (19): p Placas neuríticas o amiloides: Estos depósitos o agregados proteicos permanecen en número reducido en los cerebros sanos, pero se acumulan espectacularmente en los enfermos con Alzheimer. 3 MCI: Mild Cognitive Impairment (Deterioro cognitivo leve). Las personas con MCI manifiestan problemas de memoria aunque no experimentan confusión, problemas de atención o dificultades con el lenguaje. No se puede decir que sea Alzheimer, u otro timpo de demencia, o que se deba a los cambios normales de memoria asociados con la edad. Sin embargo es muy probable que en un futuro desarrollen la EA. 136

150 10. John Ashburner, Chloe Hutton, Richard Frackowiak, Ingrid Johnsrude, et al., Identifying Global Anatomical Differences: Deformation-Based Morphometry. Human Brain Mapping, (5): p Thompson P.M. and Toga A.W., A Surface-Based Technique for Warping 3-Dimensional Images of the Brain. IEEE Transactions on Medical Imaging, (14): p Gerig G., Styner M., Shenton M.E., and lieberman J.A., Shape versus size: Improved Understanding of the Morphology of Brain Structures. MICCAI 2001, Springer LNCS 2208, 2001: p Woods R.P., Grafton S.T., Watson J.D.G., Sicotte N.L., et al., Automated image registration: II. intersubject validation of linear and nonlinear models. J. computer Assisted Tomography, (1): p Bookstein F.L., Landmark Methods for forms Without Landmarks: Morphometrics of Group Differences in Outline Shape. Medical Image Analysis, (3): p Leow A.D., Klunder A.D., Jack Jr. C.R., Toga A.W., et al., Longitudinal stability of MRI for mapping brain change using tensor-based morphometry. Neuroimage, (2): p Leow A.D., Klunder A.D., Jack Jr. C.R., Toga A.W., et al., Longitudinal stability of MRI for mapping brain change using tensor-based morphometry. Neuroimage, (2): p Collins D.L., Neelin P., Peters T.M., and E. A.C., Automatic 3D intersubject registration of MR volumetric data into standardized Talairach space. J Comput Assist Tomogr., (2): p Apostolova Liana G. and Thompson Paul M., Brain Mapping as a Tool to Study Neurodegeneration. Neurotherapeutics,. 4(3): p J.C. Baron, G. Chetelat, B. Desgranges, G. Perchey, et al., In vivo mapping of gray matter loss with voxel-based morphometry in mild Alzheimer's disease. NeuroImage, : p Busatto G.F., Garrido G.E., Almeida O.P., and e. al.. A voxel-based morphometry study of temporal lobe gray matter reductions in Alzheimer's disease. Neurobiol Aging, : p Scahill R.I., Schott J.M., Stevens J.M., and e. al., Mapping the evolution of regional atrophy in Alzheimer's disease: unbiased analysis of fluid-registered serial MRI. Proc Natl Acad Sci USA, : p Good C.D., Scahill R.I., Fox N.C., and e. al., Automatic differentiation of anatomical patterns in the human brain: validation with studies of degenerative dementias. Neuroimage, : p Frisoni, G.B., C. Testa, A. Zorzan, F. Sabattoli, et al., Detection of grey matter loss in mild Alzheimer's disease with voxel based morphometry. J Neurol Neurosurg Psychiatry, (6): p Janke A.L., de Zubicaray G., Rose S.E., Griffin M., et al., 4D deformation modeling of cortical disease progression in Alzheimer's dementia. Magn. Reson. Med, : p Studholme Colin, Incorporating DTI Data as a Constraint in Deformation Tensor Morphometry Between T1 MR Images., in Information Processing in Medical Imaging.. p Bozzali M., Filippi M., Magnani G., and e. al., The contribution of voxel-based morphometry in staging patients with mild cognitive impairment. Neurology, : p G. Chetelat, B. Desgranges, V. De La Sayette, F. Viader, et al., Mapping gray matter loss with voxel-based morphometry in mild cognitive impairment. NeuroReport, : p Karas, G.B., P. Scheltens, S.A.R.B. Rombouts, P.J. Visser, et al., Global and local gray matter loss in mild cognitive impairment and Alzheimer's disease. NeuroImage, (2): p Pennanen, C., C. Testa, M.P. Laakso, M. Hallikainen, et al., A voxel based morphometry study on mild cognitive impairment. J Neurol Neurosurg Psychiatry, (1): p Folstein, M.F., S.E. Folstein, and P.R. McHugh, "Mini-mental state". A practical method for grading the cognitive state of patients for the clinician. J Psychiatr Res, (3): p Fox N.C., Scahill R.I., Crum W.R., and Rossor M.N., Correlation between rates of brain atrophy and cognitive decline in AD. Neurology, (8): p Liana G., Lu Po H., Rogers S., Dutton R.A., et al., 3D Mapping of Mini-mental State Examination Performance in clinical and Preclinical Alzheimer Disease. Alzheimer Dis Assoc Disord, (4): p

151 Evaluación de la calidad de cítricos a partir de imágenes de resonancia magnética. Elsa Fernández Grupo de Inteligencia Computacional Departamento de Ciencias de la Computación e Inteligencia Artificial Facultad de Informática, UPV/EHU Abstract. Una nueva estrategia para la medición de la calidad de cítricos en línea y la detección no destructiva de semillas es el estudio de imágenes de Resonancia Magnética (IRM). En este trabajo se ha utilizado un tipo de secuencia de IRM llamado FLASH. Las imágenes han sido proporcionadas por el grupo del Laboratorio de Propiedades Físicas de la UPM (LPF-TAG) [1]. Las propiedades de las imágenes de resonancia magnética, cuya intensidad varía según el contenido en agua del objeto hacen que los diferentes tejidos de las frutas (pulpa, piel, semillas) sean claramente identificables en las IRM. En este trabajo se han aplicado técnicas de segmentación no supervisadas como el k-means con 2 clases que es el que ha dado resultados más prometedores. Se han contrastado los resultados obtenidos con las técnicas de umbralización aplicadas en el trabajo de Pilar Barreiro [2]. Palabras Clave: Resonancia magnética, segmentación, detección de semillas, secuencias FLASH. Introducción La creciente demanda de la evaluación de la calidad en frutas y verduras está dando lugar a un incremento en el desarrollo de los dispositivos de medida empleados. Los vegetales y las frutas frescas tienen diferentes características, como el color, tamaño, composición química, numero de semillas, que los diferencian entre ellos y definen la calidad entre las mismas variedades de producto. Debido a las particularidades del proceso de clasificación de las frutas y verduras, la evaluación de la calidad del producto se debe de realizar con unas limitaciones de tiempo y espacio importantes que reducen considerablemente el avance de técnicas más complicadas. En consecuencia, la clasificación de las frutas en cintas conlleva un alto gasto tanto en mano de obra como de tiempo. Existen una serie de métodos llamados no destructivos que no implican la destrucción parcial o total del fruto para el estudio de su calidad. Los métodos no destructivos pueden dividirse en dos tipos, esto es, los realizados fuera de la cinta transportadora (off-line) y los efectuados en la misma cinta transportadora (on-line). El primero es un método libre con respecto al límite de tiempo de la medida de la calidad de la fruta y el segundo se rige por una limitación en el tiempo muy importante. Los métodos de inspección de frutas on-line pueden llegar a una velocidad límite de 2 a 5 frutas por segundo. El valor añadido que implican estos métodos al producto final empuja a la aplicación de técnicas on-line no destructivas. Recientemente, se han desarrollado nuevas tecnologías basadas en el procesado de imágenes tomadas mediante cámaras CCD para la evaluación de características de calidad de las frutas como el color, el tamaño, la textura, etc. y también técnicas no destructivas que usan espectroscopia, ultrasonidos, rayos X e imágenes de resonancia magnética (IRM). Estas últimas se han erigido en la última década como técnica más prometedora en la medición de calidad de frutos. La fruta en general es una candidata ideal para el análisis con resonancia magnética debido a su alto contenido en agua que se traduce con una señal de intensidad mayor. La resonancia magnética presenta gran flexibilidad geométrica y de mecanismos de contraste en la creación de imágenes, que la hacen muy apropiada como sensor no invasivo, prestándose muy bien para caracterizar material orgánico. Numerosos estudios avalan la utilización de técnicas basadas en resonancias magnéticas para la evaluación de la calidad de frutas. Zion et al. [3] centran su investigación en la detección en tiempo real de daños en cerezas, mediante proyecciones MR. Barreiro et al. [4] estudian la detección rápida de falta de pigmentación en manzanas mediante relaxometría por 138

152 resonancia magnética nuclear (NMR) y Hernández et al. [5] realizan un procedimiento para detectar los daños producidos por el frío en naranjas en condiciones de movimiento en IRM. Otro factor que influye en la calidad de algunos frutos como las mandarinas, es la presencia de semillas. Esto implica una perdida de calidad que influye en los precios finales del producto. Por ello, en este estudio se probaron varios métodos de segmentación con el fin de detectar dichas semillas en el fruto. Para alcanzar velocidades de trabajo cercanas a las óptimas se tienen que tener en cuenta varias premisas: las imágenes que se obtienen de las frutas deben de ser tomadas en continuo movimiento y el tiempo de escaneado debe de ser el mínimo posible para minimizar la sensibilidad al movimiento [7,8]. El mayor inconveniente a la hora de aplicar algoritmos de segmentación es la limitación del tiempo que se tiene en un entorno on-line. Por tanto, el algoritmo automático de clasificación debe de consumir el menor tiempo posible. Existen diferentes tipos de técnicas de segmentación: las basadas en el histograma, en las fronteras, en regiones, etc. Los métodos basados en el histograma son los más apropiados para este trabajo porque el tiempo de ejecución que requieren es bajo [6] y son métodos mas sencillos y apropiados para una imagen simple de un fruto que no tiene muchos tejidos que clasificar. Otros métodos de segmentación pueden dar mejores resultados pero su alto coste computacional los hace inabordables. En nuestro estudio vamos a comparar un método de segmentación k-means para el caso particular de dos clases y compararemos sus resultados con otros dos métodos de umbralización del histograma en una dimensión (1D) y dos dimensiones (2D) [6], estos últimos estudiados por el Laboratorio de Propiedades Físicas de la UPM (LPF-TAG) [1]. Materiales y Métodos El equipo empleado para la obtención de las imágenes fue un Bruker BIOSPEC 47/40 spectrometer (Ettlingen, Alemania) operando a 200 MHz. El calibre del imán que se utilizó es de 147 cm. de longitud y 40 cm. de diámetro que se redujo a 26 cm. Se uso una bobina de tipo birdcage con un diámetro interior de 20 cm. Secuencias FLASH Desde el comienzo de la IRM, han sido explorados muchos mecanismos encaminados a reducir el tiempo de exploración. Básicamente, se pueden utilizar cuatro procedimientos con este propósito: reducción del TR, reducción del número de adquisiciones, reducción del número de codificaciones de fase, y el relleno de más de una línea del espacio K en cada TR. La reducción del tiempo de repetición conlleva la utilización de ángulos de excitación menores de 90 para no saturar la muestra y mantener una SNR aceptable. A su vez, los ecos se obtienen mediante gradientes en vez de pulsos de RF de refase de 180. La primera de estas secuencias denominada FLASH (Fast low angle shot), fue desarrollada en 1986 por Siemens. En este tipo de secuencias se pueden utilizar tiempos de repetición de ms. Como siguen el esquema de un ciclo de pulso o TR por codificación de fase, el tiempo de exploración puede disminuir notablemente. Estas secuencias de eco de gradiente con ángulo limitado han evolucionado de manera notable, habiendo sido desarrolladas recientemente las secuencias denominadas turbo eco de gradiente (Turbo Flash, Turbo field eco, etc.). En éstas se utilizan tiempos de repetición extremadamente cortos, del orden de 10 ms. Debido a la utilización de ángulos de excitación limitados, todas estas secuencias se ven penalizadas, en general, por baja SNR que obliga, con frecuencia, a un aumento del número de adquisiciones. Para realizar el escaneo, las mandarinas fueron situadas dentro del imán con su eje central (eje entre los polos) a lo largo de la dirección z para obtener las imágenes axiales que mostraran la sección transversal del eje central en el medio del campo de visión (FOV). En esta orientación, las mandarinas que contengan semillas tendrán su eje central rodeado por un anillo de la zona hipointensa que corresponde a las semillas. El campo de visión (FOV) y el espesor de corte utilizados fueron 12x12 cm. y 10 mm. 139

153 respectivamente. El espesor de corte (slice thickness) fue seleccionado para adquirir la señal de la región que tuviera la mayor probabilidad de presencia de semilla. Las imágenes que se obtuvieron en un tiempo de adquisición de 484 ms., tenían un tamaño de 64x128. Todas las imágenes fueron rellenadas con ceros hasta obtener imágenes de 128x128 puntos. Las imágenes fueron digitalizadas a 4 bytes. Medidas de Referencia Después de la adquisición de las imágenes IRM, se realizo un corte a todas las mandarinas y se obtuvieron imágenes RGB que correspondían al mismo corte axial de las imágenes IRM. El principal criterio discriminante y objetivo que se ha tomado es la presencia o ausencia de semillas. En la figura 1 se pueden observar algunos ejemplos de imágenes IRM con sus correspondientes imágenes RGB de los cortes. (a) (b) Fig. 1. (a) Algunos ejemplos de IRM y (b) sus correspondientes imágenes RGB del mismo corte axial. 140

154 Procedimiento de segmentación aplicado Para este trabajo se ha utilizado un algoritmo de segmentación basado en el histograma de las imágenes FLASH. Al examinar los histogramas de nuestro conjunto de imágenes se aprecia que todos ellos siguen una distribución similar. Dicha distribución se caracteriza por dos picos característicos en los extremos del histograma, uno correspondiente al fondo (respuesta mínima) y otro correspondiente a la pulpa de las mandarinas (respuesta máxima). Los píxeles situados entre ambos picos corresponden a tejidos de respuesta media como semillas y cáscara, y en este caso son los más interesantes para nuestro trabajo. Fondo Pulpa Fig. 2. Histograma de una IRM de una mandarina donde se pueden observar las dos zonas claramente diferenciadas. De cara a caracterizar esta distribución, empleamos el algoritmo de agrupamiento K-means para el caso de dos clases. Tras separar la muestra en dos grupos, caracterizamos cada uno de ellos calculando su media y su desviación estándar. A continuación aplicamos la siguiente regla: aceptamos aquellos píxeles cuya distancia a la media de cada uno de los dos agrupamientos sea superior a la desviación estándar. Mediante este criterio pretendemos descartar aquellos píxeles correspondientes al fondo de la imagen y a la pulpa, y conservar aquellos correspondientes a las semillas y a la cáscara. Como último paso de nuestro algoritmo queremos separar la cáscara de las semillas, y con este fin aplicamos el siguiente método: calculamos el centroide de todos los píxeles aceptados en la etapa previa, y la distancia de todos ellos a dicho centroide. Al examinar el histograma de dichas distancias se pueden apreciar dos grupos de píxeles fácilmente diferenciables, un grupo cercano al centroide (semillas) y otro lejano (cáscara). Para llevar a cabo dicha separación de forma automática empleamos el algoritmo de umbralización de Otsu. Este algoritmo estima el umbral óptimo para maximizar la varianza entre clases. En el siguiente diagrama (Fig. 3) se detallan los pasos del procedimiento que se han seguido. 141

155 Fig. 3. Diagrama del proceso seguido. Resultados y Conclusiones En las figuras que se muestran a continuación se pueden observar los resultados obtenidos por el Laboratorio de propiedades físicas de la UPM En la figura 4 se aprecian las diferencias en la segmentación según la técnica utilizada. La zona central de las imágenes corresponde al área segmentada por los algoritmos 2DHVT y 1DHVT. Fig. 4. Resultados de segmentación de los algoritmos 2DHVT, 1DHVT obtenidos en el trabajo de Pilar Barreiro [2]. En la figura 5 se pueden ver los resultados de nuestra segmentación en las diferentes fases del proceso seguido. En la columna izquierda de la figura se encuentra la imagen IRM original de dos mandarinas, 142

156 una sin semillas y la otra con semillas. En la columna central se encuentran las imágenes binarias obtenidas después de la segmentación por medio del k-means en el caso particular de dos clusters. En la columna de la derecha se pueden observar las imágenes resultantes al aplicar la umbralización de Otsu para separar la cáscara de la zona central. Fig. 5. Ejemplo de los resultados obtenidos con nuestra segmentación. A la izquierda se ve la imagen IRM original, en el centro la imagen binarizada por el algoritmo K-means para k=2 y en la de la derecha la imagen donde se ve la zona de las semillas. Al observar estos resultados, el siguiente paso que se siguió con el objetivo de conseguir una clasificación de las imágenes en con semilla y sin semilla, fue la comparación de la máxima distancia de todos los puntos al centro de gravedad de todas las imágenes de la parte central de las mandarinas. En la siguiente figura (fig. 6) se pueden ver los radios máximos de cada imagen de la zona central de las mandarinas. Posteriormente, se realizo una umbralización con el objeto de realizar una primera clasificación entre las mandarinas con semilla y sin semilla. En la figura se muestra con una línea de puntos el umbral que se obtuvo de dicha operación. Fig. 6. Muestreo de los radios máximos de la zona central de cada imagen IRM de mandarina. Los resultados en estos primeros experimentos de clasificación, utilizando un solo parámetro morfológico (como es el radio máximo), han sido de un 95,3 % de acierto para frutas con semilla que mejora notablemente los resultados obtenidos en el trabajo del LPF_TAG [2] que son de un 91 % y de un 87 % para frutas sin semilla comparable al 73,9% identificado por los experimentos realizados con el 2DHTV. 143

157 Además, se han conseguido unos tiempos de ejecución de 5,21 milisegundos que hace de estas técnicas una herramienta óptima para la clasificación de mandarinas. Estos resultados se han obtenido combinando una técnica de segmentación con un solo parámetro morfológico que nos hace prever grandes mejoras si se incluyeran más parámetros con el objetivo de realizar una función discriminante óptima. Con esta estrategia se podrá llegar a un 100% de aciertos de clasificación que podría resultar muy interesante para la industria. Bibliografía 1. Laboratorio de Propiedades Físicas y Tecnologías Avanzadas en Agroalimentación (LPF-TAG) Hernández-Sánchez N., Barreiro P., Ruiz-Altisent M., Ruiz-Cabello J., Encarnación Fernández-Valle M.E Detection of seeds in mandarines using MRI under motion conditions. Biosystems Engineering (Accepted) 3. Zion B., McCarthy M.J., Chen P., Real-time detection of pits in processed cherries by magnetic resonance projections. Lebensm.-Wiss. U.-Technol. 27, Barreiro P, Moya A, Correa E, Ruiz-Altisent M, Fernandez-Valle M.E, Peirs A, et al Prospects for the rapid detection of mealiness in apples by non-destructive NMR relaxometry. Appl Magn Reson 22: Hernández-Sánchez N, Barreiro P, Ruiz-Altisent M, Ruiz-Cabello J, Fernández-Valle ME Detection of freeze injury in oranges by magnetic resonance imaging of moving samples. Appl Magn Reson 26: Zheng C., Sun D.-W., Zheng L Segmentation of beef joint images using histogram thresholding. Journal of Food Process Engineering (in press). 7. Hernandez-Sanchez N., Barreiro P., Ruiz-Altisent M., Ruiz-Cabello J., Encarnación Fernández-Valle M.E Detection of freeze injury in oranges by magnetic resonance imaging of moving samples. Applied Magnetic Resonance 26 (3), Hernandez-Sanchez N., Barreiro P., Ruiz-Altisent M., Ruiz-Cabello J., Encarnación Fernández-Valle M.E Detection of seeds in citrus using MRI under motion conditions and improvement with motion correction. Concepts in Magnetic Resonance Part B: Magnetic Resonance Engineering 26 (1), Hernández-Sánchez, N.; Hills, B.; Barreiro, P.; Marigheto, N.. A NMR study on internal browning in pears. Postharvest Biology And Technology : 44: Hernandez-Sanchez, N; Barreiro, P; Ruiz-Cabello, J. On-line identification of seeds in mandarins with magnetic resonance imaging. Biosystems Engineering, 95 (4): , Barreiro, P; Ortiz, C; Ruiz-Altisent, M; et al. Mealiness assessment in apples and peaches using MRI techniques. Magnetic Resonance Imaging, 18 (9): , Ortiz, C; Barreiro, P; Ruiz-Altisent, M; et al. An identification procedure for woolly soft-flesh peaches by instrumental assessment. Journal Of Agricultural Engineering Research, 76 (4): AUG Barreiro, P; Ruiz-Cabello, J; Fernandez-Valle, ME; et al. Mealiness assessment in apples using MRI techniques. Magnetic Resonance Imaging, 17 (2): ,

158 Clasi cación de conductas animales mediante modelos ocultos de Markov Flavio Banterla, Carmen Hernández Grupo de Inteligencia Computacional Universidad del País Vasco, UPV/EHU Abstract. En este trabajo se presenta un clasi cador de conductas animales basado en modelos ocultos de Markov. El reconocimiento de patrones de conducta complejos es fundamental para lograr el objetivo de los estudios propuestos en investigación animal. Los datos de entrenamiento del modelo se obtienen por segmentación automática basada en la velocidad a partir de las trayectorias de los sujetos. Finalmente, se presentan la experimentación realizada y las líneas de investigación futuras. Palabras clave: estudio de la conducta, modelos ocultos de Markov, clasi - cación, aprendizaje automático. 1 Introducción En la investigación animal de laboratorio es necesario el análisis de patrones de conducta complejos. El método común de registro de la conducta en la investigación animal consiste en la observación sistemática, que se de ne como una vía de acceso a la cuanti cación de la conducta [1] y requiere de nir de antemano modalidades de conducta o códigos conductuales asociados a las conductas interesantes. Los evaluadores de conducta tienen que entrenarse para realizar observaciones objetivas, y observar los animales directamente o en vídeo para evaluarlos. La automatización del proceso es muy interesante, ya que proporciona medidas más objetivas y ahorro de tiempo para el investigador. En este contexto se ha difundido la utilización de herramientas informáticas de monitorización automática de la conducta animal. Los sistemas de visión por computador, en concreto, constituyen las herramientas naturales para automatizar la captura de trayectorias de animales en entornos controlados. El problema que acometemos en este artículo consiste en el tratamiento de las trayectorias y la posterior clasi cación de conductas mediante el análisis de los datos espacio-temporales obtenidas a partir de ellas. En la gran mayoría de los estudios conductuales con animales de laboratorio que desarrollan disciplinas como la psicobiología, la psicología comparada o la medicina, las variables como los niveles de exploración y de actividad son lo su cientemente sensibles para responder a las cuestiones que se plantean. Por esta razón, en nuestro estudio proponemos un modelo oculto de Markov para 145

159 clasi car tres macro-conductas: inmovilidad, movimiento sin desplazamiento y desplazamiento. Se grabaron durante 5 minutos veinte ratones de la cepa SWISS OF-1 en un recinto cerrado y cuadrado con una frecuencia de muestreo media de 29 fotogramas por segundo utilizando el software R.A.M. (Rodent Activity Monitor) de la empresa Nesplora S.L. ( A partir de los datos obtenidos, se extrajeron segmentos de trayectoria que representan las tres conductas buscadas mediante segmentación por velocidad. Cada segmento viene dado por vectores de características de longitud variable que incluyen información sobre la posición media del ratón, los valores mínimos y máximos de las posiciones del ratón durante ese segmento de trayectoria así como la varianza de las coordenadas de dichas posiciones. Estos segmentos se utilizaron para entrenar diferentes modelos ocultos de Markov semi-continuos (HMM) [2, 3, 4] con subconjuntos de entrenamiento de tamaño variable. Los resultados obtenidos demuestran que los modelos ocultos de Markov semicontinuos se adaptan bien al problema planteado como veremos a continuación. 2 Clasi cación automática de conductas en investigación animal La investigación animal de campo se ha servido de una serie de herramientas metodológicas para el análisis objetivo de la conducta. El análisis de patrones de conducta complejos que muchas veces se requieren para lograr los objetivos de los estudios etológicos, también es necesario, en ocasiones, en la investigación animal de laboratorio. La observación sistemática se ha de nido como una vía especí ca de acceso a la cuanti cación de la conducta [1]. Los problemas de validación que oscurecen la evaluación tradicional de la conducta (a través fundamentalmente de cuestionarios), y la incorporación de nuevas tecnologías, han incrementado en las últimas décadas el interés en esta aproximación, que se re ere típicamente a la ocurrencia espontánea de la conducta que se observa en contextos naturales. La observación sistemática requiere de nir de antemano varias modalidades de conducta o códigos conductuales para solicitar, entonces, a los observadores que registren, cada vez que ocurra la conducta, el correspondiente código prede nido. Pero la abilidad de la observación requiere también entrenar previamente a los observadores, de forma que todos obtengan una alta concordancia. Dado que habitualmente los observadores humanos constituyen una parte importante de la instrumentación de la observación sistemática, el problema de la abilidad se revela especialmente amplio en la investigación observacional. Hoy en día existe una colección de programas informáticos, por ejemplo el OBSERVER de la empresa NOLDUS, que facilitan y añaden objetividad a este tipo de evaluación conductual. Por ejemplo, el análisis de los estilos de interacción social en ratones requiere la de nición de una serie de variables abstractas que resumen el comportamiento observado, como la conducta social exploratoria o la exploración no social [5] y para su cuanti cación hoy en día es imprescindible la lmación del animal. Sin embargo, en su gran mayoría, los estudios conductuales con animales 146

160 de laboratorio que desarrollan disciplinas como la psicobiología, la psicología comparada o la medicina, analizan variables más groseras, como los niveles de exploración, de actividad o el tiempo que el animal pasa en determinados contextos. Estas variables son, en muchas ocasiones, lo su cientemente sensibles para responder a las cuestiones que se plantean en este tipo de investigaciones. Por ejemplo, la actividad motora espontánea en un campo abierto (open eld) es una medida utilizada en muchos modelos animales de ansiedad [6], síndrome fetal de alcohol [7] o trastorno por dé cit de atención con [8]. Para entender la importancia de la utilización del campo abierto, como paradigma para el estudio de la actividad en roedores, mostramos en la gura(1) el grá co del número creciente de artículos en los que se utiliza el open eld como instrumento de medida conductual, registrados en los últimos cinco años en la base de datos Medline. Fig. 1: Número de artículos en los que se utiliza el campo abierto (fuente: Medline). 3 Modelos ocultos de Markov Los modelos ocultos de Markov (HMM) [2, 3, 4] son procesos estocásticos que pueden ser vistos como una extensión de los modelos de Markov donde solamente se observa el comportamiento del modelo gracias a un conjunto de procesos estocásticos que producen una secuencia de símbolos observables, o también denominados observaciones. Es decir, un modelo oculto de Markov es un proceso de Markov en el cual los estados del mismo permanecen ocultos para el observador aunque, de manera indirecta, puedan ser observados a través de los símbolos emitidos en cada estado o en cada transición según ciertas distribuciones de probabilidad. Cabe destacar que la probabilidad de observación de un 147

161 símbolo emitido en un instante en concreto depende sólo del estado actual y no de los símbolos emitidos anteriormente. Esto es, se cumple la suposición de Markov de primer orden, denominada hipótesis de independencia. Consiguientemente, podemos decir que un modelo oculto de Markov (HMM) es una máquina de estados nita probabilística; es decir, un conjunto de (N + 1) estados conectados unos a otros por arcos de transición, con probabilidades asociadas a cada arco donde, en cualquier instante de tiempo, se puede considerar que el sistema está en uno de los estados posibles y que, a intervalos regulares de tiempo ocurre una transición a otro estado (o al mismo estado si existe una transición a sí mismo) conforme a las probabilidades asociadas a los arcos de transición. En nuestro caso, asociado a cada estado, también existe una distribución de probabilidad de emitir una secuencia observable una vez que el sistema entra en dicho estado del HMM. Generalmente, los estados están conectados de tal manera que cualquiera de ellos se puede alcanzar desde cualquier otro en un solo paso. Los estados se etiquetan con el conjunto de subíndices f0; : : : ; Ng y, por tanto, el estado actual en el instante de tiempo t se denota como st. No obstante, cabe destacar que, aunque los estados del modelo permanecen ocultos, se conocen a priori para una gran mayoría de aplicaciones prácticas. Por otra parte, el modelo dispone de un conjunto de (M + 1) símbolos que puede emitir denotado como fo 0 ; : : : ; o M g. La naturaleza de estos símbolos, en nuestro caso, es continua. Más formalmente, podemos decir que un HMM () se caracteriza por un conjunto de parámetros = (A; B; ) siendo: = f i g, la distribución de las probabilidades iniciales de los estados; esto es, i = P (X 0 = s i ) A = fa ij g, la matriz de probabilidades de transición entre estados donde a ij = P (X t+1 = s j jx t = s i ) 0 i; j N Esta matriz no necesita ser completa ya que, en muchos problemas, las transiciones posibles se encuentran limitadas. La matriz de transición es estocástica; es decir, la suma de valores de todos los arcos que salen de un estado es la unidad. B = fb j (k)g, un conjunto de parámetros que de nen la función de densidad de probabilidad de emisión de un símbolo observable en cada estado s j, donde b j (k) = P (Y t = o k jx t = s j ) 0 j N se de ne como la probabilidad de que se emita el símbolo o k en el instante t según la correspondiente distribución de probabilidad en el estado del modelo s j. En nuestro caso, el modelo emite un vector de características continuas. Existen distintos tipos de HMM según las transiciones permitidas entre los estados y las distribuciones de probabilidad de emisión. En nuestro caso, hemos utilizado modelos ergódicos, en los cuales se puede evolucionar desde cualquier 148

162 estado a cualquier otro en un número nito de transiciones; es decir, modelos en los cuales son posibles todas las transiciones. Por otra parte, en cuanto a las emisiones observadas, hemos utilizado HMM semicontinuos que se modelan a partir de un conjunto de mezclas de funciones de densidad de probabilidad gaussiana. 3.1 Los tres problemas básicos La mayoría de las aplicaciones de los HMM se reducen a uno de los tres siguientes problemas básicos: evaluación, decodi cación y entrenamiento [2, 3, 4]. El problema de la evaluación se centra en estimar la probabilidad de observación de una secuencia de símbolos dada. Más formalmente, dado un modelo HMM,, y una secuencia de observaciones de longitud T + 1, O = fo 0 ; : : : ; o T g, queremos calcular, de manera e ciente, la probabilidad P (O j), es decir la probabilidad de observar dicha secuencia en el modelo HMM. El problema de la decodi cación trata de determinar la secuencia de estados más probable mientras se emite la secuencia de símbolos O. Es decir, queremos encontrar la secuencia de estados tal que se maximice la probabilidad P (O; S j). En este caso, se trata de descubrir la parte oculta del modelo lo cual puede ser útil en tareas como la clasi cación de las observaciones. Finalmente, el problema de entrenamiento, de la estimación de los parámetros del modelo o del aprendizaje, trata de determinar el conjunto de parámetros del modelo HMM que maximice la probabilidad del mismo dada una secuencia de observaciones, P (O j). Para su resolución, utilizaremos las fórmulas de reestimación de Baum-Welch [2, 3, 4]. 4 Materiales y métodos El objetivo de este trabajo es el reconocimiento de tres conductas en animales de laboratorio: inmovilidad, movimiento sin desplazamiento y desplazamiento, utilizando un HMM. Como se ha adelantado en la introducción, la clasi cación utiliza las trayectorias espacio-temporales de veinte ratones de la cepa SWISS OF-1 que se grabaron durante 5 minutos en un open eld con una frecuencia de muestreo media de 29 fotogramas por segundo. Este parámetro no es constante porque el software RAM fue utilizado de forma que el procesado de las imágenes fuera en tiempo real, con consecuente carga variable de trabajo para el procesador. Las trayectorias obtenidas contienen por lo tanto unas 8700 posiciones (300 segundos 29fps). Se han grabado las trayectorias de 20 ratones, guardando los cheros de video y los datos sobre su posición durante los 300 segundos de experimento. En la gura(2) y en la gura(3) podemos ver dos tipos de trayectorias muy diferentes correspondientes al animal menos activo (sujeto 001) y al animal más activo (sujeto 008) respectivamente. Inicialmente, hemos segmentado cada una de las veinte trayectorias para obtener una clasi cación automática de los comportamientos en función de la 149

163 Fig. 2: Trayectoria del sujeto 001. distancia recorrida por el ratón. Se ha supuesto que para distancias inferiores de un cierto umbral, el animal se considera que se encuentra inmóvil, y que por encima de otro umbral, el animal se considera que se está desplazando. Estos dos umbrales de inmovilidad (0:1 píxeles) y de desplazamiento (12 píxeles) han sido concertados con los investigadores en psicología. Para obtener las distancias recorridas por los sujetos suavizando el ruido debido al sistema de captura (iluminación, calibración, etc.), se ha optado por utilizar una ventana de amplitud variable que se va desplazando a lo largo de los fotogramas para suavizar la trayectoria y reducir el tiempo de cálculo. Además los puntos utilizados para calcular las distancias son los resultantes de la media entre los puntos pertenecientes a la ventana. El tamaño de la ventana depende del número de fotogramas obtenidos en cada segundo y es de tamaño variable por la razón antes evidenciada. En la siguiente gura(4) se ilustra el número de fotogramas elaborados por RAM en tiempo real para cada segundo de observación en el caso concreto de la trayectoria del sujeto 001. Para normalizar el número de muestras que se toman a lo largo de cada segundo se establece el número de intervalos en 5, y se calcula el tamaño de la ventana en función de esta variable: T AMA ~ NO = #F OT OGRAMAS #INT ERV ALOS 150

164 Fig. 3: Trayectoria del sujeto 008. Una vez establecido el tamaño de la ventana para cada intervalo de tiempo de 1 segundo, obtenemos el valor del punto medio de la posición para este conjunto de fotogramas así como los valores mínimos, máximos y varianzas de las coordenadas x e y. Como podemos observar en la gura(6), la utilización de la ventana produce una trayectoria más suavizada y reduce el número de características a tener en cuenta: para cada segundo obtenemos 5 puntos intermedios, lo que disminuye el número de características obtenidas para cada trayectoria. Una vez obtenidos los parámetros asociados a cada ventana, calculamos la distancia euclídea entre los puntos medios y clasi camos la trayectoria en tramos de trayectorias de cada conducta, en función de esta distancia y de los umbrales de inmovilidad y de desplazamiento. Una vez realizado el etiquetado automático de las subtrayectorias de los 20 sujetos, hemos obtenido para cada clase de comportamiento un conjunto de subtrayectorias consecutivas (segmentos) que serán las utilizadas en el entrenamiento del modelo. El número de segmentos, la longitud máxima y la varianza correspondientes a las tres clases son: 151

165 Fig. 4: Número de fotogramas en la trayectoria del sujeto 001. Fig. 5: Ventanas de tamaño variable a lo largo de la trayectoria. Número segmentos Longitud máxima Varianza long clase :29 clase :01 clase :18 Y la grá ca con todos los segmentos clasi cados vs. la longitud de cada segmento es: 5 Experimentación realizada Se han realizado diversos experimentos con las trayectorias de todos los individuos, en los cuales se ha escogido un cierto porcentaje de patrones de entrenamiento de las tres clases de comportamientos de todas las trayectorias 152

166 Fig. 6: Subtrayectorias del sujeto 001. disponibles. El resto de patrones se utilizan en la veri cación de los modelos. En este caso, se generan estos patrones a partir de las trayectorias de los 20 individuos tomadas en su conjunto. Para el entrenamiento del modelo, utilizamos un modelo oculto de Markov ergódico que consta de 3 estados y que emite 1, 2 ó 3 gaussianas para el aprendizaje de la correspondencia entre las trayectorias y los comportamientos del ratón. Para cada comportamiento, utilizamos un modelo HMM que ha sido entrenado con un 1%, 5%, 10%, 15%, 20%, 30%, 50% y 70% de las muestras obtenidas para cada trayectoria mediante el algoritmo de aprendizaje de Baum-Welch. El número de iteraciones máximo para el aprendizaje es 100, y el número de réplicas para cada experimento es 10. Cada modelo ha sido veri cado utilizando las muestras no utilizadas en el entrenamiento. En las siguientes tablas se muestran los resultados obtenidos en función del índice de validación que mide el porcentaje del número de aciertos. 153

167 Fig. 7: Distancia entre la posición media del individuo obtenida para cada ventana, varianza de las coordenadas x e y así como la clasi cación de cada subtrayectoria correspondientes al primer vídeo de control. Porcentaje de entrenamiento (1 gaussiana) 1% 5% 10% 15% 20% 30% 50% 70% Train 95:62 91:47 89:81 89:49 88:08 88:13 87:96 88:05 Test 86:12 88:01 88:24 87:92 88:00 87:80 87:83 86:92 Mean 90:87 89:74 89:03 88:71 88:04 87:97 87:90 87:49 Porcentaje de entrenamiento (2 gaussianas) 1% 5% 10% 15% 20% 30% 50% 70% Train 98:36 95:00 93:21 91:73 91:20 89:97 89:54 89:28 Test 80:62 86:19 87:63 88:17 88:75 88:68 87:87 88:20 Mean 89:49 90:59 90:42 89:95 89:97 89:33 88:71 88:74 Porcentaje de entrenamiento (3 gaussianas) 1% 5% 10% 15% 20% 30% 50% 70% Train 99:73 94:69 93:85 92:45 91:78 91:31 89:51 89:51 Test 77:48 84:49 86:86 87:58 87:90 87:92 88:02 88:39 Mean 88:60 89:59 90:36 90:02 89:84 89:62 88:77 88:95 Se puede observar que, en todos los experimentos realizados - ver gura (9), existe sobreentrenamiento lo cual indica que deberíamos realizar una selección de los patrones de entrenamiento previa al proceso de aprendizaje seguramente 154

168 Fig. 8: Longitud de todas las subtrayectorias (segmentos) según la clasi cación obtenida. basada en el análisis de componentes principales (PCA) o bien en el análisis de discriminación lineal (LDA) para elegir los mejores ejemplos que den lugar a un buen conjunto de entrenamiento. No obstante, el comportamiento de los modelos que utilizan 2 y 3 gaussianas no es tan acusado cuando se evalúa el conjunto de veri cación o test como puede observarse en la gura(10). Por otra parte, hemos analizado los índices internos de validación de las particiones utilizadas durante el entrenamiento de estos modelos[9]. Los índices de validación internos estudiados son: Silhouette: El rango del índice de la silueta s(x) es [ 1; 1] donde, si su valor es próximo a 1, se dice que el ejemplo x ha sido asignado a la clase apropiada y si su valor es cercano a 0, podemos suponer que el ejemplo x podría haber 155

169 Fig. 9: Porcentaje del número de aciertos para el conjunto de entrenamiento (train) según el porcentaje del conjunto de entrenamiento utilizado. Fig. 10: Porcentaje del número de aciertos para el conjunto de veri cación (test) según el porcentaje del conjunto de entrenamiento utilizado. 156

170 sido asignado a dicha clase o a cualquier otra clase cercana denominada clase del vecindario. En este último caso, decimos que el ejemplo x se encuentra en la frontera de la clase a la que pertenece. Por otra parte, si el valor de este índice es próximo a 1, el ejemplo x no ha sido bien asignado a la clase y, por lo tanto, debería ser asignado a cualquier otra clase de la partición y se dice que no se ha encontrado una estructura en la partición. Davies-Bouldin: Si las clases están bien compactadas y alejadas las unas de las otras, el valor de este índice es pequeño y corresponde a una buena partición del conjunto de datos. El valor óptimo de este índice es un valor cercano a cero. Fisher: El índice de Fisher de la partición viene dado por el cociente entre la hetereogeneidad y la hom*ogeneidad de la partición y su valor óptimo se encuentra en un valor cercano a uno. Hantingan : Este índice es una variación del índice de Fisher y su valor óptimo es un valor cercano a cero. Calinski-Harabasz: Este índice relaciona las dos medidas de la hetereogeneidad y de la hom*ogeneidad de las clases de la partición y un alto valor de este índice indica que entre las clases existe una gran separación. Krzanowski y Lai: Este índice viene dado por la medida de la hom*ogeneidad de la partición. Como podemos observar en la gura(5), todos los índices internos toman valores no muy buenos, en general. Esto indica que el conjunto de datos de entrenamiento es difícil de modelar. Esto puede ser debido por la naturaleza del problema a modelar, por una mala elección de los datos de los conjuntos de entrenamiento o por una modelización de las características de los datos no muy discriminativa lo cual nos indica que deberíamos seleccionar mejor los datos de entrenamiento o extender los vectores de características de los datos con información que discrimine mejor las clases a modelar. 157

171 Fig. 11: Índices de validación internos para los diferentes conjuntos de entrenamiento utilizados en la experimentación. 6 Conclusiones y Líneas Futuras En este trabajo hemos utilizado los modelos ocultos de Markov para la clasi- cación de ciertas conductas animales así como hemos presentado un método automático de segmentación de las trayectorias que pueden ser de gran utilidad en el área de la investigación de conductas animales. Los resultados obtenidos demuestran que los modelos ocultos de Markov se adaptan bien al problema planteado. No obstante, el efecto de sobreentrenamiento observado, evidencia la necesidad de escoger un mejor conjunto de entrenamiento. Por esta razón el paso sucesivo de esta investigación será realizar una selección previa de los patrones de entrenamiento mediante análisis de componentes principales (PCA) o bien mediante análisis de discriminación lineal (LDA), de modo de elegir los mejores ejemplos de conducta que den lugar a un buen conjunto de entrenamiento. También pensamos que un estudio más profundo de las características de los datos puede ayudar a modelar comportamiento más complejos de los sujetos. 158

172 Una vez suavizado el efecto de sobreentrenamiento, se intentará adaptar el modelo para clasi car conductas más complejas de las analizadas en este trabajo. Como se ha subrayado en el párrafo 2, existen investigaciones con animales de laboratorio en las que se utiliza un paradigma social, donde dos o más animales interactúan en el mismo espacio. En esos casos se requiere la observación de conductas sociales, como pueden ser el ataque, la huida o la amenaza entre otras. Conseguir un clasi cador automático de conductas sociales representaría un gran adelanto en la investigación observacional. References [1] R. Bakeman, J.G.: Observación de la interacción: introducción al análisis secuencial. Ediciones Morata (1989) [2] C. Hernández, M. Graña, K.L.d.I.A.: Modelos ocultos de markov. Aprendizaje Automático: conceptos básicos y avanzados. Aspectos prácticos utilizando el software WEKA, Pearson Educación, Prentice Hall (2006) [3] Rabiner, L.: A tutorial on hidden markov models and selected applications in speech recognition. Proceedings of the IEEE 77 (1989) [4] L.R. Rabiner, B.J.: An introduction to hidden markov models. IEEE ASSP Magazine 3(1) (1996) 4 16 [5] O. Vegas, E. Fano, P.B.A.A.A.A.: Social stress, coping strategies and tumor development in male mice: behavioral, neuroendocrine and immunological implications. Psychoneuroendocrinology 31 (2006) [6] V. Carola, F. D Olimpio, e.a.: Evaluation of the elevated plus-maze and open- eld tests for the assessment of anxiety-related behaviour in inbred mice. (2002) [7] N.W. Bond, E.D.G.: E ects of prenatal alcohol consumption on open- eld behaviour and alcohol preference in rats. Psychopharmacologia 46(2) (1976) [8] C. Fahlke, S.H.: Alcohol responsiveness, hyperreactivity, and motor restlessness in an animal model for attention-de cit hyperactivity disorder. Psychopharmacology (Berl) 146(1) (1999) 1 9 [9] Hernández C., Graña M., G.J.: Survey of clustering perfomance indices. Research Report, Dept. CCIA, UPV/EHU, Facultad de Informática (2005) 159

173 Uso de las Memorias Morfológicas Asociativas para el análisis de estrategias de afrontamiento en el estrés social en ratones Miguel Angel Veganzones 1 {miguelangel.veganzones@ehu.es}, Zurine De Miguel 2 {zmiguel001@ikasle.ehu.es}, Arantza Azpiroz 2 {arantza.azpiroz@ehu.es} 1 Grupo de Inteligencia Computacional, 2 Departamento de Procesos Psicológicos Básicos y su Desarrollo, Universidad del País Vasco (UPV/EHU) Resumen Este artículo presenta una nueva técnica de análisis multivariante basada en el uso de Memorias Morfológicas Asociativas (AMM en sus siglas en inglés). Esta técnica permite reducir la dimensionalidad de los datos transformando el espacio de variables en un nuevo espacio más reducido con poca perdida de información. Para ello, identica factores extremos en la población de datos y representa a los sujetos de la población en función de estos factores. Este trabajo demuestra la utilidad de esta técnica mediante su uso en el análisis de datos extraídos de la experimentación con ratones para la identicación de estrategias de afrontamiento en el estrés social. Palabras clave: memorias morfológicas asociativas, análisis multivariante, análisis de componentes principales, análisis de componentes independientes, estrés social, estrategias de afrontamiento, experimentación con animales 1. Introducción El análisis de datos multivariante [4,8] es un método estadístico utilizado para determinar la contribución de varios factores (variables independientes o variables descriptivas) en un simple evento o resultado (evento, variable dependiente o variable respuesta) [19]. En el análisis multivariante se usan diversas técnicas que van desde las técnicas de regresión a las técnicas de proyección sobre variables latentes (variables no observadas). Estas últimas presentan varias ventajas sobre las tradicionales técnicas de regresión: (a) se puede utilizar la información de múltiples variables de entrada, aunque éstas no sean linealmente independientes; (b) se puede trabajar con muestras que contengan más variables que observaciones; (c) se puede trabajar con muestras incompletas, siempre que los valores faltantes estén aleatoriamente distribuidos y no superen un 10%; (d) puesto que se basan en la extracción secuencial de los factores, que extraen la mayor variabilidad posible de la matriz muestral (variables explicativas, tienen que ser dependientes) se puede separar la información del ruido. Las técnicas de proyección sobre variables latentes cobran mayor relevancia cuando las observaciones analizadas tienen una alta dimensionalidad (muchas 160

174 variables). En estos casos aparece la denominada "Maldición de la Dimensionalidad (Curse of Dimensionality)", término acuñado por Richard Bellman (1961) y que denota el crecimiento exponencial de un hipervolumen en función de la dimensionalidad. En estadística, este efecto está relacionado con el hecho de que la convergencia hacia el valor "cierto" de cualquier estimador de una función suave en un espacio de alta dimensionalidad es muy lenta. Existen otros aspectos interesantes de la alta dimensionalidad como la concentración de la medida y la concentración de la distancia que indican respectivamente que, según aumenta la dimensionalidad, las observaciones de una función se concentran alrededor de su esperanza y que las distancias entre las observaciones se hacen equivalentes. Las técnicas de proyección sobre variables latentes tales como el Análisis de Componentes Principales (PCA en sus siglas en inglés) y el Análisis de Componentes Independientes (ICA en sus siglas en inglés) resultan interesantes no sólo por el hecho de que revelan las variables no observadas del sistema, transformando el espacio de variables original en un nuevo espacio más representativo de la población, sino porque dicha transformación suele conllevar una reducción de la dimensionalidad, disminuyendo sustancialmente la complejidad del problema a cambio de una pequeña pérdida de información. En este artículo se presenta una nueva técnica de análisis multivariante basada en las Memorias Morfológicas Asociativas (AMM) que hacen uso del concepto de independencia morfológica [5] para obtener factores extremos de la población. Estos factores permiten denir un nuevo espacio de representación de la población, más representativo, descriptivo y de menor dimensionalidad. La técnica de AMM ha sido usada con éxito anteriormente para la extracción de endmembers en imágenes hiperespectrales [7,2]. En la sección 2 se hace una revisión de las técnicas que más habitualmente se emplean en el análisis multivariante, enfocandose especialmente en las técnicas de Análisis de Componentes Principales y el Análisis de Componentes Independientes. En la sección 3 se presenta la técnica de análisis multivariante basada en el uso de Memorias Morfológicas Asociativas. En la sección 4 se demuestra la utilidad de dicha técnica en el análisis de datos extraídos de la experimentación con ratones para la identicación de estrategias de afrontamiento ante el estrés. En la sección 5 se presentan las conclusiones y trabajos futuros. 2. Técnicas de análisis multivariante El análisis estadístico de poblaciones denidas mediante varias variables puede estar orientado en varias direcciones. Por un lado las observaciones pueden presentar características comunes que permitan realizar una clasicación en grupos hom*ogéneos (análisis de cluster, análisis discriminante, árboles de decisión, etc.). Por otro lado, puede que las observaciones recogidas sean redundantes, para lo que son necesarios métodos multivariantes de reducción de la dimensión (análisis en componentes principales, análisis factorial, correspondencias, escalamiento óptimo, etc.) que permitan reducir la dimensionalidad del problema eliminando la redundancia en las observaciones. Finalmente, puede ser que se 161

175 desee conocer el comportamiento de una variable en función de otras, o incluso, predecir su comportamiento dadas otras variables conocidas (regresión lineal, regresión logística, regresión no lineal, análisis de la varianza, etc.). El análisis multivariante mediante Memorias Morfológicas Asociativas implica la selección de nuevas variables y la proyección de las observaciones en este nuevo espacio de representación. Por ello, se enmarca dentro de las técnicas de proyección de variables latentes, así como las técnicas de Análisis de Componentes Principales y Análisis de los Componentes Independientes que van a ser expuestas a continuación Análisis de Componentes Principales (PCA) El Análisis de Componentes Principales (Hotelling 1933) es una técnica de análisis multivariante que se aplica sobre variables cuantitativas. El objetivo es obtener un conjunto de componentes incorrelacionadas y escaladas, las componentes principales, a partir del análisis de la interdependencia de las variables originales. Las componentes obtenidas son una combinación lineal de las variables originales y deben interpretarse dentro del fenómeno estudiado. Es, por tanto, una técnica descriptiva. Esta técnica es útil por dos motivos: 1. En general, cuando se estudia un fenómeno, los investigadores disponen de un conjunto de variables observadas que están correlacionadas entre sí en mayor o menor grado, y que dicultan la interpretación de los datos. PCA permite obtener un nuevo conjunto de variables, las componentes principales, que están incorrelacionadas y libres de efectos de escala, facilitando la interpretación de los datos. 2. Las componentes principales son combinación lineal de las variables observadas originalmente. Se pueden obtener tantas componentes principales como variables originales, pero no todas las componentes principales proporcionan la misma cantidad de información. De esta manera, se pueden elegir aquellas componentes principales que aporten mayor información desechando las restantes. Esto hace que PCA se utilice como una herramienta de reducción de la dimensionalidad. Sea una muestra de n observaciones de p variables X 1,..., X p inicialmente correlacionadas, se desea obtener un número k p de variables incorrelacionadas Z 1,..., Z k que sean combinación lineal de las variables originales y que expliquen la mayor parte de su variabilidad. Cada componente principal Z h puede expresarse como una tranformación ortogonal U de las variables originales: Z h = u h1 X 1 + u h2 X u hp X p (1) En notación abreviada: Z h = XU h (2) 162

176 En general, la técnica de PCA se aplica sobre variables tipicadas o sobre variables expresadas en desviaciones sobre la media para evitar problemas derivados de la escala. De esta manera, la media de las variables originales es cero y la suma de las varianzas de las componentes extraídas es igual a la suma de las varianzas de las variables originales, que es igual a p si las variables están tipicadas. Cálculo de las componentes principales. Para calcular el primer componente principal se busca la combinación lineal de las variables originales con mayor varianza. La media y varianza de dicha componente Z 1 es: E(Z 1 ) = E(XU 1 ) = E(X)U 1 = 0 (3) V (Z 1 ) = n i=1 2 1 n z = 1 1i n ZT 1 Z 1 = 1 n U T 1 XT XU 1 = U T X 1 [XT n ]U 1 (4) Para variables expresadas en desvaciones respecto a la media, la expresión XT X n (matriz de inercia) es la matriz de covarianzas muestral, Σ (caso más general), y si las variables están ticadas la matriz de inercia se corresponde con la matriz de correlaciones R. La primera componente se obtiene maximizando su varianza sujeta a la restricción de que los pesos U 1 estén normalizados: arg máx U T 1 ΣU 1 (5) p j=1 u 2 1j = 1 (6) La segunda componente principal, así como las restantes, se expresan como combinación lineal de las variables originales. De esta manera, la segunda componente principal se expresa como: Z 2 = XU 2. Su cálculo es similar al del primer componente principal, se maximiza su varianza sujeta a la normalización de los pesos, pero se añade la restricción de ortogonalidad respecto a la primera componente: arg máx U T 2 ΣU 2 (7) p j=1 u 2 2j = 1 (8) U T 2 ΣU 1 = 0 (9) Generalizando, puede demostrarse que el espacio de dimensión k que mejor representa las observaciones viene representado por los vectores propios asociados 163

177 a los k mayores valores propios de Σ. Estas direcciones se denominan direcciones principales de los datos y a las nuevas variables denidas por ellas, componentes principales. En general, Σ tiene rango p y existen tantas componentes principales como variables originales, que se obtienen calculando los valores propios o raíces característcias λ 1, λ 2,..., λ p de la matriz Σ, de la siguiente manera: siendo sus vectores asociados: Σ λi = 0 (10) (S λi)u i = 0 (11) Interpretación geométrica. Para interpretar geométricamente los componentes principales hay que hacer un ejercicio de abstracción e imaginar una hiperelipsoide p-dimensional que envuelva los puntos que representan las observaciones. Si las proyecciones del elipsoide sobre los planos que denen dos a dos las variables son paralelos a éstos, cada una de las variables originales contendrá la máxima información de la nube en cada una de las p dimensiones (ver Figura 1a). Sin embargo, la hiperelipsoide que envuelve los datos suele presentar una inclinación sobre los planos, por lo que sus ejes no recogen la información de forma óptima. El análisis de componentes principales tranforma los ejes de este hiperelipsoide en unos nuevos que también se cortan en el centro de masas de la nube y que son perpendiculares entre sí, pero que optimizan la información. El primer eje (el más largo) se elige de manera que la dispersión de la nube sobre él sea máxima, el segundo se elige de manera que la dispersión sobre el plano perpendicular al primero sea máxima, y así hasta obtener los p ejes. Al nuevo hiperelipsoide formado por los p ejes (componentes principales) que maximizan la dispersión de la información de la nube de puntos, se le denomina hiperelipsoide de concentración (ver Figura 1b). Selección del número de componentes. Como ya se ha mencionado, PCA puede ser utilizado como una herramienta para reducir la dimensionalidad del problema. Cada uno de los componentes principales extraídos no contiene la misma información y pueden desecharse aquellos que aporten poca información, reteniendo k < p variables. Existen diversos métodos que facilitan la elección de un número adecuado de componentes: Criterio de la media aritmética: se seleccionan aquellas componentes cuyas raíces características λ r exceda de la media de las raíces características. p λ r > λ λ j =. Si las variables están tipicadas, p λ j = p y, por tanto, p j=1 j=1 se retienen las componentes principales que cumplan que λ r > 1. Seleccionar aquellos componentes hasta cubrir una proporción determinada de varianza, por ejemplo, el 90 %. 164

178 Figura 1. Interpretación geométrica: (a) proyecciones del hiperelipsoide sobre los planos, (b) hiperelipsoide de concentración Otros métodos: contraste sobre las raíces características no retenidas, prueba de Anderson, prueba de Lebart y Fenelón, prueba del bastón roto de Frontier, etc. De cualquier modo estos métodos son arbitrarios y ha de tenerse en cuenta en cada caso el papel que juega cada variable en el experimento, de cara a explicar el fenómeno estudiado, antes de ser desechada Análisis de Componentes Independientes (ICA) El Análisis de Componentes Independientes (Jutten y Hérault, 1991; Common, 1994) [9] es un método computacional que sirve para separar los componentes aditivos de una señal multivariante, que sigue el supuesto de que los componentes proceden de fuentes independientes no gaussianas. Es un caso especial de la separación ciega de fuentes. Figura 2. Señal captada por los micrófonos 165

179 Su uso típico viene denido por el problema de la esta-co*cktail. En una habitación hay dos personas hablando simultáneamente y dos micrófonos que recojen el sonido de la habitación situados en dos lugares distintos de la misma. Los micrófonos graban dos señales temporales denotadas x 1 (t), x 2 (t) (ver Figura 2), siendo x 1, x 2 la amplitud y t el tiempo. Cada una de estas señales grabadas es una suma ponderada de las dos señales emitidas por los interlocutores, a los que denotaremos s 1 (t), s 2 (t) (ver Figura 3). Este modelo puede expresarse así: x 1 (t) = a 11 s 1 (t) + a 12 s 2 (t) x 2 (t) = a 21 s 1 (t) + a 22 s 2 (t) (12) donde a 11, a 12, a 21, a 22 son parámetros que dependen de las condiciones de grabación, como por ejemplo, la distancia de los micrófonos a los interlocutores. El problema de la esta-co*cktail consiste en hallar las señales originales s 1 (t), s 2 (t), partiendo de las señales grabadas x 1 (t), x 2 (t). Figura 3. Señal emitida por los interlocutores Modelo de variables latentes. Desde el punto de vista estadístico puede obviarse la variable temporal y simplicarse el modelo de esta-co*ktail como un modelo de variables latentes. Dadas n observaciones x 1, x 2,..., x n denidas como una mezcla lineal de p componentes independientes s 1, s 2,..., s p : x i = a i1 s 1 + a i2 s a ip s p (13) en notación abreviada: x = As = p j=1 a j s j (14) ICA es un modelo generativo que describe como se generan los datos observados x como un proceso de mezcla de los componentes independientes s. Los componentes independientes son variables latentes que no pueden ser observadas 166

180 directamente. La matriz de pesos A también se desconoce. ICA se basa en la independencia de las componentes no gaussianas s para estimar la matriz de pesos A, y calculando su inversa W obtener los componentes independientes: s = W x (15) Cálculo de las componentes independientes. Actualmente existen varias aproximaciones para estimar la matriz de pesos A y, por tanto, para extraer los componentes independientes s. La principal aproximación se basa en la condición de no normalidad (distribución no gaussiana) de las componentes independientes. Considerando una combinación lineal de las señales x, denotada por y = w T x, donde w es el vector que se desea determinar. Si w es una de las las de la matriz inversa de A, la combinación lineal se corresponde con una de las componentes principales. Para que se de esa condición, se usa el Teorema del Límite Central, que indica que bajo ciertas condiciones la distribución de una suma de variables aleatorias tiende hacia una distribución más cercana a una gaussiana que las señales que forman la mezcla. haciendo un cambio de variables se puede ver que y es una combinación lineal de s. Sea z = A T w, entonces y = w T x = y = w T As = z T s. El cálculo de las componentes independientes consiste en estimar el vector w que maximice la no normalidad de w T x. Para ello, se usan distintas medidas de la no normalidad como la Kurtosis o la negentropía. En [9] se proporciona un método muy eciente para maximizar la no normalidad denominado FastICA. Otras aproximaciones se basan en la minimización de la información mútua o en estimadores de la máxima verosimilitud. Diferencias entre PCA e ICA. PCA es un método que permite encontrar una transformación lineal de las variables originales de manera que éstas no queden correlacionadas. ICA persigue encontrar una transformación lineal que haga que las variables sean lo más independientes posibles. La condición de independencia es más fuerte que la no correlación. La correlación mide la existencia de una relación lineal entre las variables, mientras que la dependencia mide la existencia de cualquier relación entre las variables: x, y incorrelacionadas sii E[xy] = E[x]E[y] x, y independientes sii E[f(x)g(y)] = E[f(x)]E[g(y)] (16) 3. Memorias Morfológicas Asociativas (AMM) Las Memorias Morfológicas Asociativas surgen de trabajar con la estructura algebráica (R,,, +) como alternativa al algebra aritmético (R, +, ) en la computación con Redes Neuronales [11,12]. Los operadores, denotan, respectivamente, las operaciones discretas max y min. (sup e inf en un dominio continuo), lo que se corresponde con los operadores morfológicos de dilatación y erosión. 167

181 Dado un conjunto de pares de patrones entrada/salida (X, Y ) = {(x ɛ, y ɛ ); ɛ = 1,..., k}, una red neuronal heteroasociativa basada en la correlación cruzada [18] se construye sobre la función W = ɛ yɛ (x ɛ ). En la línea de dicho procedimiento constructivo en [11,12] se propone las siguientes construcciones de Memorias Morfológicas Heteroasociativas (HMMs): W XY = k [y ɛ ( x ɛ ) ] y M XY = ɛ=1 k ɛ=1 [y ɛ ( x ɛ ) ] (17) donde representa cualquiera de los operadores ó que denotan, respectivamente, el producto matricial max y min, denidos así: C = A B = [c ij ] c ij = C = A B = [c ij ] c ij = k=1,..,n k=1,..,n {a ik + b kj }, (18) {a ik + b kj }. (19) Si X = Y entonces las memorias HMM son memorias Morfológicas Autoasociativas (AMM) Análisis multivariante con AMM El uso de las Memorias Morfológicas Asociativas como técnica de análisis multivariante, busca factores extremos de la población que permitan denir una caja hiperdimensional centrada en el origen del espacio de variables de alta dimensión (los datos deben estar representados en puntuaciones Z, desviaciones respecto de la media). Los factores son vectores morfológicos independientes en ambos sentidos, erosión y dilatación, y engloban al resto de individuos de la población. La búsqueda de los factores se realiza siguiendo el Algoritmo 1, que es una adaptación del algoritmo denido en [2] para la extracción de endmembers sobre imágenes hiperespectrales. Los factores extraídos son una combinación lineal de las variables que forman el espacio de representación original: e i = a i1 x 1 + a i2 x a id x d (20) donde E = {e 1,.., e p } son los factores extraídos de la población mediante la técnica AMM, X = {x 1,.., x d } son las variables originales, y A = {a 1,.., a p } es la matriz de abundancias que denota la participación fraccional de cada variable original en cada factor. Los individuos de la población se representan en función de estos nuevos factores en un espacio de dimensión p < d. 4. Experimento: análisis de estrategias de afrontamiento en el estrés social en ratones Los datos utilizados en este trabajo han sido cedidos por el Laboratorio de Psicobiología de la Facultad de Psicología de la Universidad del Pais Vasco. El 168

182 Algorithm 1 Extracción de los factores de la población 1. Calcular las puntuaciones Z de la población: f c (i) = f(i) µ ; i = 1,..., n σ 2. Inicializar el conjunto de factores E = {e 1 } con un individuo de la población extraído aleatoriamente. Inicializar el conjunto de rmas morfológicamente independientes binarias X = {x 1} = {e 1 k > 0; k = 1,..., d} 3. Construir las AMMs basadas en las rmas morfológicamente independientes binarias: M XX y W XX. 4. Para cada individuo f c (i): a) Calcular el vector de rmas de las correciones de ruido Gaussiano f + (i) = (f c (i) + ασ > 0) y f (i) = (f c (i) ασ > 0) b) Calcular y + = M XX f + (i) c) Calcular y = W XX f (i) d) Si y + X o y X entonces f c (i) es un nuevo factor que debe ser añadido a E, ir al punto 3 y continuar con la exploración del resto de la población. e) Si y + X y f c (i) > e y + la rma multivariante del individuo es más extrema que la del factor almacenado, luego sustituir e y + por f c (i) f ) Si y X y f c (i) < e y la rma multivariante del individuo es más extrema que la del factor almacenado, luego sustituir e y por f c (i) principal interés de estos experimentos llevados a cabo en este laboratorio se centra en el estudio de las relaciones bidireccionales entre el Sistema Nervioso Central y el Sistema Inmunitario. Esta relación bidireccional se conoce gracias a investigaciones realizadas tanto en humanos como en animales, que han centrado su atención en la relación entre estrés e inmunidad durante los últimos veinticinco años. La respuesta de estrés implica cambios en los ejes Hipotálamo-Pituitario- Adrenal y en el Simpático-Adreno-Medular, provocando alteraciones en diversos parámetros inmunitarios. Sin embargo, los efectos observados no son siempre hom*ogéneos. Actualmente, parece que existe un consenso interdisciplinar en aceptar que esta variabilidad interindividual frente al estrés es dependiente de los estilos de afrontamiento, y no tanto de las características físicas de los agentes estresores. Es decir, que el impacto de los estresores, está determinado en gran medida por la habilidad del organismo de afrontar la situación [13,15]. La investigación en este campo puede revelar mecanismos de vital importancia para una mejor comprensión de los factores que subyacen en la susceptibidad a los eventos estresantes. Entender las causas de estas diferencias individuales y sus consecuencias en términos de bienestar, capacidad adaptativa y vulnerabilidad individual a la enfermedad es ciertamente uno de los mayores objetivos de la investigación biopsicosocial. Muchos investigadores han intentado determinar la vulnerabilidad individual a las enfermedades relacionadas con el estrés utilizando índices de la capacidad de afrontamiento del estrés. Los experimentos a los que pertenecen los datos utilizados pretenden un intento de abordaje en este sentido, realizando una clasicación de los diferentes estilos de afrontamiento y relacionando estas diferencias con los distintos efectos del estrés en diversos 169

183 parámetros inmunitarios y otros marcadores biológicos de la respuesta de estrés. Un estilo de afrontamiento se dene como una respuesta coherente de conductas y cambios siológicos consistentes en el tiempo y que es característico de un grupo de individuos [10]. En el presente trabajo se han utilizado únicamente los datos obtenidos de la evaluación conductual Materiales y métodos Se aplicó el modelo de estrés social por contacto sensorial indirecto [16] a 198 ratones macho de la cepa OF1. Los animales del grupo estresado se enfrentaron como intrusos a animales agresivos residentes, durante un período de 24 horas. Durante este período de tiempo, los animales fueron sometidos a interacción física-directa sólo en tres intervalos de 5 minutos. El resto del tiempo los animales intrusos experimentales fueron físicamente protegidos de los animales agresivos residentes mediante un separador de metacrilato perforado, que permitía que el enfrentamiento continuase de una manera sensorial-indirecta en la misma jaula. Todos los procedimientos que se llevaron a cabo con estos animales respetan el Convenio Europeo Sobre Protección De Los Animales Vertebrados Utilizados Con Fines Experimentales Y Otros Fines Cientícos (Estrasburgo, 18 de Marzo de 1986) Evaluación conductual La evaluación conductual se llevó a cabo mediante el programa THE OB- SERVER 4.1. En esta aplicación se creó una conguración basada en el etograma del ratón elaborado por Brain et al. [17] y modicado por Vegas et al. [1]. Este etograma contempla 52 pautas de conducta del ratón agrupadas en 11 categorías conductuales que a continuación se describen: Inmovilidad: el sujeto suprime la actividad de todas las partes del cuerpo. Exploración social: pasar por encima o por debajo del oponente, rodearlo, seguirlo, empujarlo u olerlo. Exploración no social: cuando el animal deambula, salta o corre dirigiendo su atención hacia el ambiente y no el oponente. Exploración a distancia: cuando el animal deambula alejándose y/o acercándose al oponente. Ataque: muerde al oponente y/o corre detrás de él mientras este huye. Amenaza: es un aseo agresivo del oponente, postura de ofensa vertical (levantar el lomo, agachar las orejas), postura de ofensa lateral y golpeteo con el rabo. Huida: el sujeto se aleja del oponente corriendo, saltando. Evitación: el sujeto retrocede lentamente, se aprieta contra la pared o gira la cabeza para evitarlo. Defensa-sumisión: el animal estira la cabeza hacia atrás, con las patas delanteras rígidas y ampliamente extendidas. 170

184 Autoaseo: el animal se frota la cara o se lame el cuerpo. Escarbar: el sujeto remueve el serrin. Tras evaluar la conducta de los sujetos experimentales sometidos a estrés social se obtuvo el porcentaje de tiempo dedicado a cada una de las categorías conductuales. Estos datos fueron posteriormente exportados desde la aplicación THE OBSERVER 3.0 para su análisis con la técnica de Memorias Morfológicas Asociativas Análisis estadístico de la conducta y resultados Mediante el análisis de la técnica de Memorias Morforlógicas Asociativas se identican dos factores conductuales en la población. Para llevar a cabo la caracterización conductual de los factores, no hemos tenido en cuenta aquellas variables cuyos valores son representativos del 51% de la población, es decir, aquellas variables con una puntuación Z entre 0 y ±0,7 (Figura 4). Los valores superiores a este rango son considerados como características conductuales de los factores que a continuación se detallan. Figura 4. Factores conductuales en la población Estos factores nos ayudan a describir cuatro posibles perles conductuales atendiendo a si la contribución del factor a la representación del sujeto es positiva o negativa. De esta manera diferenciaremos cuatro tipos de perles: Perl A y Perl B para el Factor 1, y Perl C y Perl D para el Factor

185 Perl conductual A: cuando la contribución del Factor conductual 1 a la representación del sujeto es positiva. Éste perl describe un tipo de respuesta conductual que muestran los sujetos sometidos a una situación de confrontación social. Se caracteriza por unos niveles elevados de amenaza (Z=2,178), exploración no social (Z=1,439) y ataque (Z=1,659) dentro de la población. Al mismo tiempo, es característico de este perl la ausencia de conductas como la defensa-sumisión (Z=-0,932) o la huida (Z=-0,837). Perl conductual B: cuando la contribución del Factor conductual 1 a la representación del sujeto es negativa. Este perl describe una conducta caracterizada por niveles muy elevados de defensa-sumisión (Z=0,932) y de huida (Z=0,837) dentro de la población. Al mismo tiempo, éste perl destaca porque no se observan conductas como la amenaza (Z=-2,178), la exploración no social (Z=-1,439) y el ataque (Z=-1,659). Perl conductual C: este perl se reere a aquellos sujetos representados por valores positivos en el Factor conductual 2. Describe un tipo de respuesta conductual muy especíca, caracterizada por elevadísimos niveles en escarbar (Z=8,724) y elevados niveles de exploración no social (Z=4,491), exploración social (Z=1,992), evitación (Z=1,493) y autoaseo (Z=1,139) con respecto a la media de la población. Además, es característico de este tipo de respuesta la ausencia de las conductas de inmovilidad (Z=-1,895), defensa-sumisión (Z=-1,453), huida (Z=-1,351), exploración a distancia (Z=-1,254), amenaza (Z=-0,911) y ataque (Z=-0,730). Perl conductual D: cuando la contribución del Factor conductual 2 a la representación del sujeto es negativa. La conducta representada por este perl está caracterizada por mayores niveles que el resto de la población en defensa-sumisión (Z=1,453), inmovilidad (Z=1,895), exploración a distancia (Z=1,254), huida (Z=1,351), amenaza (Z=0,911) y ataque (Z=0,730). Por otro lado, es característico de este perl, que no se observen las conductas de escarbar (Z=-8,724), autoaseo (Z=-1,139), exploración no social (Z=-4,491), exploración social (Z=-1,992) y evitación (Z=-1,493). Se aplicó un Análisis de Cluster Jerárquico utilizando los valores obtenidos de cada sujeto en cada factor. La aplicación del criterio de corte establece el punto de inexión a una distancia igual a 5, formando así dos conglomerados que agrupan a sujetos con diferentes características conductuales en una situación de estrés social. Para conrmar la validez de los grupos obtenidos, se aplicó además un análisis discriminante. El modelo discriminante aplicado (Método Lambda de Wilks de inclusión por pasos) determina los factores conductuales más ecientes en la discriminación entre los dos conglomerados. Como se muestra en la gura 5, el Factor 1 es el que mejor discrimina entre los dos grupos, y es la única variable seleccionada para su inclusión en el modelo discriminante. El Factor 2 no contribuye de manera signicativa a incrementar la discriminación entre los dos grupos, y queda fuera del modelo explicativo. El Factor 1 por si solo explica el 100% de la varianza entre los grupos. Las estimaciones del modelo de análisis discriminante aplicado coinciden en el 96,5% de los casos, con la solución de cluster conrmándose así la validez estadística de los agrupamientos brindados 172

186 por este análisis. La gura 5 se puede observar la distribución de los sujetos, conrmándose que la descripción conductual de cada uno de los grupos se basa en el Factor 1. Figura 5. Clasicación de la población según los factores conductuales encontrados La solución de clúster nal junto con el análisis discriminante ofreció la siguiente clasicación de los sujetos: Clúster 1 (n=70): los sujetos en este clúster están representados por valores positivos en el Factor conductual 1. Por tanto, la respuesta conductual de estos sujetos ante la confrontación social con un sujeto agresivo viene representada por el Perl conductual A, esto es, niveles elevados de amenaza, exploración no social y ataque, mientras que no muestran conductas como la defensa-sumisión y la huida. Clúster 2 (n=128): estos sujetos están principalmente representados por valores negativos del Factor conductual 1, por tanto, muestran el Perl conductual B. Este grupo, ante una situación de estrés social reacciona principalmente con conductas de defensa-sumisión y huida, mientras que no muestran conductas de ataque, amenaza y exploración no social. 5. Conclusiones Los resultados obtenidos en este trabajo con el Análisis de Memorias Morfológicas muestran que los animales sometidos a estrés social pueden diferenciarse en el tipo de estrategia conductual adoptada para afrontar la situación. Las diferencias fenotípicas conductuales dentro de una misma población pueden poseer un 173

187 valor funcional y adaptativo para la especie, en la medida en que puede afectar la capacidad para afrontar los cambios ocurridos en el ambiente, determinando así en gran medida la supervivencia del individuo en su hábitat natural. Diversos autores en el estudio de estas diferencias conductuales y neuroendocrinas ante una situación de estrés, han señalado que el comportamiento individual puede analizarse desde dos dimensiones: la reactividad emocional (proactividad/reactividad) y la actividad exploratoria (actividad/pasividad) [10,14]. En nuestro caso, el análisis de clústeres agrupó a los sujetos en dos grupos diferentes que en gran medida pueden corresponder a dos estrategias de afrontamiento que involucran la combinación de las dimensiones arriba citadas: una estrategia activa-proactiva y otra pasiva-reactiva. Así, los sujetos agrupados en el clúster 1, en cuanto a la dimensión exploratoria, se distinguen de los del clúster 2 por unos niveles elevados en la exploración no-social. Por otro lado, en la dimensión de reactividad emocional, los sujetos agrupados en el clúster 1, se diferencian de los del clúster 2 en presentar mayores niveles de ataque y amenaza así como por la ausencia de conductas propias de un perl reactivo (clúster 2), como son la sumisión y la huida. Estos resultados coinciden además con los de otros trabajos donde se ha encontrado que sujetos sumisos sometidos al mismo tratamiento de estrés social pueden variar en los niveles de actividad motora y agresividad, en la función cardiovascular y la inmune, así como en la expresión de citoquinas en el cerebro y la resistencia a los glucocorticoides [6,3]. Por tanto, podemos concluir que los resultados obtenidos para la identicación de estrategias de afrontamiento en el estrés social con el análisis de memorias morfológicas asociativas están dentro de un marco conceptual y teórico adecuado. Las conclusiones acerca de las estrategias de afrontamiento obtenidas en este estudio, coinciden con las conclusiones obtenidas en el estudio original del cual se extrajeron los datos para su análisis con la técnica de AMM. En dicho estudio (datos sin publicar) se muestra que, los sujetos con una estrategia de afrontamiento pasiva-reactiva desarrollaron un mayor número de metástasis tumorales (utilizando un modelo de tumor experimental B-16 especíco para ratones), mostraron unos mayores niveles de corticosterona y una menor actividad de células NK (Natural Killer) que aquellos sujetos con una estrategia de afrontamiento activa-proactiva. Con este trabajo queda demostrada la utilidad de la técnica AMM para el análisis de datos multivariantes, tanto en su capacidad de simplicar el problema reduciendo la dimensionalidad de los datos, como aportando una mayor claridad descriptiva extrayendo de los datos variables latentes que no habían sido originalmente detectadas. Referencias [1] O. Vegas, E. Fano, P. F. Brain, A. Alonso, A. Azpiroz. Social stress, coping strategies and tumor development in male mice: behavioral, neuroendocrine and immunological implications. Psychoneuroendocrinology 31,

188 [2] Orlando Maldonado, David Vicente, Manuel Graña, Miguel Angel Veganzones. Spectral Indexing for Hyperspectral Image CBIR. ESA-EUSC 2006 Image Information Mining, Proceedings of the Workshop [3] A. Bartolomucci, P. Palanza, P. Sacerdote, A. E. Panerai, A. Sgoifo, R. Dantzer, S. Parmigiani. Social factors and individual vulnerability to chronic stress exposure. Neurosci Biobehav Rev 29, [4] César Pérez. Técnicas de análisis multivariantes de datos, aplicaciones con SPSS ISBN: Pearson Prentice Hall. [5] Gerhard X. Ritter, Gonzalo Urcid, Laurentiu Iancu. Reconstruction of patterns from noisy inputs using morphological associative memories. Journal of Mathematical Imaging and Vision, 19(2):95-111,2003. [6] R. Avitsur, J. L. Stark, F. S. Dhabhar, K. A. Kramer, J. F. Sheridan. Social experience alters the response to social stress in mice. Brain Behav Immun 17, [7] Manuel Graña, Josune Gallego, Carmen Hernandez. Further results on AMM for Endemember Induction. Advances in Techniques for Analysis of Remotely Sensed Data, 2003 IEEE Workshop on / IEEE, pp [8] Daniel Peña. Análisis de datos multivariantes ISBN: McGraw-Hill. [9] Aapo Hyvärinen, Erkki Oja. Independent Component Analysis: Algorithms and Applications. Neural Networks, 13(4-5):411:430,2000. [10] J. M. Koolhaas, S. M. Korte, S. F. De Boer, B. J. Van Der Vegt, C. G. Van Reenen, H. Hopster, I. C. De Jong, M. A. Ruis, H. J. Blokhuis. Coping styles in animals: current status in behavior and stress-physiology. Neurosci Biobehav Rev 23, [11] G. X. Ritter, J. L. Díaz de Leon, P. Sussner. Morphological bidirectional associative memories. Neural Networks, Vol. 12, pp [12] G. X. Ritter, P. Sussner, J. L. Díaz de Leon. Morphological associative memories. IEEE Transactions on Neural Networks, 9(2): [13] H. Ursin. The psychology in psychoneuroendocrinology. Psychoneuroendocrinology 23, [14] T. Steimer, S. la Fleur, P. E. Schulz. Neuroendocrine correlates of emotional reactivity and coping in male rats from the Roman high (RHA/Verh)- and low (RLA/Verh)-avoidance lines. Behav Genet 27, [15] H. Ursin, M. Ol. Aggression, defense, and coping in humans. Aggressive Behavior 21, [16] N. N. Kudryavtseva, I. V. Bakshtanovskaya, L. A. Koryakina. Social model of depression in mice of C57BL/6J strain. Pharmacol Biochem Behav 38, [17] P. F. Brain. A historical look at the concepts of fear and defense and some comments on psychobiology. In: P.F. Brain, S. Parmigiani, R.J. Blanchard and D. Mainardi, Editores, Fear and defense, Harwood Academic Publishers gmbh, Chur, New York (1989), pp [18] J. J. Hopeld. Neural networks and physical systems with emergent collective computational abilities. Proc. Nat. Acad. Sciences, Vol. 79, pp [19] Wikipedia ( 175

189 EFECTO DE LA FAMILIARIDAD SOBRE EL CONSUMO Y LA PALATABILIDAD DE UNA SUSTANCIA SÁPIDA EN CRÍAS DE RATA. * ELENA DÍAZ CENZANO M. GABRIELA CHOTRO Departamento de Procesos Psicológicos Básico, Facultad de Psicología, Universidad del País Vasco EHU-UPV En ratas adultas, en general, la familiaridad con una sustancia sápida induce un mayor consumo de dicha sustancia. En crías de rata, sin embargo, este efecto de mayor consumo no se encuentra de manera muy consistente, probablemente por las técnicas empleadas para medirlo. Las respuestas aversivas y apetitivas obtenidas en una prueba de reacción al sabor (TRT) reflejan de forma fiable la palatabilidad de una sustancia, tanto en adultos como en crías. Teniendo esto en cuenta, nos propusimos analizar el efecto de familiaridad sobre la reacción al sabor en crías de rata de 14 días y compararla con medidas de consumo. Los sabores empleados fueron azúcar, quinina, mezcla de azúcar-quinina y alcohol. Con el azúcar, la familiaridad no incrementó el consumo debido a un efecto techo, sin embargo en la prueba de reacción al sabor las respuestas apetitivas aumentaron con la familiaridad. Con la quinina los sujetos familiarizados incrementaron el consumo pero también mostraron una tendencia a aumentar las respuestas aversivas. Con la mezcla de azúcar y quinina se observó un claro aumento en el consumo y en las respuestas apetitivas, aunque también aumentaron las respuestas aversivas. Finalmente, con el alcohol no se observó cambio alguno en el consumo pero si un claro descenso en la palatabilidad (reducción de respuestas apetitivas y aumento de conductas aversivas). Estos resultados indican que en el desarrollo temprano de la rata, la familiaridad con un sabor afecta de manera diferente al consumo y a la palatabilidad de los mismos. 1. Introducción Las preferencias o aversiones hacia los diferentes sabores muestran una gran plasticidad a lo largo del desarrollo de un individuo. Los estudios sobre la Financiación: Vicerrectorado de Investigación de la UPV/EHU (GIU06/02) y MEC (SEJ /PSIC) 176

190 conducta en niños o en crías de rata indican que sólo existen unas pocas predisposiciones innatas en la evaluación hedónica de los estímulos gustativos, es decir, la gran aceptación de los sabores dulces, más moderada de los salados y el rechazo de los sabores ácidos y amargos, junto con una tendencia general hacia el rechazo de sabores desconocidos o neofobia (Birch, 1999, Desor et al., 1975, Hall and Bryan, 1981, Vigorito and Sclafani, 1988). En general, se ha podido comprobar en organismos adultos que la mera exposición a un sabor induce una mayor aceptación de dicho sabor, definida a través de un incremento en el consumo de soluciones con este sabor (Domjan, 1976, Pliner, 1982, Birch et al., 1990). Este efecto de familiaridad, que se considera un aprendizaje de tipo no-asociativo, también se ha podido observar en pruebas de reacción al sabor (PRS), en las que se analizan las respuestas aversivas e ingestivas emitidas por un sujeto cuando este recibe un estímulo gustativo directamente a la boca. Se ha visto que la familiarización con un sabor disminuye las respuestas aversivas y aumenta las ingestivas, lo que se interpreta como un aumento de la palatabilidad del sabor. Sin embargo existen pocos estudios sobre este efecto de familiaridad en crías de rata y los resultados son poco consistentes. Varios estudios mostraron que las crías de rata durante la etapa infantil, es decir hasta el destete, no muestran neofobia (Misanin et al., 1985, Chotro, 1999); mientras que en otros estudios se ha visto un leve aumento en el consumo como resultado de la exposición repetida a un sabor en crías de rata (Hudson and Distel, 1999). En la década de los 70 se realizaron algunos estudios con crías de rata y con sabores básicos, concretamente con el azúcar. Estos estudios parecían indicar que la cría de rata con 6 días de edad percibe el sabor dulce y lo diferencia de otros sabores, pero no es capaz de aprender acerca de él, de reconocerlo o de recordarlo. Con 9 días las ratas son capaces de formar una representación en la memoria suficiente como para reconocer el sabor dulce como un sabor familiar. Con 12 días ya serían capaces de aprender una asociación de estos sabores con un estímulo incondicionado aversivo (Rudy et al., 1984). No obstante estudios realizado en los 80 adelantaron la edad de percepción de sabores básicos a los 3 días postnatales (Hall and Bryan, 1981) mostrando que a esta edad la cría de rata ya puede aprender sobre estos estímulos. Sin embargo investigaciones posteriores indicaron que desde la etapa fetal los organismos son capaces de percibir olores y sabores presentes en el líquido amniótico. También se demostró que los fetos y neonatos pueden mostrar cambios en la respuesta a un sabor como resultado de la experiencia previa con el mismo (Mickley et al., 2000, Mickley et al., 2004). Estas experiencias pueden 177

191 ser de tipo no asociativo como también asociativo. Al respecto, ha sido ampliamente demostrado que los fetos pueden aprender aversiones condicionadas hacia un sabor o un olor, es decir, tienen la capacidad de adquirir aprendizajes asociativos y de expresarlos tanto en etapas fetales como postnatales (Stickrod et al., 1982, Smotherman, 2002). Referente al aprendizaje que ocurre por la simple exposición a un estímulo, existen muchos estudios que muestran que la simple exposición a un olor aumenta su posterior preferencia por dichos estímulo (Caza and Spear, 1984, Hudson and Distel, 1999). A diferencia de lo que se observa con olores, con respecto a estímulos gustativos los datos no son tan claros. Los resultados de algunos estudios en los que crías de rata recibieron exposiciones repetidas a un sabor, posteriormente no se observó un incremento en el consumo de soluciones con dicho sabor (Chotro, 1999), mientras que algunos de los resultados de estudios similares indican un incremento en el consumo de sabores previamente familiarizados (Chotro and Alonso, 2001). En relación con el alcohol, hay muchos estudios en los que se ha analizado el efecto de la exposición prenatal e infantil al alcohol sobre su consumo (Chotro et al., ). Sin embargo en ninguno de ellos se ha podido separar el efecto de la simple exposición a su sabor de la presencia de reforzadores como sus propiedades tóxicas u otros estímulos incondicionados implícitos en la exposición al alcohol. Por ejemplo, en una serie de estudios en los que explícitamente se evitó la participación de los efectos tóxicos del alcohol, al administrar directamente a la boca del feto una ínfima cantidad de alcohol durante sólo 10 minutos antes del nacimiento, se observó que estas crías posteriormente consumían más alcohol que sujetos controles que habían sido expuestos a otros estímulos como el limón o la salina (Chotro, 1990, Chotro, 1991). No obstante, se pudo comprobar que esta respuesta de mayor consumo era una preferencia condicionada resultante de la asociación del sabor y olor del alcohol con la estimulación (reforzante) recibida durante el nacimiento por cesárea. En este estudio también se observó que cuando el intervalo entre la administración del sabor/olor del alcohol y dicha estimulación era de 30 minutos, los sujetos no mostraban ningún cambio en la respuesta al alcohol (Molina and Chotro, 1991). Es decir, en ese caso no se observó efecto de la mera exposición al sabor del alcohol. En otra serie de estudios en los que se administró alcohol a la madre preñada durante los últimos días de a gestación, también se observó en la progenie un mayor consumo de alcohol y un aumento en la palatabilidad de su sabor (Arias and Chotro, 2005b, Arias and Chotro, 2005a, Chotro, 2003a). En todos estos casos se pudo comprobar también que 178

192 este efecto era una respuesta condicionada aprendida en el útero por la asociación del sabor del alcohol y sus efectos tóxicos, aparentemente reforzantes y mediados por el sistema opiáceo. Sin embargo no se ha podido descartar que en este efecto estén interviniendo también procesos no asociativos como el aumento en el consumo por familiaridad con el sabor del alcohol. En resumen, el efecto de familiaridad con un estímulo --considerado como aprendizaje no-asociativo-- produce un aumento en la preferencia o aceptación de dicho estímulo. Este hecho está ampliamente demostrado en ratas adultas pero no queda claro si es observable en crías de rata. Por ello nos planteamos analizar el efecto de la familiaridad con sabores básicos (azúcar y quinina), la combinación de ambos y también con el sabor del alcohol, sobre la palatabilidad de los mismos y su consumo en crías de rata de 14 días de edad. A esta edad tienen la capacidad de desarrollar procesos no-asociativos como asociativos con estímulos gustativos, de retenerlos y de expresarlos tanto en pruebas de consumo como de reacción al sabor. Los sabores antes mencionados fueron seleccionados considerando los resultados de trabajos previos que indican que a esa edad las crías de rata son capaces de diferenciar sin problemas el sabor dulce del amargo y que muestran respuestas claramente diferenciadas hacia ambos. Por otra parte, se empleó la mezcla de estos dos sabores para compararla con la respuesta ante el alcohol, ya que varios estudios conductuales y electrofisiológicos han mostrado que el sabor del alcohol es percibido por la rata (y también los humanos) como una mezcla de dulce y amargo (Di Lorenzo et al., 1986, Kiefer and Mahadevan, 1993). Teniendo en cuenta lo que se sabe sobre los efectos de familiaridad en adultos, esperamos observar en crías expuestas a un sabor un incremento en el consumo de dicho sabor, acompañado de un aumento en la palatabilidad (aumento en las respuestas apetitivas y/o incremento de las aversivas). 2. Materiales y métodos 2.1. Sujetos La muestra empleada en el experimento estaba compuesta por un total de 111 crías de rata Wistar (71 hembras y 49 machos). Estas crías nacieron y fueron criadas en el estabulario de la Facultad de Psicología de la Universidad del País Vasco. Durante todo el tiempo que permanecieron en el mismo se les mantuvo en condiciones de temperatura y humedad constantes (22-24º C y %, respectivamente) y con un ciclo de 12 horas de luz y 12 de oscuridad, 179

193 encendiéndose la luz a las 8 de la mañana. Las madres de estas crías se colocaron en jaulas de maternidad individuales, donde tuvieron acceso continuo a agua y comida (Panlab, España, fórmula de maternidad). La muestra se distribuyó de manera aleatoria, en ocho grupos definidos por dos factores (diseño factorial): Familiaridad (novel vs. familiar) y Sabor (sacarosa, quinina, mezcla sacarosa-quinina o SQ y Alcohol). El número de sujetos en cada uno de estos grupos fue el siguiente: familiar-sacarosa, 13; familiar-quinina, 15; familiar-sq, 14; familiar-alcohol, 13; novel-sacarosa, 14; novel-quinina, 14; novel-mezcla SQ, 14 y novel-alcohol, 14. En el experimento se siguieron las regulaciones europeas para el cuidado y tratamiento de los animales de laboratorio, y todos los procedimientos fueron controlados y aprobados por la Diputación Foral de Gipuzkoa conforme a las directrices Del Consejo de Comunidades Europeas del 24 de Noviembre de 1986 (86/609/EEC) Familiarización con los sabores Durante los días postnatales (DP) 12 y 13 se llevaron a cabo las dos sesiones de familiarización. A las 8 de la mañana, fueron separadas de sus madres, y colocadas en una jaula de metacrilato (15 cm x 8 cm x 15 cm.), donde se mantuvieron a una temperatura de entre C. En ese momento a todas las crías se les colocó una cánula de polietileno utilizando un procedimiento que ha sido descrito ampliamente en varios artículos (Hall and Rosenblatt, 1977, Chotro and Alonso, 2003). Las cánulas consistían en secciones de 5 cm. de un tubo de polietileno (PE 10, i.d. = 0.28 mm). Uno de sus extremos había sido previamente moldeado con una fuente de calor hasta formar una pestaña que posteriormente serviría de tope. Mediante una fina aguja se introdujo la cánula a través de la mejilla hasta que la pestaña se apoyaba sobre la cara interna de la misma, y el resto de la cánula quedaba por fuera de la cavidad oral. El tiempo empleado en este procedimiento con cada cría fue menor a cinco segundos. A través de estas cánulas se administraron las soluciones durante las sesiones de familiarización. Una vez canuladas e identificadas con marcas en el rabo, las dejamos descansar en las cajas durante una hora. Las cajas estaban colocadas encima de almohadillas térmicas que mantenían el ambiente a una temperatura de 30-32º C. Transcurrido ese periodo, colocamos las crías individualmente en cajas de metacrilato (8 cm x 8 cm x 18 cm), conectamos las cánulas a la bomba de infusión (KD Scientific) para suministrarles de forma intraoral los distintos 180

194 sabores. La bomba de infusión fue programada para que suministrara en un periodo total de 10 minutos, 20 pulsos de 15 s con 15 s de intervalo a una velocidad de 0.1 ml/min. Al grupo no familiarizado (novel) se le suministró la misma cantidad de agua destilada. Las concentraciones de los diferentes sabores suministrados fue la siguiente: quinina; M; sacarosa, 0.01M; mezcla de SQ, sacarosa 0.01M + quinina M; y alcohol 6% v/v. Una vez pasado el tiempo de familiarización a los sabores, fueron devueltas a sus madres Prueba de reacción al sabor (PRS) Al DP 14 y a la hora habitual las crías fueron separadas de sus madres y colocadas en jaulas de metacrilato. Fueron canuladas de la misma manera que en los días anteriores y permanecieron durante una hora en cajas de metacrilato calefaccionadas. Pasado este tiempo, fueron colocadas en la caja en donde se realizaría la PRS por un periodo de habituación de diez minutos. Esta caja tenía forma trapezoidal con la pared frontal de 29 cm de ancho y 12.5 cm de alto construida de cristal transparente, mientras que el resto de paredes (18 cm de ancho la trasera y 11.5 cm las laterales), así como el suelo estaban formadas por espejos. De esta manera, durante la prueba, se tuvo acceso a la expresión orofacial y a los movimientos corporales de la cría desde casi cualquier ángulo. La caja estaba dividida en dos secciones iguales para poder evaluar dos crías simultáneamente. Una vez habituadas a la caja diseñada, comenzó el la prueba PRS. Conectamos las cánulas a la bomba, y las crías recibieron dos pulsos de agua seguidas de 5 pulsos del sabor correspondiente. Para ello la bomba fue programada para que administrara con una velocidad de infusión 0.1 ml/min. La duración de cada pulso fue de 15 segundos con intervalos de 45 segundos. Durante la PRS, las ratas fueros grabadas en video, y posteriormente se analizaron las diferentes respuestas a los sabores. En base a estudios con ratas adultas e infantes (Sclafani, Vigorito) y a estudios previos en nuestro laboratorio con crías de rata, hemos analizado dos tipos de respuestas: unas apetitivas (o ingestivas) y otras aversivas. Se consideran respuestas de ingestión o apetitivas a los movimientos bucales o mouthing y la conducta de lamido de las patas o paw licking. La suma del tiempo que cada cría transcurría realizando estas dos conductas fue considerada como una única medida llamada Conductas apetitivas. Por otra parte, se registraron las siguientes conductas aversivas: sacudidas de la cabeza o head shaking, sacudida de las patas delanteras o forelimb flailing, movimiento de 181

195 retroceso con las patas delanteras o paw treading, frotamiento de la barbilla contra el suelo o chin rubbing y el intento de trepar por las paredes de la caja o wall climbing. La suma de la frecuencia de ocurrencia de todas estas conductas nos dio la medida de Conductas aversivas. En conjunto, se considera que el grado de estos dos tipos de respuestas indica la palatabilidad de un sabor. Ambas medidas fueron registradas minuto a minuto después de cada pulso intraoral (2 pulsos de agua y 5 del correspondiente sabor) Prueba de consumo Una hora después de la PRS las crías fueron evaluadas en una prueba de consumo en la que recibieron infusiones intraorales de la misma solución que habían recibido en la PRS. Antes de la prueba se les estimuló la zona anogenital, con el fin de vaciar la vejiga y así evitar pérdida de peso durante la prueba de consumo. Una vez realizado este procedimiento se registró el peso de cada cría (peso preinfusión) y fueron colocadas individualmente en cajas de metacrilato y su cánula conectada nuevamente a la bomba de infusión. En esta prueba las crías recibían a la boca la infusión continua de un volumen equivalente al 5.5% de su peso corporal durante 15 minutos. Una vez terminada la prueba de consumo se registró el peso postinfusión. La variable dependiente analizada en esta prueba fue la cantidad de solución consumida expresada a través del porcentaje de peso ganado al finalizar la sesión: 100 x (peso postinfusión peso preinfusión) / peso preinfusión 2.5. Análisis estadístico Los datos de la PRS fueron analizados con ANOVAs de medidas repetidas para cada sabor: 2 (Familiaridad) x 2 (Conductas) x 5 (Ensayos). Los datos del consumo fueron analizados con un ANOVA factorial: 2 (Familiaridad) x 4 (Sabor). Los efectos e interacciones significativas fueron analizados con pruebas post-hoc de Fisher (LSD). La variable sexo se incluyó en el primer ANOVA general del experimento y como no produjo ningún efecto significativo ni interactuó con otros factores, fue excluida del diseño en análisis posteriores. El criterio de rechazo que se adoptó para todos los análisis fue el de p<

196 3. Resultados 3.1. La prueba de reacción al sabor (PRS) En un análisis general se encontró que no hubo diferencias significativas en las respuestas emitidas ante el agua en función de la Familiaridad. Por esta razón y a fin de simplificar los análisis estadísticos, posteriormente sólo se analizaron las respuestas registradas durante los 5 ensayos con los respectivos sabores. En respuesta a la sacarosa los sujetos familiarizados mostraron más respuestas apetitivas que los sujetos del grupo Novel, sobre todo al comienzo de la prueba (Fig. 1a). En cambio las repuestas aversivas hacia este sabor fueron mínimas y no se apreciaron diferencias entre ambos grupos (Fig. 1b). Esta descripción fue confirmada por los resultados del ANOVA que indicaron efectos significativos de Familiaridad, F(1,25) = 10.97, p<0.005, de Conducta, F(1,25) = , p<0.001, de Ensayo, F(4,100) = 3.95, p<0.01. También observaron las siguientes interacciones: Familiaridad x Conducta, F(1,25) = 4.90, p<0.05 y Conducta x Ensayo, F(4,100) = 3.60, p<0.01. Pruebas post-hoc de Fisher revelaron que los sujetos familiarizados con la sacarosa realizaron más conductas apetitivas que los novel y que el aumento en las respuestas apetitivas se observa sobre todo en los ensayos 1, 2, 3 y 4. Estos resultados indican que la familiarización con el sabor de la sacarosa ha dado lugar a un aumento en la palatabilidad de este sabor. Ante el sabor de la Quinina, como se observa en la figura 2a ambos grupos de sujetos, tanto el Familiar como el Novel, apenas emitieron respuestas apetitivas y no se observan diferencias entre grupos. Observando la figura 2b, nos encontramos con que los sujetos del grupo Familiar emiten más respuestas aversivas que los sujetos del grupo Novel. En el resto de ensayos las conductas aversivas de los dos grupos tienden a igualarse. El ANOVA indicó efectos significativos de la Conducta, F(1,27) = 41.67, p<0.001 y una triple interacción Familiaridad x Conducta x Ensayo, F(4,108)=3.27, p<0.05. Las pruebas posthoc de estos efectos revelaron que los sujetos emitieron más respuestas aversivas que apetitivas ante la quinina. Además, el análisis de esta triple interacción (Fig. 2b) indicó que los sujetos familiarizados con quinina emiten más repuestas aversivas que los del grupo Novel en los dos primeros ensayos de la prueba que en el resto de ensayos. Estos sujetos al haber experimentado anteriormente el sabor, lo reconocen más rápidamente y muestran su desagrado antes que los sujetos que no han tenido ningún contacto con este sabor anteriormente. En los tres últimos ensayos, las respuestas aversivas tanto del grupo Familiar como del Novel, son bastante similares. 183

197 Referente a la mezcla, sacarosa-quinina, observamos (Fig. 3a), un aumento en las respuestas apetitivas producido por los sujetos del grupo Familiar. Dicho aumento aparentemente se observa en todos los ensayos en los que se administra este sabor. Dentro de este mismo grupo y haciendo referencia a las respuestas aversivas, observamos (Fig. 3b.) cómo los sujetos familiarizados con el sabor de la mezcla emiten más respuestas aversivas que los sujetos novel en los primeros ensayos de la prueba. En resumen, los sujetos familiarizados con la mezcla de sacarosa-quinina emitieron más respuestas apetitivas y más respuestas aversivas que aquellos sujetos que no habían tenido experiencia alguna con este sabor. Esta descripción de los resultados se confirma con los datos del ANOVA que indica efectos significativos de la Familiaridad, F(1,26) = 38.50, p<0.001, la Conducta, F(1,26) = 11.59, p<0.05, y Ensayo, F(4,104) = 9.17, p< Además se obtuvieron las siguientes interacciones: Familiaridad x Conducta, F(1,26) = 4.41, p<0.05 y Conducta x Ensayo, F(4,104) = 2.88, p< Los análisis post-hoc de estos efectos e interacciones nos indicaron que, en general, los sujetos del grupo Familiar mostraron más respuestas apetitivas y más respuestas aversivas que los sujetos Novel. El análisis de la interacción Conducta x Ensayo nos indica que las respuestas apetitivas se produjeron sobre todo en los primeros ensayos, mientras que las respuestas aversivas se emitieron en los últimos ensayos. La interpretación de estos resultados, aumento de las respuestas aversivas y apetitivas por familiarización con la mezcla nos indican que ha habido un cambio en la palatabilidad pero no se puede concluir sobre si esta ha aumentado o disminuido. Por último queda mencionar los resultados con el sabor del alcohol. En cuanto a las respuestas apetitivas emitidas ante el sabor del alcohol, aparentemente los sujetos del grupo Familiar realizaron menos conductas apetitivas que los del Novel (Fig. 4a). En cambio, si observamos la figura 4b vemos cómo los sujetos del grupo Familiar realizaron más conductas aversivas que los sujetos del grupo Novel en todos los ensayos de la prueba. Los resultados del ANOVA indican un efecto significativo de la Conducta, F(1,25) = 18.44, p<0.001 y una interacción Familiaridad x Conducta, F(1,25) = 5.23, p<0.05. El análisis de esta interacción, indica que los sujetos familiarizados con alcohol muestran menos respuestas apetitivas y más respuestas aversivas que los sujetos del grupo Novel. En este caso, los resultados se pueden interpretar como que la familiaridad con el sabor del alcohol ha disminuido la palatabilidad del mismo. 184

198 Fig 1. Duración media de las respuestas apetitivas (a) y media del número de respuestas aversivas (b) ante el sabor de la sacarosa en función de la familiaridad (Familiar vs. Novel) y del ensayo de presentación intraoral de las soluciones (a1-a2: agua; s1-s5: sabor de sacarosa). Las líneas verticales representan el error estándar de la media. 185

199 Fig 2. Duración media de las respuestas apetitivas (a) y media del número de respuestas aversivas (b) ante el sabor de la quinina en función de la familiaridad (Familiar vs. Novel) y del ensayo de presentación intraoral de las soluciones (a1-a2: agua; s1-s5: sabor de quinina). Las líneas verticales representan el error estándar de la media. 186

200 Fig 3. Duración media de las respuestas apetitivas (a) y media del número de respuestas aversivas (b) ante el sabor de la mezcla SQ en función de la familiaridad (Familiar vs. Novel) y del ensayo de presentación intraoral de las soluciones (a1-a2: agua; s1-s5: sabor de la mezcla SQ). Las líneas verticales representan el error estándar de la media. 187

201 Fig 4. Duración media de las respuestas apetitivas (a) y media del número de respuestas aversivas (b) ante el sabor del alcohol en función de la familiaridad (Familiar vs. Novel) y del ensayo de presentación intraoral de las soluciones (a1-a2: agua; s1-s5: sabor de alcohol). Las líneas verticales representan el error estándar de la media Prueba de consumo Los resultados de la prueba de consumo de todas estas soluciones sápidas se presentan en la figura 5. Lo que podemos observar es un aumento, en ningún caso una disminución, en el consumo de algunas de estas soluciones. Con la sacarosa se observa un alto consumo tanto en el grupo Familiar como en el 188

202 Novel. Con las demás soluciones, sin embargo, se observa un claro incremento en el consumo como resultado de la familiarización con cada sabor. El ANOVA general con los cuatro sabores indicó un efecto de Familiaridad, F(1,103) = 10.86, p<0.001 y de Sabor, F(3,103) = , p< Los análisis post-hoc de estos efectos indicaron que en general hubo un mayor consumo de los sujetos familiarizados con respecto a los del grupo Novel. Además la sacarosa fue la solución más consumida, seguida por el alcohol, luego la mezcla y por último la solución de quinina. Fig 5. Media del consumo, expresado como el porcentaje de aumento del peso corporal, en función de la familiaridad (Familiar vs. Novel) y del sabor administrado. Las líneas verticales representan el error estándar de la media. Teniendo en cuenta estas diferencias de consumo entre soluciones se realizaron análisis de varianza independientes para cada sabor. Así el ANOVA con los datos de la sacarosa confirmó lo descrito anteriormente, es decir que no hubo diferencias entre ambos grupos. Con la quinina, los sujetos familiarizados con este sabor consumieron más que los sujetos que nunca habían estado expuestos antes a la quinina, F(1,27) = 5.63, p<0.05. El análisis de los datos de la mezcla sacarosa-quinina indicó un efecto significativo de la Familiaridad sobre el consumo de esta solución, F(1,26) = 8.26, p<0.01. Por último, el ANOVA con los resultados del alcohol no indicaron diferencias significativas entre ambos grupos. En resumen, sólo se observó un aumento en el consumo de quinina y de la mezcla SQ, mientras que con los otros sabores se observó una tendencia pero no fue estadísticamente significativa. 189

203 4. Discusión y conclusiones En resumen los resultados de este estudio muestran que la exposición repetida a un sabor produce cambios en la respuesta ante estos sabores que no siempre se reflejan en el consumo de los mismos. Específicamente se ha observado que la familiarización con el sabor de la sacarosa produjo un aumento en las respuestas apetitivas sin observarse cambios en la prueba de consumo. Por el contrario, los sujetos familiarizados con la quinina emitieron más respuestas aversivas en la prueba de reacción al sabor, pero mostraron un aumento en el consumo de la misma. En el caso de la mezcla SQ, en la prueba de reacción al sabor, se observó un aumento tanto de las respuestas apetitivas como de las aversivas en los sujetos familiarizados con dicha solución. Mientras que el consumo se vio incrementado en función de la familiaridad. Sin embargo en el caso del alcohol, no se reflejó este aumento en la prueba de consumo de la misma manera. Los sujetos familiarizados con alcohol emitieron más respuestas aversivas y a pesar de ello mostraron una tendencia a consumir más alcohol. El hecho de que no se haya observado un efecto de familiaridad en el consumo de la sacarosa se debe probablemente a un efecto techo. Es decir, la solución de sacarosa resultó muy palatable para todos los sujetos y las crías que nunca habían sido expuestas a ella consumieron casi todo lo que se les administró en la prueba de consumo, por esta razón el margen para observar diferencias en función de la experiencia previa fue mínimo. La alta palatabilidad de esta solución queda patente en el bajo número de respuestas aversivas registradas en la PRS de ambos grupos, lo que impidió observar posibles diferencias en función de la familiaridad (efecto suelo). Estos datos están de acuerdo los de estudios previos en relación a la capacidad de las crías de rata de responder al sabor de la sacarosa y diferenciarlo de otros sabores menos palatables como el de la quinina (Hall and Bryan, 1981). Con respecto a los datos obtenidos en el presente estudio en relación al sabor de la quinina, podemos concluir que en la PRS son opuestos a lo que se observa con la sacarosa. Es decir, no hubo casi respuestas apetitivas, por lo que no hubo margen para observar diferencias entre los grupos, mientras que las respuestas aversivas fueron más evidentes. El efecto de la familiaridad se reflejo en un incremento de estas respuestas aversivas, sobre todo en los primeros ensayos de la prueba. Esta diferencia en el momento e intensidad de la respuesta entre ambos grupos nos indica que los sujetos familiarizados reconocen y responden antes al sabor de la quinina que los sujetos que no lo habían experimentado 190

204 anteriormente, lo que puede entenderse como que el estímulo ha cobrado más saliencia para estos sujetos y/o que se produce un efecto de sensibilización de la respuesta. En relación a ello, es interesante destacar que estos mismos sujetos mostraron un incremento en el consumo de la solución de quinina. Generalmente, cuando a consecuencia de la familiaridad con un sabor amargo se observa un aumento del consumo esto se atribuye a la habituación de las respuestas a las características aversivas del sabor (Stein et al., 2003). Sin embargo, los datos aquí presentados dejan claro que, al menos en crías de rata, no sólo el aumento en el consumo no va acompañado de una habituación de las respuestas aversivas sino que se observa el efecto contrario, es decir, sensibilización. Los datos obtenidos en respuesta a la mezcla de sacarosa y quinina fueron, en cierta medida, sorprendentes ya que, en base a la literatura previa (Stein et al., 2003), se esperaba una atenuación de la respuesta aversiva hacia el componente amargo de la mezcla por la presencia del sabor dulce de la sacarosa y esto no fue observado. Es decir, los sujetos no familiarizados emitieron igual cantidad de respuestas aversivas a la mezcla y a la quinina sola. No obstante las respuestas apetitivas si fueron menores que las observadas ante la solución de sacarosa y el consumo de mezcla por parte de estos sujetos estuvo más cercano a los niveles de consumo de quinina que de sacarosa. En cuanto a los efectos de la familiaridad, era esperable encontrar una atenuación de las respuestas, sobre todo de las aversivas. Por el contrario lo que se observó fue un incremento en ambas medidas, apetitivas y aversivas, acompañado, en este caso si, por un aumento en el consumo. Esto indica que la familiarización parece haber facilitado la percepción de ambos componentes de la mezcla e inducido una mayor respuesta ante estos. Asimismo, es interesante destacar que, a diferencia de lo que se observa con los sabores por separado, ambos tipos de respuestas se ha distribuido en el tiempo. Los sujetos familiarizados con la mezcla SQ responden en los primeros ensayos con más respuestas apetitivas y en los últimos ensayos con más respuestas aversivas. Esto no es de extrañar si se tiene en cuenta que las conductas de ambas valencias son incompatibles por lo que no se pueden observar simultáneamente conductas aversivas y apetitivas. Con respecto al alcohol, en un estudio previo de nuestro laboratorio tampoco se había registrado un aumento en el consumo como consecuencia de la exposición previa a su sabor (Chotro, 2003b). En cambio, en otros trabajos se había encontrado una modificación en el consumo de alcohol, aunque en todos esos casos existían evidencias de que los sujetos también habían experimentado los efectos tóxicos de la droga dando la posibilidad de que se establezca una 191

205 preferencia o aversión condicionadas (Hunt and Hallmark, 2001, Molina and Chotro, 1989b, Molina and Chotro, 1989a). El aumento en las respuestas aversivas por familiarización con este sabor coincide con lo que se observó en respuesta a la quinina o la mezcla SQ, lo que puede ser interpretado como una sensibilización de la respuesta de los sujetos al componente amargo del sabor del alcohol (Kiefer and Mahadevan, 1993). Considerando en conjunto los resultados de este estudio, se puede concluir que en crías de rata la familiaridad con una sustancia sápida no induce necesariamente un aumento en el consumo de dicho sabor y que parece incrementar la reactividad ante dicho sabor, probablemente incrementando su saliencia. Estos resultados también parecen indicar que no existe una relación directa entre el consumo y las respuestas apetitivas y aversivas que se observan en una prueba de reacción al sabor. Esto último sugiere que las medidas obtenidas en una prueba de reacción al sabor no siempre son indicativas de la palatabilidad de dicha sustancia. Bibliografía Arias, C. and Chotro, M. G. Pharmacol Biochem Behav, 82, (2005a). Arias, C. and Chotro, M. G. Alcohol Clin Exp Res, 29, (2005b). Birch, L. L. Annu Rev Nutr, 19, (1999). Birch, L. L., McPhee, L., Steinberg, L. and Sullivan, S. Physiol Behav, 47, (1990). Caza, P. A. and Spear, N. E. Dev Psychobiol, 17, (1984). Chotro, M. G. Dev Psychobiol, 23, (1990). Chotro, M. G. Dev Psychobiol, 24, (1991). Chotro, M. G. Dev Psychobiol, 35, (1999). Chotro, M. G. Alcohol, 30, (2003a). Chotro, M. G. Behavioral Neuroscience, 117, (2003b). Chotro, M. G. and Alonso, G. Internat J Comp Psychol, 14, (2001). Chotro, M. G. and Alonso, G. Behav Neurosci, 117, (2003). Chotro, M. G., Arias, C. and Laviola, G. Neurosci Biobehav Rev, 31, (). Desor, J. A., Maller, O. and Andrews, K. J Comp Physiol Psychol, 89, (1975). Di Lorenzo, P. M., Kiefer, S. W., Rice, A. G. and Garcia, J. Alcohol, 3, (1986). 192

206 Domjan, M. J Exp Psychol Anim Behav Process, 2, (1976). Hall, W. G. and Bryan, T. E. J Comp Physiol Psychol, 95, (1981). Hall, W. G. and Rosenblatt, G. J Comp Physiol Psychol, 91, (1977). Hudson, R. and Distel, H. Schweiz Med Wochenschr, 129, (1999). Hunt, P. S. and Hallmark, R. A. Integr Physiol Behav Sci, 36, (2001). Kiefer, S. W. and Mahadevan, R. S. Chemical senses, 18, (1993). Mickley, G. A., Kenmuir, C. L., Dengler-Crish, C. M., McMullen, C., McConnell, A. and Valentine, E. Dev Psychobiol, 44, (2004). Mickley, G. A., Remmers-Roeber, D. R., Crouse, C., Walker, C. and Dengler, C. Physiol Behav, 70, (2000). Misanin, J. R., Blatt, L. A. and Hinderliter, C. F. Animal Learning & Behavior, 13, (1985). Molina, J. C. and Chotro, M. G. Behav Neural Biol, 51, (1989a). Molina, J. C. and Chotro, M. G. Behav Neural Biol, 52, 1-19 (1989b). Molina, J. C. and Chotro, M. G. Behav Neural Biol, 55, (1991). Pliner, P. Appetite, 3, (1982). Rudy, J. W., Vogt, M. B. and Hyson, R. L. In Comparative Perspectives On The Development Of Memory(Ed, Spear, R. K. N. E.) Lawrence Erlbaum, Hillsdale NY, pp (1984). Smotherman, W. P. Dev Psychobiol, 40, (2002). Stein, L. J., Nagai, H., Nakagawa, M. and Beauchamp, G. K. Appetite, 40, (2003). Stickrod, G., Kimble, D. P. and Smotherman, W. P. Physiol Behav, 28, 5-7 (1982). Vigorito, M. and Sclafani, A. Dev Psychobiol, 21, (1988). 193

207 Visión por Computador y Clasicación aplicadas a la Micología Ramón Moreno Jiménez, ramon.moreno.jimenez@gmail.com Grupo de Inteligencia Computacional Universidad del Pais Vasco 18 de octubre de Resumen La evolución que vive la tefefonía móvil está abriendo un nuevo abanico de oportunidades para nuevas aplicaciones y herramientas. Los nuevos protocolos y nuevos canales de comunicación están rompiendo las limitaciones relacionadas con el ancho de banda. GPRS, UMTS, WiFi, 3G hacen que se pueda acceder a nuevos servicios y aplicaciones desde lugares remotos. El trabajo que se expone se enmarca dentro de los sistemas de información móviles y presenta un prototipo de sistema experto de acceso remoto aplicado a la micología. El objetivo es proporcionar una herramienta de ayuda micológica a los neótos, con la que poder predecir a qué especie pertenece. Se presenta un esbozo del sistema de información y se profundiza en el sistema de extracción de características. Presentamos un nuevo contorno activo y discutimos los resultados obtenidos por distintos clasicadores Keywords: Micología, Procesamiento de imágenes, Clasicación supervisada, Contornos activos. 1. Introducción Las técnicas de visión por computador han experimentado una importante evolución en los últimos años. Un área de interés es el reconocimiento de guras en una escena, es conocido como CBIR. El típico problema CBIR es dado un conjunto de imágenes poder hacer una clasicación y poder estimar cuales son las más próximas según algún criterio. En nuestro caso, las imágenes con las que trabajamos, contienen setas cuyas especies ya conocemos, por lo que podemos experimentar con clasicación supervisada. La micología es la ciencia que estudia los hongos[1, 2, 3, 4, 5]. Las setas poseen diversos rasgos distintivos que pueden ayudar al consumidor a diferenciarlas entre sí: la forma del sombrero, la textura, detalles de la corteza, color y brillo, etc. Estos rasgos se combinan en ciertas reglas de análisis de la morfología de la seta que permiten identicarla y decidir sobre su 1 194

208 comestibilidad. Existen otro conjunto de características no susceptibles de ser detectadas visualmente como olor, hábitat, sabor y dureza. El conjunto de características son más de 70, pero necesitamos al menos conocer 30 para poder realizar una identicación correcta. Un problema añadido es que el usuario puede no ser capaz de responder con precisión a las preguntas que se hacen, por ejemplo determinar el color, denir su olor o sencillamente que su desconocimiento micológico le impida comprender la pregunta. Aplicando técnicas de visión por computador (CBIR) hemos conseguido extraer 28 datos precisos. Con los datos extraidos, hemos experimentado con varios clasicadores (K*, RIPPER, C4.5 y Naive Bayes). Los resultados obtenidos por el clasicador en algunos casos no son sucientes para determinar a qué especie pertenece la gura de la imagen, en unos casos porque la probabilidad asociada a una especie predicha no supera un umbral de conanza y en otros casos porque existen varias especies con similar probabilidad de predicción. 2. Sistema de información El siguiente esquema muestra los principales componentes del sistema de información Figura 1: Esquema software 1. El usuario captura la imagen la transmite como pregunta 2. EL módulo CBIR extrae características de las guras contenidas en la imagen 195

209 3. Estas características son enviadas al clasicador, el cual devuelve una lista con las n especies más parecidas junto a sus respectivas probabilidades 4. En el caso de que no existan ambigüedades, extraemos los datos de la DB y se los enviamos al usuario 5. En el caso de existir ambigüedades, el sistema experto iteractua con el usuario con preguntas discriminantes hasta que rompa la ambigüedad 6. Extraemos los datos de la DB y se los enviamos al usuario 3. Técnicas de visión por computador para la extracción de características Para la extracción de características recurrimos a los clásicos procesos binarios [6] en busca de componentes conectadas. De este modo localizamos las guras de interés y buscamos las mayores componentes conectadas. Una vez localizadas extraemos algunas de sus características: altura, anchura, área de la seta en su conjunto, sobrero y del pie por separado. También analizamos la existencia de accidentes; anillo, volba o mamelón. Sin olvidarnos de extraer el color de la cutícula, carnes y pie. La siguiente gura muestra los datos de interés extraidos. Figura 2: Datos de interés extraidos El proceso general consta de los siguientes pasos: 1. Extracción del contorno de la seta. El número de puntos constituyentes del contorno puede ser variable. Para reducirlo a una dimensión ja se seleccionan los puntos más signicativos del contorno. Estos puntos se 196

210 escogen como aquellos con la mayor magnitud de la segunda derivada, esto es, los puntos de mayor curvatura. De esta manera obtenemos una representación de tamaño constante que permite aplicar algoritmos analíticos. La representación del contorno se realiza mediante una función 1D dada por las distancias de cada punto al centro del componente conectado que representa la seta. Esta función es la signatura del contorno y puede interpretarse como un vector de alta dimensión en el contexto de reconocimiento estadístico de patrones. 2. Extracción de características. Se trata de un proceso de reducción de la dimensión del vector que representa cada contorno. Se pueden utilizar diversas aproximaciones lineales, PCA, ICA, etc. Nosotros hemos utilizado una representación que consiste en las coordenadas convexas relativas a un conjunto de endmembers obtenidos mediante un algoritmo que usa redes morfológicas autoasociativas, lo denotamos AMM por brevedad. 3. Algoritmos de clasicación. Dada la base de datos experimental se construye un clasicador y se valida su precisión. Los clasicadores probados son los proporcionados por WEKA, lo que evita su implementación, garantiza la calidad de la implementación y permite probar algoritmos que están en el estado del arte. En primer lugar presentamos un algoritmo de contornos activos (snake) que mejora la calidad de los contornos extraidos de las imágenes, frente a algoritmos sencillos de binarización y extracción de la frontera de los componentes conectados. Como ya se ha mencionado, el algoritmo de extracción de la signatura del contorno se queda con los puntos de mayor segunda derivada. Los algoritmos basados en la binarización y cálculo de las fronteras de los objetos en la imagen binaria producían en general algunos contornos con detalles debidos a las peculiaridades de la intensidad de la seta. El algoritmo de contornos activos produce en general contorno suaves que disminuyen los problemas en la correcta representación del contorno. El algoritmo de contornos activos propuesto tiene algunas mejoras respecto a los encontrados en la literatura. Por último realizamos una descripción somera del método de extracción de características que denominamos AMM, basado en las redes morfológicas autoasociativas. Después se exponen dos maneras de atacar el problema, una basándonos únicamente en el proceso de reconocimiento basado en el contorno de la seta y otra utilizando diversas características micológicas no necesariamente obtenidas a partir de la imagen. A la primera la hemos llamado perspectiva morfológica y a la segunda perspectiva micológica. En este apartado comentaremos los algoritmos que hemos usado, así como los que hemos creado para la extracción de las características. 197

211 3.1. Snake En los experimentos se ha usado una adaptación de los contornos activos calculados usando algoritmos voraces clásicos. Los contornos activos producen contornos suavizados, que presentan menos dicultades en el proceso de extracción de características y clasicación, evitando que se seleccionen puntos no representativos de la forma real de la seta debido a un proceso defectuoso de cálculo del contorno Contornos activos, justicación Entendemos como contorno activo, también llamado Snake, a la sucesión de puntos que representan una curva cerrada, la cual tiene que acabar abrazando la gura de interés en un proceso dinámico en el que la snake se deforma siguiendo un proceso de minimización de una cierta función de energía que depende del gradiente de la imagen y de las tensiones internas de la snake, que actúan como factores de regularización o suavización. La ventaja de usar contornos activos en nuestro caso, radica en que podemos controlar la suavidad del contorno calculado. Si por ejemplo quisiéramos encontrar el contorno de un tenedor, con el snake podemos camuar los dientes. Ese es el efecto que buscamos. La desventaja tradicional de las snakes es su sensibilidad a la conguración inicial y la necesidad de que ésta sea especicada manualmente. En el caso que nos ocupa, el snake inicial se sitúa entorno al objeto de interés en un fondo oscuro/negro bastante hom*ogéneo. La inicialización es, por tanto, trivial y el condicionamiento al estado inicial no existe, sobre todo en nuestra versión en la que utilizamos la energía potencial. Esta energía potencial sirve para evitar que se estanquen los contornos especicados lejos del contorno real debido a la ausencia de gradiente en el fondo hom*ogéneo Función de Energía La idea clave del contorno deformable, consiste en asignar una función de energía a cada conguración de los puntos del contorno. Consideramos el contorno c = c(s) parametrizado por su longitud de arco s. En el caso particular de nuestro Snake, hemos usado la siguiente función de energía a minimizar: E = (α(s)econt + β(s)ecurv + γ(s)eimg + δ(s)epot)ds En la cual las dos primeras componentes representan la energía interna del snake, y las dos últimas la energía externa del mismo. Donde alfa, beta, gamma y delta son los respectivos multiplicadores, con los que podemos controlar la inuencia de cada termino de la función. 198

212 Energía Interna Continuidad Econt se reere a la continuidad del contorno que está siendo estimado, con este término controlamos lo que se pueden separar los puntos del snake. En nuestro caso, (discreto de N puntos) lo calculamos de la siguiente manera: Econt i = ( d p i p i-1 ) 2 Donde p i y p i-1 representan un punto y su precedente y d la distancia media. Suavidad Ecurv se reere a la curvatura del snake. Este se aproxima muy bien por la segunda derivada, que en nuestro caso discreto, la aproximamos de la siguiente manera: Ecurv i = p i-1 2p i + p i Energía Externa Este término corresponde a la energía asociada a la fuerza de atracción del contorno deformable hacia el contorno deseado (en nuestro caso la frontera de la seta). Puesto que los contornos son lugares de alto gradiente en la imagen, esta energía externa está modelada mediante el gradiente de la imagen. Energía pseudo-potencial Eimg = I 2 Además del anterior término de atracción a los píxeles del borde, hacemos uso de una energía pseudo-potencial de la imagen. Esto evita que puntos muy alejados del objeto de interés en la conguración inicial se queden estancados en posiciones lejanas al auténtico contorno del objeto dado que la función E (sin Epot) no varía apenas en regiones con gradiente muy pequeño. Esta función es como sigue: mxn EP ot i = K Donde Q j es la carga del punto j (que corresponde a su nivel de iluminación). Observemos que aplicamos la denición de potencial eléctrico, salvo que en nuestro caso la constante K es -1. j i Q j d j 199

213 Observaciones Entendemos como Snake, la sucesión de n puntos que representan una curva cerrada, la cual tiene que acabar abrazando la gura que buscamos tras un proceso de adaptación que minimiza la función de energía. Por cada iteración del proceso de minimización, es conveniente calcular la distancia media entre los puntos d y reconstruir el Snake situando todos los puntos a la misma distancia d. De esta manera evitamos que unos puntos queden concentrados en una parte del contorno activo quedando en otra más separados. Este truco es clave para conseguir que el snake se adapta a concavidades Gradiente El gradiente de una imagen bidimensional es: [ ] [ Gx G[f(x, y)] = = xf(x, y) Gy f(x, y) En la práctica lo que nos interesa es la magnitud gradiente en valores absolutos, por lo que tenemos: y G = Gx + Gy ] Gradiente utilizando las máscaras de Sobel El cálculo del gradiente de la imagen se puede realizar de múltiples maneras, una de ellas, muy habitual en los sistemas de visión por computador, es mediante la convolución con los operadores de Sobel Lo que se traduce en el siguiente cálculo para cada pixel, considerando los Z i como la codicación de los píxeles vecinos a cada pixel numerados siguiendo las agujas del reloj Gx = (Z 3 + 2Z 6 + Z 9 ) (Z 1 + 2Z 4 + Z 7 ) Gy = (Z 7 + 2Z 8 + Z 9 ) (Z 1 + 2Z 2 + Z 3 ) Gradiente Morfológico Existe otra manera de calcular el gradiente de la imagen de una manera muy distinta. Para ello haremos uso de los operadores morfológicos dilatación y erosión. Se dene como gradiente morfológico: 200

214 G = (I M) (I M) Donde I es la imagen a tratar y M una máscara, que en nuestro caso es una matriz de unos M = Comparación del Gradiente Morfológico y el de Sobel Los experimentos realizados han dado mejores resultados con el gradiente calculando usando las máscaras de convolución de Sobel que con los operadores morfológicos. Encontramos que la aproximación lineal de Sobel potencia mucho más los bordes. Véanse los ejemplos en la gura 2. Figure 3: Sobel Vs Morfológico La primera gura es la imagen original (Amanita Muscaria) la segunda muestra el gradiente calculado usando las máscaras de Sobel y la tercera el gradiente morfológico. Como se puede apreciar el mejor resultado lo da la aproximación de Sobel. Además en setas de colores más pálidos (Suillus Luteus, Chantarellus Cibarius...) hemos encontrado que los resultados del gradiente morfológico empeoran bastante Suciedad en Imágenes Dado que el experimento lo hemos realizado con imágenes en entornos naturales (en los que el control sobre el fondo de la escena en la que se sitúa el objeto se reduce a colocar un paño negro, pero donde no se puede controlar exhaustivamente la aparición de brillos o sombras espúreos), es conveniente hacer una limpieza, quitar todas las suciedades del fondo. Esto es necesario, para evitar que el snake se quede atrapado en una mota de brillo o en una sombra (donde el gradiente tendrá un gran valor). Esto lo hacemos sobre la imagen binaria y posteriormente utilizamos la imagen limpia como máscara en una imagen de grises 201

215 para seleccionar el objeto de interés (la seta) y anular el resto del la imagen (el fondo). Para realizar la limpieza recurrimos otra vez a operadores morfológicos, en este caso la apertura ( I M) sobre la imagen binaria, para posteriormente etiquetar los componentes conectados de la imagen y borrar los pequeños Algoritmo Algorithm 1 GlotonB 1. Inicializar un snake con N puntos en el exterior del objeto de interés. Estos puntos se colocan en una posición entera correspondiente a un píxel. No pueden ocupar una posición con coordenadas reales (lo que corresponde a una fracción de pixel). 2. Inicializar los parámetros alfa,beta,gamma y delta 3. Calcular la matriz gradiente 4. Calcular la matriz de energía pseudo-potencial 5. Mientras el 99% del los puntos no estén en Mem a Para cada punto del snake Buscar la posición de pixel vecino con menor valor de la función de energía E. Las búsqueda es local y exhaustiva. Se calcula la función de energía para cada perturbación del punto del snake, recorriendo todas las posibilidades en un 8-vecindario. Si se ha encontrado que la nueva posición proporciona un valor de la energía menor que el actual cambiar de posición el punto del snake. n para Calcular la distancia media entre los puntos del snake ( d) Reconstruir el Snake situando todos los punto a distancia d entre ellos. Guardar posiciones actuales en Mem n mientras a Memoria donde guardamos las p últimas iteraciones. El algoritmo es fundamentalmente una implementación del greedy algorithm al que le hemos añadido la energía pseudo-potencial para evitar la inanición del proceso de adaptación en puntos muy alejados del contorno actual 202

216 del objeto, y el reajuste de Snake entre iteraciones situando los puntos a una distancia d, dando así al algoritmo mayor adaptabilidad a las concavidades. El algoritmo es local en el sentido de que no garantiza que se alcanzará el valor mínimo global de la función de energía. Es local también en el sentido de que cada punto del contorno se modica sin tener en cuenta a los demás puntos del snake, y por último, en el sentido de que las posibles adaptaciones de los puntos en el snake son el conjunto de los 8-vecinos. Figure 4: Resultado de GlotonB Comportamiento Hemos aplicado el algoritmo a todas las imágenes capturadas que conforman la base de datos experimental. No hemos realizado una evaluación cuantitativa de los resultados por que no tenemos un criterio ideal para la denición del contorno. Incluso la denición interactiva manual puede ser menos útil que otras técnicas desde el punto de vista de los resultados de clasicación que nos interesan nalmente. Por ello la evaluación ha sido cualitativa observando los resultados visualmente. En la gran parte de las imágenes el resultado obtenido ha sido óptimo en el sentido de que no se aprecia visualmente desviaciones signicativas respecto del contorno del objeto, sin embargo en algunos casos el Snake ha invadido el interior de la seta, dando como resultado un contorno incorrecto. Esto ha ocurrido en las setas de pie alargado y oscuro (Pholliota Radicosa, Suillus Luteus...). Como contrapartida, el Snake tiene la virtud de producir contornos muy suavizados, dando resultados espectaculares en imágenes borrosas Discursión de las referencias En el libro de visión por computador [6] se hace una descripción del greedy algorithm aunque no completa, además en el CD adjunto no viene el código, 203

217 por lo que deja varias incógnitas en el aire. Un tipo de contornos activos que esta dando que hablar los últimos años es Gradient Vector Flow [7] y sus derivados [8]. Lo mejor es que Chenyang Xu y L.Price han publicado el código MathLab en la red. Por lo que utilizado este algoritmo con las imágenes y desgraciadamente el resultado ha sido pésimo. También lo hemos intentado usando mapas de gradiente morfológico en lugar de los obtenidos mediante la aproximación de Sobel pero la mejoría ha sido muy escasa. Sin embargo, nos ha sido muy claricador ver un código de snake que funciona (aunque sea mal) para poder desarrollar las alternativas que nalmente han sido de utilidad, Por ejemplo, nos ha resultado interesante estudiar cómo hacen la interpolación lineal del snake. Finalmente, Andrew Blake and Michael Isard tienen un libro colgado en Internet que habla sobre los contornos activos. La referencia es robots.ox.ac.uk/~contours/ 3.2. AMM De igual forma que el anterior algoritmo, no se pretende dar una descripción detallada de este. La descripción completa se encuentra en [?]. Para una mayor comprensión de las Associative Morphological Memories se recomienda la lectura de [9] que hace una descripción de las mismas comenzando desde cero. Las Autoassociative Morphological Memories son un caso particular de las anteriores. La descripción matemática de este es compleja, la estructura algebraica con la que trabaja es ( R,,, + ) en lugar de ( R, +, ). Donde y son operadores de máximo y mínimo respectivamente. En resumen, las AMM se utilizan para la detección de la condición de independencia morfológica. Un contorno (forma) n-dimensional puede ser visto como un punto en un espacio de alta dimensión. Un conjunto de formas nos da una nube de puntos es ese espacio de alta dimensión. La condición de independencia morfológica la cumplen los puntos extremos de esta nube y son los que utilizamos para denir una región convexa y para caracterizar los puntos en relación a estos puntos extremos, que denominamos endmembers, mediante las coordenadas convexas, que son las coordenadas de los puntos en la nube tomando como referencia a los endmembers. El proceso de extracción de características consiste simplemente en el cálculo de dichos endmembers a partir de la nube de datos y de las coordenadas convexas de los restantes puntos en relación a ellos. Los puntos marcados en rojo en la gura 4 representan las formas extremas, el resto de los puntos pueden ser representados en función de estas. A la hora de pretender clasicar un nuevo contorno el proceso consiste en calcular las coordenadas convexas de este contorno y en realizar una clasicación usando el algorimo 1-NN sobre la base de datos ya procesada y clasicada. 204

218 Figura 5: Coordenadas convexas 3.3. Perspectiva de visión por computador Bajo la perspectiva de visión por computador, tratamos de abordar el problema basandonos únicamente en la forma de su contorno. Para este caso, hallamos el contorno de la imagen con el snake, recuperando 100 puntos. Una vez que hemos hallado estos puntos, podemos atacar el reconocimiento de las formas de varias maneras. 1. Utilizando las coordenadas convexas obtenidas a partir de los endmembers obtenidos utilizando las AMM, y un clasicador 1-NN. 2. Hallando las signaturas radiales desde el centroide y probar con varios clasicadores. 3. Hallando las signaturas radiales desde el origen cartesiano y probar con distintos clasicadores. Es curioso también el efecto que produce utilizar la signatura radial desde el centroide en lugar del origen cartesiano. En principio supone una mejora Perspectiva micológica Otra alternativa, más coherente micológicamente, consiste en realizar una extracción de características propias de las setas. Para nuestros experimentos se han realizado la extracción de las siguientes: 1. Altura total 2. Anchura total 3. Área total (dato que no gura en libros micológicos pero se intuye su valor para un clasicador entriópico 1 ) 1 Se entiende por entriopía de una variable, la cantidad de información que esta aporta a un clasicador, digamos que es una medida de la importancia de la misma 205

219 Cuadro 1: Resultado de experimentos morfológicos #Clases #Extrema AMM ICA CCA Cuadro 2: Signatura radial desde el origen cartesiano Especies K* Naive Bayes C4.5 RIPPER Altura del sombrero 5. Anchura del sombrero 6. Área del sombrero 7. Existencia o no del mamelón 2 8. Color de la cutícula 9. Color de la carne del sombrero 10. Altura del pie 11. Anchura del pie 12. Área del pie 2 Bulto más o menos atenuado en el centro del sombrero 206

220 Cuadro 3: Signatura radial desde el centroide Especies K* Naive Bayes C4.5 RIPPER Color del la carne del pie 14. Color de la parte superior del pie 15. Color de la parte inferior del pie 16. Existencia o no del anillo 17. Existencia o no de la volba 18. Margen Izquierdo 19. Margen Derecho El área de las distintas regiones lo hallamos contabilizando píxeles y obteniendo el resultado en cm 2. Obviamente, el conjunto de características que son susceptibles de ser detectadas visualmente son muchas más, pero ello excede los objetivos de este trabajo. Figura 6: Características morfológicas 207

221 4. Clasicación Para la clasicación existen multitud de algoritmos, en nuestro caso hemos experimentado con RIPPER 3, C4.5, Naive Bayes y K*[10]. También hemos experimentado con AMM [11]con contornos de las guras obtenidos con snakes. Los mejores resultados los hemos obtenido con K* y con las características extraidas por los métodos antes citados. El espacio de colores que hemos utilizado es RGB, que es el que mejores resultados nos ha dado. La siguiente tabla muestra los resultados obtenidos por los los distintos clasicadores donde el espacio de color utilizado es RGB Cuadro 4: Experimento micológico RGB Especies K* Naive Bayes C4.5 RIPPER Descripción del sistema experto En nuestro caso, cuando tenemos ambigüedades recurrimos al sistema experto. Entendemos por ambigüedad cuando en la respuesta del clasicador existen varias especies con similar probabiliad de ocurrencia, o cuando las probabilidades asociadas a las especies de respuesta no superan un umbral de conanza. Caso en el que no podemos predecir con certeza la especie en cuestion. Tradicionalmente los sistemas expertos se construyen con reglas de inferencia agrupadas en distintos módulos según su contexto. En nuestro caso creamos las reglas de inferencia ad hoc con la información contenida en la DB. Esto es; extraemos de la DB las características no susceptibles de ser detectadas visualmente de las especies predichas por el clasicador y preguntamos al usuario, por las propiedades más discriminates entre ellas. Por ejemplo, la mayor parte tienen diferentes hábitat preguntaremos al usuario por esta característica. Le enviamos al usuario los hábitat de las especies seleccionadas. Si en las respuesta ha seleccionado un hábitat que solo pertenece a una especie, n. En otro caso buscamos otra característica discriminante entre las especies con el hábitat seleccionado. 3 This class implements a propositional rule learner, Repeated Incremental Pruning to Produce Error Reduction (RIPPER), which was proposed by William W. Cohen as an optimized version of IREP. 208

222 Algorithm 2 Regla de inferencia Tabla1= (SELECT características_no_detectables_visualmente FROM especies WHERE especie.name = especie1 OR especie.name = especie2 OR... especie.name = especien); String rowquery; int max = 0; for i = 1.. #rows{ int aux = SELECT COUNT(*) FROM (SELECT DISCTINCT rows(i).name FROM Tabla1) AS suma; if (aux >max) { max = aux; rowquery = rows(i).name;}} //rowquery contiene el atributo por el que hemos de preguntar 6. Conclusiones Con este artículo presentamos un sistema remoto información micológica, caracterizado por la extracción de información a partir de la imagen transmitida como pregunta, lo que nos permite extraer 33 datos precisos. Cuando esta información no es suente, apliacamos reglas de inferencia ad hoc con la información contenida en la DB. La aplicación de las técnicas de visión por cumputador y la busquedas de reglas de inferencia ad hoc permiten obtener información compleja de forma precisa. Por lo tanto estas técnicas se muestran poderosas en la optimización y adecuación de preguntas al usuario. 209

223 Referencias [1] R. L. Benguria, Mil Setas Ibericas. Diputacion Foral de Vizcaya, [2] A. T. A.. B. L. Frade, Guia de Campo de los Hongos de la Peninsula Iberica. Celarrayn Editorial, [3] E. Gernweidner, Setas Venenosas. Ed. Everest, [4] E. Gernweidner, Setas. Ed. Everest, [5] F. P. Lozano, Setas para Todos, Guia practica de identicacion. Editorial Pirineo, [6] G. P.. J. M. de la Cruz, Vision Por computador Imagenes digitales y Aplicaciones. Ra-Ma, [7] C. X.. L. Prince, Snakes, shapes and gradient vector ow, IEEE TRAN- SACTIONS ON IMAGE PROCESING, vol. 7 NO.3, [8] R. L. Shuhuai Luo and S. Ourselines, A new deformable model using gradient vector ow and adaptatives ballon forces, CSIRO Telecominications & Industrial Physics, Medial Image Group. CNR Vimera & Pembroke RD, Marseld NSW 2122, Australia. [9] P. S. Gerhard X. Ritter and J. L. D. de Leon, Morphological associatives memories, IEEE TRANSACTIONS ON NEURAL NETWORKS, vol. 9 NO.2, [10] J. G. C.. L. E. Trigg, K*: An instance-based learner using an entropic distance measure, Dept. of Computer Science, University of Waikato, [11] F. M. R. Grana, M. Albizuri, Convex coordenates based lattice independent sets as pattern freatures, Fuzzy Systems, 2006 IEEE International Conference on, pp ,

224 D. Robótica y control No Author Given No Institute Given D1 Control de sistemas dinámicos estocásticos basado en series. Ekaitz Zulueta, José Manuel López Guede, Karmele López (Ingeniería de Sistemas y Automática). D2 Una introducción a los controladores predictivos neuronales. José Manuel López Guede, Ekaitz Zulueta, Karmele López (Ingeniería de Sistemas y Automática, UPV/EHU). D3 Modeling a legged robot for visual servoing. Zelmar Echegoyen, Alicia D'Anjou, Manuel Graña (Grupo de Inteligencia Computacional). D4 3D camera for mobile robot SLAM. Ivan Villaverde (Grupo de Inteligencia Computacional). D5 Integración de controladores de redes neuronales en manipuladores robóticos industriales. Josu Larrañaga (Fatronik). 211

225 Control de sistemas dinámicos estocásticos basado en series Ekaitz Zulueta 1, J.M. Lopez Guede 1, and M. K. Lopez de Ipiña 1 1 EHU-UPV, Ingenieria de Sistemas y Automática, E.I. de Vitoria-Gasteiz Vitoria-Gasteiz, Álava, País Vasco {ekaitz.zulueta, jm.lopez, karmele.ipina}@ehu.es Abstract. Este trabajo presenta un nuevo método para el análisis de ecuaciones diferenciales estocásticas. Este tipo de sistemas son excitados por procesos estocásticos. Este método esta basado en la descripción del proceso estocástico de entrada mediante una combinación lineal de funciones deterministas. Estas funciones son un conjunto de funciones que tienen unas propiedades matemáticas específicas. El coeficiente de cada una de estas funciones es una variable estocástica. Por tanto la respuesta del sistema está fijada por una combinación de respuestas del sistema a cada una de estas funciones de entrada. Estas funciones de entrada forman un conjunto de funciones que permiten describir las realizaciones del proceso de entrada. En este articulo, se desarrolla un método basado en una base de funciones de K-L (Karhunen- Loeve) para la resolución de ecuaciones diferenciales estocásticas. Palabras clave: Series de Karhunen-Loeve, Ecuaciones diferenciales estocásticas, Procesos estocásticos. 1 Introducción En diversas disciplinas de la ingeniería aparecen aplicaciones donde las señales de excitación puedan considerarse como procesos de carácter aleatorio. Puede ser el caso, por ejemplo, de los aerogeneradores donde el viento, fenómeno meteorológico del cual depende el aerogenerador, está asociado a variables de gran variabilidad como son su velocidad, su dirección y su sentido. El análisis de tal tipo de sistemas exige métodos que tengan en cuenta la especificidad del carácter aleatorio de los procesos de entrada. Un estudio del estado del arte pone de manifiesto que las técnicas existentes hasta ahora en la resolución de ecuaciones diferenciales estocásticas son bastantes inconexas, debido a que no tratan los sistemas dinámicos más que de forma parcial y para casos muy restrictivos. El análisis espectral, que engloba las técnicas asociadas al cálculo de los espectros de potencia de los procesos de entrada y salida solamente permite estudiar sistemas 212

226 lineales excitados por procesos aleatorios estacionarios. Su principal limitación reside en que solamente permite calcular la media y la varianza de la salida en régimen estacionario y, en el caso de procesos de entrada estacionarios, solamente se permite la obtención de la distribución del proceso de salida a partir de la resolución de la ecuación en derivadas parciales de Fokker-Planck. Pero no propone una solución a la ecuación diferencial que describe al sistema. Se pueden encontrar casos de aplicación de estas técnicas en [1], [2], [3], [4] y [10] Por otro lado, disponemos del cálculo diferencial estocástico de Ito. A primera vista parece la solución definitiva, pero solamente permite proponer una solución de la ecuación diferencial estocástica cuando el proceso de entrada es un proceso de Wiener y no permite calcular la distribución del proceso de salida. Y esto es una limitación importante ya que, de hecho, la gran mayoría de los procesos aleatorios no son procesos de Wiener. En [6] se puede encontrar una aplicación de este tipo de cálculo diferencial a un caso particular. En este artículo se presenta una nueva técnica para resolver ecuaciones diferenciales lineales estocásticas excitadas por procesos aleatorios. Esta técnica, válida para sistemas lineales, cubre las lagunas asociadas a las técnicas anteriormente citadas; en efecto, esta técnica permite determinar la solución del sistema cuando éste es excitado mediante señales aleatorias y, al mismo tiempo, permite calcular las distribuciones de las variables del sistema. Dado que el sistema es lineal, en el análisis se distinguen las dos partes de la respuesta del sistema: la respuesta libre debida a las condiciones iniciales y la forzada debida a la excitación. La técnica propuesta se fundamenta en descomponer el proceso aleatorio de entrada en series de funciones linealmente independientes. Una vez determinados los pesos asociados a cada función, por aplicación directa del principio de superposición, la salida queda determinada también como la misma combinación lineal esta vez de otro conjunto de funciones, siendo éstas las respuestas del sistema correspondientes a las funciones escogidas para la descomposición del proceso de entrada. En este artículo se plantea bases de funciones ortogonales cuyos coeficientes de ponderación se representan mediante funciones ortogonales a tiempo discreto de Karhunen-Loeve. Técnicas numéricas para el cálculo de estas funciones de Karhunen-Loeve se puede encontrar en [14]. La descomposición de procesos estocásticos es una técnica aplicada muchas veces que se utiliza en un amplio elenco de campos como la generación de turbulencias del viento en aplicaciones de aerogeneradores [7]. En [8] y [9] se pueden consultar aplicaciones de las técnicas anteriores comentadas. Como se puede observar la cantidad de áreas en las que este problema está presente. La técnica propuesta tiene una clara aplicación en ingeniería de control ya que da una solución a problemas de control de sistemas afectadas por alguna entrada que tenga carácter aleatorio. 213

227 2 Procedimiento propuesto para la resolución de ecuaciones diferenciales estocásticas lineales 2.1 Descripción del problema teórico Considérese un sistema dinámico excitado por un proceso aleatorio. Por razones de simplicidad, se asumirá que los sistemas a estudiar son lineales e invariantes en el tiempo, así su comportamiento se describirá mediante una ecuación diferencial lineal. Tomamos este tipo de modelos puesto que son ampliamente usados para el modelado de sistemas y porque poseen una gran cantidad de propiedades matemáticas que permiten un análisis matemático muy potente. El problema reside en resolver la ecuación diferencial para determinar, por un lado, la respuesta del sistema en el tiempo y la descripción estadística del proceso de salida por otro. 2.2 Descripción de la resolución Sea un sistema de orden N descrito por una ecuación diferencial lineal que relaciona el proceso de salida y con el proceso de entrada x: N j = N 1 j j= N j d y d y d x + N a j = b j j j dt j= 0 dt j= 0 dt a, b R j j (1) Por aplicación de la transformada de Laplace y teniendo en cuenta las condiciones iniciales tanto del proceso de entrada como de la salida, la ecuación (1) queda de la forma siguiente: j= N 1 l= N 1 q= l 1 N j N 1 j l q l 1 q s Y ( s) s y0 + al s Y ( s) s y0 = j= 0 l= 0 q= 0 l= N q= l 1 l q l 1 q bl s X ( s) s x0 l= 0 q= 0 m m donde, los términos y0, x 0 representan los valores de las derivadas emésimas de las realizaciones de los procesos de salida y entrada respectivamente. Simplificando estas expresiones se obtiene la siguiente expresión matemática: (2) 214

228 ( ) Y s ( ) ( ) ( ) ( ) ( ) ( ) B s Y0 s X 0 s = X ( s) + + A s A s A s (3) donde los polinomios en s de la ecuación (3) se definen así: l= N 1 N l A( s) = s + al s l= 0 (4) ( ) B s l= N = l= 0 b s l l (5) j= N 1 l= N 1 q= l 1 j N 1 j q l 1 q Y0 ( s) = s y0 + al s y0 j= 0 l= 0 q= 0 l= N q= l 1 q l 1 q X 0 ( s) = bl s x0 l= 0 q= 0 (6) (7) A(s) y B(s) son polinomios de grado N y Y 0 (s) y X 0 (s) son polinomios de grado N-1 asociados a las condiciones iniciales. Podría darse el caso de que algunos coeficientes de mayor orden del polinomio B(s) fuesen nulos haciendo que los grados de los polinomios B(s) y X 0 (s) fueran menores que N-1. Los términos de la ecuación (3) asociados a las condiciones iniciales pueden descomponerse en una suma de funciones de la cual, por aplicación de la transformada inversa de Laplace, se obtiene la siguiente expresión temporal para las condiciones iniciales: q= N 1 q 1 q ( ) c q N q, y s = ( ) = q, y0 ( ) L = c L q= 0 ( ) ( ) q= 0 ( ) Y0 s Y0 s s A s A s A s A s (8) 215

229 q N q ( ) cq, x s 0 ( ) q ( ) q N q ( ) q, x0 ( ) q ( ) = 1 1 X 0 s 1 X 0 s = 1 s = L c L A s = 0 A s = A s = 0 A s (9) Los coeficientes c, c son los coeficientes de los términos de grado q de los q, x0 q, y0 polinomios X 0 (s) y Y 0 (s). Dichos coeficientes pueden expresarse en función de los valores que toman las derivadas de los procesos de entrada y salida para el instante t=0; así, el polinomio Y 0 (s) se expresa de la siguiente forma: Y s a y s a y s a y a y s j= N 1 j= N 2 j= N q 1 j j q j N 1 0 ( ) = j j j+ q N 0 j= 0 j= 0 j= 0 (10) con j= N q 1 j q, y = 0 j+ q+ 1 0 j= 0 c a y (11) Del mismo modo, las expresiones de los coeficientes del polinomio X 0 (s) son: X s b x s b x s b x b x s j= N 1 j= N 2 j= N q 1 j j q j N 1 0 ( ) = j j j+ q N 0 j= 0 j= 0 j= 0 (12) con j= N q 1 j q, x = 0 j+ q+ 1 0 j= 0 c b x (13) Estos términos pueden tenerse en cuenta a la hora de calcular la solución y la distribución del proceso de salida. Se pueden suponer las condiciones iniciales deterministas o, por el contrario, se pueden suponer variables aleatorias; en ambos casos influyen en la salida. Pero, en realidad, el mayor escollo para calcular la 216

230 solución y su distribución reside en el término asociado a la transformada de Laplace del proceso de entrada X(s), en la respuesta forzada. ( ) ( ) B s Yforzada ( s) = X s A s Para simplificar el análisis, estudiaremos la respuesta forzada de forma separada a los términos asociados a las condiciones iniciales. Caracterización del proceso de entrada. Para describir el proceso de entrada como una serie de funciones, aquí se propone utilizar las series de Karhunen-Loeve. Estas series resultan ser de gran interés debido a que se fundamentan en funciones que son ortogonales y estadísticamente independientes. Además, el cálculo de la base de funciones de K-L, así como la resolución de ecuaciones diferenciales lineales estocásticas mediante series de K-L, se presta bien a su aplicación mediante algoritmos numéricos. Si se desea profundizar sobre la representación de procesos aleatorios a través de la base de K-L ver la referencia [Zulueta1]. La aplicación de las series de K-L implica resolver una ecuación integral denominada ecuación de Fredholm hom*ogénea. Al fin y al cabo, para aplicar la descomposición mediante una serie de K-L se debe tener la función de autocorrelación R(t 1,t 2 )=E[x(t 1 ).x(t 2 )]. Las series de K-L forman una base de funciones ortogonales {f i (t), i N + } cuyos coeficientes de ponderación son independientes entre sí. Para justificar la ecuación de K-L se comienza construyendo una realización a partir de la base funciones ortogonales {f i (t), i N + }. Esta base de funciones se toma unitaria para facilitar el cálculo de la realización del proceso x(t) de entrada. ( ) (14) = j= ( ) α ( ) x t f t j= 0 j j (15) 1 α j = 2 x( t ). f j ( t). dt f j ( t ) (16) La función de autocorrelación del proceso de entrada R(t 1,t 2 ) puede describirse en función de los coeficientes de ponderación. 217

231 i= j= ( 1, 2 ) = ( 1). ( 2 ) = ( 1). ( 2 ) R t t E x t x t f t f t E α α j i i j i= 0 j= 0 (17) 2 (, ) ( ). = σ ( ) R t t f t dt f t 1 2 i 2 2 i i 1 (18) σ = E α (19) 2 2 i i Finalmente la ecuación de K-L resulta ser una ecuación integral de Fredholm hom*ogénea. Como se puede apreciar, las realizaciones del proceso aleatorio a tiempo continuo se pueden representar mediante un proceso aleatorio a tiempo discreto formado por los coeficientes de ponderación {f i (t), i N + }. La varianza asociada a la función número j de la base de K-L representa la energía que aporta a cada realización del proceso aleatorio x(t). 2 (, ). ( ). = σ ( ) R t t f t dt f t 1 2 i 2 2 i i 1 (20) Existen infinidad de funciones que cumplen estas condiciones. Puede existir un conjunto finito de funciones que cumplan la condición (20) o, por el contrario, puede existir un número infinito de funciones; esto depende claramente de la función de Autocorrelación del proceso aleatorio en cuestión. Una vez resuelta la ecuación integral, bien mediante técnicas numéricas o bien mediante otras técnicas, se dispone de las funciones ortogonales estadísticamente independientes entre sí. Por tanto, para calcular la distribución de los coeficientes de ponderación se debe aplicar un truncamiento en la serie de K-L. Así, tomando N términos en la serie de K-L y N muestras del proceso de entrada (de los que se dispone la función de probabilidad conjunta), se plantea de forma matricial la relación entre los coeficientes α i y las muestras del proceso de entrada. 218

232 ( ) ( ) ( ) ( )... m ( ) ( ) ( )... ( ) x t0 f0 t0 f1 t0 f 1 t0 α0 x t1 f0 t1 f1 t1 fm 1 t 1 α 1 = x( tm 1) f0 ( tm 1) f1 ( tm 1 )... fm 1 ( tm 1) α m 1 (21) Para calcular la distribución de la salida basta con calcular el Jacobiano de la transformación. ([ ]) α,. ([ ]) p α = J p x (22) α x x x [ ] = [ ] α α, α, α,..., αm (23) [ ] ( ) ( ) ( ) x = x t x t x t (24) 0, 1,..., m 1 J α, x = x t x t ( ) x ( t ) α 0 m ( ) x ( t )... m 1 m 1 α α α 0 m 1 (25) ( ) x t i = α j f j ( t ) i (26) Respuesta forzada del sistema. Para el sistema dinámico a tiempo continuo, 219

233 lineal, causal, invariante y a condiciones iniciales nulas descrito por la ecuación diferencial (1) la salida en el dominio Laplace se escribe: ( ) Y s ( ) ( ) B s = A s ( ) X s (27) l= N 1 N l A( s) = s + als l= 0 (28) ( ) B s l= N (29) l = bl s l= 0 No se consideran las condiciones iniciales puesto que ello no conlleva ninguna pérdida de generalidad; de hecho, si fuera necesario, los términos asociados a las condiciones iniciales podrían introducirse al final de análisis. Dado que el proceso de entrada ha sido caracterizado mediante una serie, por linealidad, la salida resulta ser una serie de las respuestas del sistema dinámico a cada una de las funciones de la base de K-L, es decir, dado que: = j= ( ) α ( ) x t f t j= 0 j j (30) ( ) Y s i= = i= 0 ( ) ( ) B s αi A s i ( ) F s (31) 220

234 i ( ) Y s ( ) ( ) B s = A s i ( ) F s (32) i 1 ( ) = ( i ( )) y t L Y s (33) i= = ( ) α ( ) y t y t i= 0 i i (34) Cálculo de la distribución del proceso de salida. Finalmente, para calcular la distribución del proceso de salida y(t) se debe plantear la salida de forma matricial en función de los coeficientes de ponderación del proceso de entrada. J y, α x α y t ( ) y ( t ) 0 m 1 = α... N 1 N 1 ( ) y ( t ) y t α α 0 m 1 (35) ( ) ( )... m ( ) ( ) ( )... ( ) 1 ( ) ( ) α0 y0 t0 y1 t0 y 1 t0 y t0 α y t y t y t y t α y ( t ) y ( t )... y ( t ) y ( t ) 1 = m m 1 0 m 1 1 m 1 m 1 m 1 m 1 (36) 221

235 J y, α x ( ) ( )... m ( ) ( ) ( )... ( ) y t y t y t y t y t y t det y t y t y t ( ) ( )... ( ) m 1 1 = 0 m 1 1 m 1 m 1 m 1 (37) Para concluir, las series de K-L permiten calcular fácilmente la solución de la ecuación diferencial del sistema, así como la distribución del proceso de salida y(t). Resulta evidente que el análisis basado en las series de K-L es muy parecido al análisis basado en series ortogonales, puesto que las series son de por sí series ortogonales con la sola diferencia de que las estadísticas de las series de K-L son más sencillas. Por el contrario, las series de K-L obligan a la resolución de ecuaciones integrales que, en general, resulta ser delicada. 3 Conclusiones En este artículo se ha presentado una técnica para el análisis de ecuaciones diferenciales estocásticas lineales. Esta técnica propone dos cuestiones importantes: la primera de ellas es el cálculo de la salida y la segunda es el cálculo de la distribución de la salida. Una de las cuestiones más importantes es la elección del conjunto de funciones para representar las realizaciones del proceso de entrada. Es necesario realizar una mención especial a los conjuntos de funciones que son ortogonales, puesto que son los más usados. Dentro de los conjuntos de funciones ortogonales se encuentran las bases de funciones de K-L; este tipo de conjuntos de funciones son de coeficientes estadísticamente independientes. Esto hace que su simulación y análisis sea más sencillo. En caso de utilizar un conjunto de funciones ortogonales que no sean independientes es recomendable realizar una descomposición de K-L con los coeficientes de ponderación. Esto permite describir las funciones de K-L mediante combinaciones lineales de las funciones que se han escogido para representar las realizaciones del proceso de entrada. Primero se calculan las respuestas que presenta el sistema ante cada una de las funciones de la base de la entrada. A continuación, se calculan los coeficientes de ponderación permiten describir la realización en concreto del proceso de entrada. De esta forma se puede calcular la salida del proceso, así como su descripción estadística. Con los pasos descritos en este artículo se puede obtener para un sistema a tiempo continuo la información necesaria como para desarrollar algoritmos de control de sistemas sometidos a entradas aleatorias. Esto hace que se pueda determinar la presencia de ciertos comportamientos que no son deseados en la salida. 222

236 Siempre se deben tener presentes los criterios para escoger el conjunto de funciones con las que se representarán los procesos aleatorios de entrada. Si se desea que las realizaciones tengan una exactitud determinada a lo largo del horizonte de tiempo es recomendable el uso de funciones ortogonales. En el caso que se desee realizar simulaciones en base a mediciones, es recomendable el uso de funciones ortogonales del tipo de K-L puesto que se prestan a un análisis numérico de forma muy sencilla. Una mención especial merece la base de funciones de Shannon, que permite un cálculo inmediato de los coeficientes de ponderación puesto que coinciden con los valores que toma el proceso aleatorio en cada instante. A pesar de todo en el caso de las ecuaciones diferenciales estocásticas no lineales la técnica propuesta no sería en general fácilmente aplicable. A pesar de todo existen ciertos tipos muy interesantes de ecuaciones como las que describen los modelos de Lotka- Volterra en los que este tipo de análisis podría proponer soluciones en desarrollos en series, aunque esta técnica debería ser adecuada a este modelo. Este tipo de modelos son de gran importancia en Biología Computacional y Ecología Matemática. En [11]. [12] y [13] se pueden encontrar estudios de estos modelos para casos concretos de Biología y Ecología. Se debe tener en cuenta que estos modelos pueden presentar una desarrollo espacio-temporal, y que realmente resultan interesantes para su estudio. Referencias 1. Spencer B.F., Dyke S.J., Deoskar H.S.: Benchmark Problems in structural Control :active mass control system. Proceedings of the 1997 ASCE structures congress, (1997) 2. Jianbo Lu, Skelton R.E.: Covariance Control using closed loop modelling for Structures. Proceedings of the 1997 ASCE structures congress, (1997) 3. Iwasaki T., Skelton R.E., Corless M.: A recursive construction algorithm for covariance control. IEEE transactions on Automatic control, (1998) 4. Georgiou T.T.: Spectral Análisis base don the State Covariance: the maximum entropy spectrum ans linear fractional parametrization. IEEE transactions on Automatic control, (2002) 5. Billings L., Bollt E., Morgan D., Schawartz I.B.: Stochastic global bifurcation in perturbed hamiltonian systems. Proceedings of the fourth internacional conference on dynamical systems and differential equations, (2002) 6. Meyn S. P.: A crash course on Markov and stochstic stability 7. Levy B. C., Beghi A.: Discrete-time Gauss-Markov processes with fixed reciprocal dynamics. Journal of mathematical systems, estimation and control, (1994) 8. Giraud C.: Processus stochastiques une introduction a la determiation du prix des options par la theorie des martingalas, (2003) 9. Page K. M., Nowak M. A.: Unifying evolutionary dynamics. Journal of Theorical Biology, (2002) 10. Ellner S. P., Sasaki A., Haraguchi Y., Matsuda H.: Speed of invasión in lattice population models: pair-edge approximation. Journal Mathematical Biology, (1998) 11. Nisbet R.: Predictive power of simple population models 12. Frachebourg L., Krapivsky P.L., Ben-Naim E.: Spatial organization in cyclic Lotka- Volterra systems 13. Keeling M.J., Wilson H.B., Paccala W.: Deterministic limits to stochastic spatial models of natural enemies. The American Naturalist, (2002) 223

237 14. Zulueta E.: Métodos de análisis numérico aplicado a las series Karhunen-Loeve, enviado a RIAI, y está a la espera de revisión. (Revista Iberoamericana de Automática e Informatica). 224

238 Una Introducción a los Controladores Predictivos Neuronales Jose Manuel López Guede 1, Ekaitz Zulueta Guerrero 1, Karmele López de Ipiña 1 1 Dpto. de Ingeniería de Sistemas y Automática Escuela Universitaria de Ingeniería de Vitoria-Gasteiz C/ Nieves Cano, Vitoria-Gasteiz {jm.lopez, ekaitz.zulueta, karmele.ipina}@ehu.es Abstract. En este articulo se presenta una introducción al Control Predictivo Neuronal. El objetivo final del presente trabajo es el diseño de una red neuronal capaz de trabajar como un controlador predictivo. El Control Predictivo basado en Modelos (MBPC) se ha mostrado como una técnica capaz de trabajar con plantas en las que otras técnicas clásicas como el PID no lo han sido. De todos los algoritmos de MPC se ha utilizado el Dynamic Matrix Control (DMC). Una vez se verifica la capacidad del controlador DMC se procede al diseño de un controlador neuronal basado en el comportamiento del DMC utilizando un tipo de redes neuronales concreto, las Time Delayed Neural Network (TDNN). Keywords: Control Predictivo, MPC, DMC, Redes Neuronales, TDNN. 1 Introducción En el presente trabajo se muestra el proceso de diseño de un Controlador Predictivo Neuronal. En el capítulo 1 se justifica la búsqueda de otras técnicas más allá de las clásicas para el control de sistemas lineales y estables. En el capítulo 2 se hace una pequeña introducción y se recogen aspectos generales de los Controladores Predictivos. En el capítulo 3 se muestra un tipo concreto de controlador predictivo: el Dynamic Matrix Control (DMC). En el capítulo 4 se introducen las Time Delayed Neuronal Network (TDNN). Finalmente, en el capítulo 5, utilizando un caso concreto de estudio se diseña un controlador predictivo neuronal y se verifica su desempeño. Para el control de sistemas lineales existen técnicas clásicas como el control PID. Dichas técnicas han sido utilizadas ampliamente desde hace tiempo en la industria con procesos continuos, y dado su éxito (cerca del 50% de los controladores en la industria son de este tipo), realizando ciertas discretizaciones se ha derivado la versión discreta del mismo. Dicho controlador necesita que se ajusten ciertos parámetros del mismo (tunning o sintonización del controlador). Ese proceso puede llevarse a cabo de un modo más o menos sistemático utilizando el método de Ziegler- Nichols. A pesar de ser unas técnicas bien establecidas y utilizadas ampliamente, no 225

239 son apropiadas para controlar todas las plantas. Por ejemplo, la ecuación (1) describe la función de transferencia de una planta que es lineal y estable. H z z Para realizar el control de esta planta mediante un PID discreto en lazo cerrado se emplea el método de Ziegler-Nichols con la finalidad de calcular los parámetros que lo caracterizan. Tras dicha sintonización se obtiene la respuesta controlada de la planta para una consigna escalón unitario, pero a pesar de ser estable la planta a controlar, la respuesta de la misma bajo el control del PID discreto es inestable. Este es el punto de partida para considerar el Control Predictivo Basado en Modelos (MPC) como una alternativa para controlar la planta en cuestión. (1) 2 Control Predictivo Basado en Modelos A este tipo de controladores se les atribuye varias ventajas frente a otros tipos de controladores: es una metodología abierta, con posibilidad de nuevos desarrollos; permiten incluir restricciones sobre las variables manipuladas como sobre las controladas, algo importante desde el punto de vista del ahorro de energía y de ubicación del punto de trabajo cerca de óptimos; y por último, permiten una generalización a sistemas multivariables más sencilla. También se les atribuyen una serie de inconvenientes: se depende fuertemente de la precisión y exactitud del modelo de la planta; y son computacionalmente costosos, más aun cuando se trata de plantas no lineales o hay restricciones. La estrategia de control utilizada por un controlador predictivo se basa en el siguiente algoritmo: En cada periodo de muestreo t, y haciendo uso del modelo de la planta, se hace una predicción a p instantes de muestreo vista sobre la salida que tendrá la planta en todos esos instantes (horizonte de predicción p ). Estas salidas futuras dependerán de valores conocidos en ese instante de muestreo t y de las señales de control futuras que se generen. Se calcula un conjunto de señales de control optimizando un criterio, que generalmente se expresa mediante una función objetivo a minimizar. Esa función objetivo normalmente mide la diferencia existente entre la salida predicha de la planta y el valor que debía tener la misma según la consigna en cada instante de muestreo, siempre a lo largo de todo el horizonte de predicción y bajo la acción de m señales de control (horizonte de control m ), siendo generalmente m p. En el instante de muestreo t se utiliza únicamente la primera de las m t 1 señales de control, ya que en el siguiente instante de muestreo se dispone de más información de la que se disponía cuando se hizo el cálculo anterior en el instante t, por lo que se repite todo el proceso de nuevo. 226

240 En realidad, el concepto de control predictivo se refiere a un conjunto de técnicas que tienen en común ciertas características de funcionamiento, habiendo cierta libertad de elección en cada una de ellas y obteniéndose de este modo distintos tipos de controladores predictivos. Estas características comunes a todos ellos son: 1. Existencia de un modelo de la planta, pudiendo ser el modelo de respuesta a impulso, a escalón, una función de transferencia, modelo de estados, etc. 2. Existencia de una función objetivo a minimizar por el controlador, 3. Existencia de una ley de control para conseguir minimizar la función objetivo. Se puede encontrar información más amplia sobre diversos algoritmos de control predictivos en [2], [4], [7] y [8]. 3 Dynamic Matrix Control El Dynamic Matrix Control (DMC) es un algoritmo de control predictivo concreto, y por lo tanto, fija cada una de las tres características expuestas anteriormente como comunes a cualquier algoritmo de Control Predictivo. 3.1 Modelo de la Planta El modelo de la planta utilizado por el DMC es el de respuesta a escalón, consistente en la obtención de unos coeficientes g que son la salida del sistema lineal cuando es excitado por un escalón unitario. Para reducir el número de coeficientes se asume que el sistema es estable y que la salida no cambia a partir de cierto instante de muestreo k. y( t) k i 1 g u i t i i (2) 3.2 Modelo para la Predicción de Salidas Futuras Utilizando el modelo de respuesta a escalón para modelar la planta y manteniendo la hipótesis de que las perturbaciones que actúan sobre el sistema son constantes, es posible hacer en el instante de tiempo t una predicción de la salida de la misma hasta p instantes de tiempo después y bajo el efecto de m acciones de control: yˆ G u f (3) 227

241 siendo ŷ la predicción de la salida, G una matriz que contiene la dinámica del sistema y f la respuesta libre del sistema. A continuación se muestra las dimensiones de la matriz y los vectores: p m pxm m p p p m m p p t f t f t f f m t u t u t u u g g g g g g g g g G t p t y t t y t t y y,,2, ˆ 2 ˆ 1 ˆ ˆ (4) En la ecuación (5) se muestra cómo se realiza el cálculo de la respuesta libre del sistema : t, k f N i i i k m i t u g g t y k t f 1, (5) 3.3 Obtención de la Ley de Control La obtención de la ley de control se basa en la existencia de una función objetivo a minimizar, la cual utiliza el modelo de predicción de salidas futuras descrito anteriormente. Como función objetivo utiliza la descrita en la ecuación (6): m j p j j u t j w t t j t y J ˆ (6) Se trata de minimizar la diferencia existente entre la consigna y la predicción de la salida de la planta a lo largo de un horizonte de predicción p con las m acciones generadas en el horizonte de control, y ponderando con la brusquedad en las variaciones de las variable de manipulada. Minimizando la función objetivo J descrita en la ecuación (6) se llega a la siguiente expresión para t u recogida en 228

242 la ecuación (7), que produce m acciones de control, a pesar de que en utilice una de ellas: u m t 1 t G G I G w f t sólo se (7) 4 Redes Neuronales Retrasadas en el Tiempo Las Redes Neuronales Retrasadas en el Tiempo o Time Delayed Neural Networks (TDNN) son un caso particular de perceptrón multicapa. Tienen una capa de entrada, donde están las neuronas que aceptan las entradas del exterior; una o más capas ocultas, que a partir de los datos introducidos en la capa de entrada generan valores intermedios hacia la capa de salida; y una capa final de salida, que pone en el exterior los datos generados por la red. La característica que diferencia a las TDNN con respecto a las redes perceptrón multicapa es que son redes dinámicas. En concreto son un tipo particular de redes dinámicas: a la capa de entrada se introducen versiones retrasadas de las señales que entran a la red. En la Fig. 1 se puede ver de qué modo se aplican retrasos a las entradas para que sean retenidas y utilizadas en instantes futuros a través de la línea de retrasos TDL. Fig. 1. Esquema de una TDNN. En ella se puede ver cómo la línea de retardos TDL se introducen d versiones retrasadas de las señales de entrada a la red. Por esta razón la salida de este tipo de redes no depende exclusivamente del valor actual de las entradas de la red, sino que además se tienen en cuenta valores pasados de las mismas. De hecho este es uno de los parámetros característicos de una TDNN: el tamaño de la línea de retardos. Las redes TDNN que aquí se van a utilizar sólo tienen conexiones hacia delante (desde la capa de entrada a las ocultas, de estas a la de salida), por lo que no son recurrentes ni parcialmente recurrentes. Dichas redes, al ser un caso particular de perceptrón multicapa se pueden entrenar con el algoritmo de Backpropagation o Regla Delta generalizada. Dicho algoritmo toma un vector con una serie de patrones y su correspondiente valor a aprender, y realiza modificaciones en los pesos de las conexiones entre la neuronas de distintas capas, y en los bias de las 229

243 neuronas según un método de descenso por gradiente, de modo que se modifican en aquella dirección del espacio de valores en la que el error con ese conjunto de patrones y valores objetivos se minimiza. En este caso se va a utilizar una variante de este algoritmo, el llamado método de Levenberg-Marquardt. Este otro método requiere más memoria que el de Backpropagation básico, pero se acelera el entrenamiento. Se puede encontrar más información general sobre redes neuronales en [1], [5], [6] y [9], mientras que en [3] se dispone de información más específica sobre las TDNN. 5 Caso de Estudio Para realizar el diseño de un controlador predictivo neuronal se va a partir de la planta cuya función de transferencia está descrita en la ecuación (1). El diseño se va a dividir en dos fases: en la primera se obtendrá un controlador predictivo, mientras que en la segunda se entrenará una red neuronal para aprender el comportamiento del controlador diseñado en la primera fase. El diseño de un controlador predictivo DMC consiste en determinar los valores del horizonte de predicción p y del horizonte de control m que hacen que la planta siga a una consigna w dada. Dicho par de valores se ve influenciado por la planta, la consigna a seguir y el resto de dispositivos que participan en el lazo de control, como son sensores y actuadores. Los dos primeros elementos se ven representados de un modo obvio en el esquema del DMC, mientras que los dos últimos se recogen mediante el parámetro. En la ecuación (6) se ve que dicho parámetro sirve para ponderar la variación en la señal de control a la hora de minimizar la función objetivo, pero más que tratarse de un valor que se elige en el proceso de sintonización del controlador, se trata de un valor que viene dado por la implementación física del sistema de control. Los valores bajos se asocian a implementaciones rápidas capaces de seguir de modo inmediato variaciones en la señal de control, mientras que valores altos reflejan lentitud en su aplicación. En la Fig. 2 se ve la respuesta del sistema bajo la acción de un controlador DMC con el horizonte de predicción p =5 periodos de muestreo y el horizonte de control m = 3 para un valor del parámetro =1 cuando al consigna a seguir es un escalón unitario que comienza en k = 50 y dura 30 instantes de muestreo. En la Fig. 3 se recoge el resultado del mismo controlador pero asignando al parámetro un valor de 100. Tal y como se puede observar, si se realiza una implementación lo suficientemente adecuada y se estima que el valor del parámetro es lo suficientemente pequeño, se obtiene un control satisfactorio de la planta. Si por el contrario, el valor de es más alto que cierto umbral, se ve cómo la respuesta es más lenta y no se sigue adecuadamente a la consigna. Por supuesto, este efecto se acentúa aun más para mayores valores de dicho parámetro. Normalmente se eligen valores para el horizonte de control menores que para el horizonte de predicción, y la elección de los mismos se ha realizado de modo empírico, tratando de escoger siempre valores para p y m lo más pequeños posible siempre y cuando no comprometan el desempeño del sistema. 230

244 Fig. 2. Control realizado por un controlador DMC con p=5, m=3 y =1. Fig. 3. Control realizado por un controlador DMC con p=5, m=3 y =100. Una vez diseñado un regulador DMC que controla adecuadamente la planta de interés, se procede en una segunda fase a entrenar una red neuronal para que aprenda su comportamiento. Tal y como se ha expuesto en el capítulo 4, existen dos parámetros estructurales de las TDNN que influyen fuertemente en su comportamiento, como son el número de neuronas de la capa oculta o hidden h, y el número de versiones retrasadas de cada una de las señales que se pongan a la entrada de la red d. Estos dos parámetros también se escogen de modo empírico, si bien parece claro que cuantas más neuronas haya en la capa oculta, tendrá capacidad de aprender comportamientos más complejos, y cuantas más versiones retrasadas haya de las señales de entrada, más capacidad tendrá de aprender comportamientos que se vean influenciados por entradas pasadas dándose un mayor efecto de memoria. También hay que tener en cuenta que unos valores excesivamente grandes para ambos 231

245 parámetros estructurales, además de generar una red neuronal excesivamente grande y hacer más lento el proceso de aprendizaje, pueden llevar a efectos no deseados como el sobre-entrenamiento u overfitting de la red. En cuanto a la estructura de la red, el último factor a fijar es la función de activación, tanto de la capa oculta como de la capa de salida, siendo la función lineal la escogida en este caso para ambas. Para llevar a cabo el entrenamiento de la red se utiliza un conjunto de patrones que recogen el comportamiento del controlador DMC, de modo que en un instante de tiempo k, a partir del vector de patrones P w k, y k, u k 1 la señal u k se obtenga el valor de a aplicar a la planta en ese mismo instante de tiempo k. Para el proceso de entrenamiento de la red se utiliza el algoritmo de Levenberg-Marquardt. Una vez escogido el tamaño de la red en función de h y d se hacen varias inicializaciones dado que el valor inicial de los pesos y bias de la red se escogen de modo aleatorio, aplicando a cada una de las inicializaciones los mismos conjuntos de patrones. Una técnica que se suele utilizar para reducir el riesgo de overfitting de la red es añadir un poco de ruido a los conjuntos de patrones, de modo que se añade generalidad a los mismos, técnica que se ha utilizado en estos entrenamientos. Debido a ello se diseñan y presentan a la red distintos conjuntos de patrones, resultando más costoso en tiempo el entrenar la red. Tras el proceso de entrenamiento se ha escogido una red con h = 7 y d = 7. En las Fig. 4 y 5 se recoge la salida de la red para ciertos conjuntos de valores a su entrada. Fig. 4. Salida devuelta por la red ante un conjunto de patrones que recogen como consigna un pulso ideal. Dicho conjunto fue utilizado en el proceso de entrenamiento. 232

246 Fig. 5. Salida devuelta por la red ante un conjunto de patrones que recogen como consigna un pulso ideal alterado con ruido. Dicho conjunto no fue utilizado en el proceso de entrenamiento. Tal y como puede ver, la estructura de la red propuesta es capaz de reproducir el comportamiento del controlador DMC diseñado anteriormente, al menos a nivel de entradas y salidas. Para verificar que la red puede sustituir dicho controlador, y de ese modo constituir un controlador neuronal se sustituye en el lazo cerrado el bloque que implementa el DMC por la red neuronal, de modo que tome las mismas entradas que. En la Fig. 6 y 7 se muestra el comportamiento de la aquél más la señal u k 1 planta en un esquema de lazo cerrado controlado mediante la red neuronal anteriormente entrenada, en contraposición de los valores que se habrían generado si el lazo de control estuviese bajo la acción del controlador DMC original. En la Fig. 6 se recoge el resultado del control para una consigna utilizada en el entrenamiento, que resulta ser un pulso sin ruido. Por el contrario, en la Fig. 7 se puede apreciar cómo el resultado del control neuronal es satisfactorio incluso para seguir consignas no utilizadas durante el entrenamiento y con ruido. 233

247 Salida y(k) Patron y(k) Red y(k) Cont rol du(k) Patron du(k) Red du(k) Fig. 6. Salida del controlador neuronal y de la planta cuando está bajo su control cuando se sigue una consigna de pulso ideal utilizada en el entrenamiento de la red. Salida y(k) Patron y(k) Red y(k) Control du(k) Patron du(k) Red du(k) Fig. 7. Salida del controlador neuronal y de la planta cuando está bajo su control cuando se sigue una consigna de pulso con ruido que no ha sido utilizada en el entrenamiento de la red. 234

248 6 Conclusiones En este artículo se ha realizado una breve introducción al Control Predictivo como familia de técnicas que comparten una serie de características. A continuación se ha descrito un algoritmo concreto, el Dynamic Matrix Control, mostrando cómo se concretan dichas características. También se han presentado las Time Delayed Neural Networks como redes capaces de aprender comportamientos en función de valores actuales y pasados. Con una planta que ha servido como caso de estudio se ha podido comprobar en primer lugar que el Control Predictivo, en su variante de Dynamic Matrix Control, es un tipo de control que puede resolver problemas que no puede el control clásico. También se ha verificado que las TDNN son un tipo de redes capaces de aprender el comportamiento de los DMC e implementar controladores neuronales funcionando en lazo cerrado de igual modo que lo haría el propio controlador DMC. 7 Referencias 1. Braspenning, P. J., Thuijsman, F., Weijters, A..: Artificial neuronal networks. An introduction to ANN theory an practice. Springer-Verlag, (1995) 2. Camacho, E.F., Bordons, C.: Model Predictive Control. Springer-Verlag, (2004) 3. Huang, B.Q., Rashid, T., Kechadi, M.T.: Multi-Context Recurrent Neural Network for Time Series Applications. International Journal of Computational Intelligence. Vol. 3 Number 1, ISSN pp (2006) 4. Maciejowski, J. M.: Predictive control with constrains. Prentice Hall. (2002) 5. Narendra, K. S., Parthasarathy, K.: Identification and Control of Dynamical Systems Using Neural Networks. IEEE Trans. Neural Networks, Vol. 1, NO.1, pp 4--27, (1990) 6. Nogaard, M., Ravn, O., Poulsen, N. K., Hansen L. K.: Neuronal networks for modelling and control of dynamic systems. Springer-Verlag. (2004) 7. Rawlings, J.B.:Tutorial: Model Predictive Control Technology. Proceedings of the American Control Conference San Diego, California. pp (1999) 8. Soeterboek, R.: Predictive control. A unified approach. Prentice Hall. (1992) 9. Widrow, B., Lehr, M.A.: 30 Years of Adaptive Neural Networks: Perceptron, Madaline, and Backpropagation. Proceedings of the IEEE, Vol. 78, No.9. pp (1990) 235

249 Modeling a legged robot for visual servoing Zelmar Echegoyen, Alicia d Anjou, and Manuel Graña Computational Intelligence Group, Dept. CCIA Paseo Manuel de Lardiazábal, San Sebastian - Spain Abstract. This article presents a contribution to the visual tracking of objects using all the degrees of freedom of an Aibo ERS-7 robot. We approach this issue in a principled way applying ideas of visual servoing. Nowadays visual tracking solutions for this kind of robots inspired in the visual servoing approach only move the head effectors or use a learning kinematics matrix. In this work we take into account all the effectors which can affect in the resulting image. We construct from the description of the robot the matrix that describes the kinematics of the robot. Visual servoing is performed computing the seudoinverse of this matrix. 1 Introduction Visual servoing [1] is a technique for robot control which uses as a feedback signal the information extracted from the image sequences taken by one or several video cameras. In fact, it is defined as the control of the end-effector pose relative to a target object or set of features, for robotic manipulators, or the pose of the robot relative to some landmarks, in the case of mobile robotics. A major classification of visual servoing systems distinguishes position-based control from image-based control. In position- based control, the features extracted from the image are used to fit a geometric model of the target and the known camera model to estimate the pose of the robot relative to the target. Control feedback is computed trying to reduce errors in estimated pose space. In image-based servoing, control parameter values are computed on the basis of image features directly. We have chosen the image-based approach may reduce computational delay, eliminate the necessity for image interpretation and eliminate errors due to sensor modeling and camera calibration. However the image-based approach imposes a linear approximation to obtain the control parameters. This is a significant simplification of the nonlinear and highly coupled robotic system whose effects must be evaluated by physical experimentation. Figure 1 illustrates the main feedback loop in image-based visual servoing with the Aibo. In the RoboCup robot soccer matches some visual servoing approaches [2, 3] have been implemented in the Aibo robot to track the ball. However, these approaches are limited to the movement of the head effectors in order to keep the ball into the video image. The space in which the ball can be followed is restricted by the robot body pose. The MEC partially supports this work through grant DPI C

250 Fig. 1. Visual servoing feedbak loop In this paper we address the problem of maintaining the playing ball in the center of the robot camera image. The only visual feature considered is the center of the ball region in the image identified by the color detection routines implemented in the robot. We have profited from the CMU s SDK [4] and the SONY s SDK [5]. The image error is the distance in image space between the image center and the centroid of the blob corresponding to the ball. The image features considered are very naive when compared with recent works in other domains (i.e.: [6, 7]), however they are the current state of the art in the Aibo environment. The control parameters are deduced applying the inverse of the linear approximation to the robot kinematic function given by the image Jacobian relative to the considered degrees of freedom. In this paper we detail the construction of the image Jacobian, starting from the geometric specifications of the Aibo robot. The blind application of the control parameter values given by the linear inverse kinematics may move the robot pose out of the configuration space, which we define as the set of standing stable positions. These positions are characterized by the relation between the support points and the robot s mass center. The support points are the points of contact of the robots limbs with the support surface. These points may correspond either to the leg ends or to the knees as illustrated in figure 2. We introduce the direct linear kinematics of the robot, then we compute the inverse kinematics and we end up with some discussion of the physical implementation, the observed robot behavior and future work lines. 2 Direct Aibo Kinematics We build the Aibo kinematics as a transformation from the ground supporting plane to the head coordinate system, composing the diverse transformations that correspond to the limbs and head degree of freedom. We start from the supporting points and go up to the head. As illustrated in figure 2 the robot s feet and the knees are the possible robot support points therefore we need to be able to determine their 3D coordinates at any time. 237

251 Fig. 2. Points of contact with the supporting surface 2.1 Legs degrees of freedom Each leg has three articulations, as shown in figure 4. The legs degrees of freedom are used indirectly towards the support points, so we introduce this concept. Support points The support points are the points of the robot limbs that determine the plane where it is standing on. These points must be determined in the coordinate system of the dog. From the point of view of the centre of the robot body the supporting plane apparently varies when the robot servos are affected when the physical reality is that the plane remains fixed and the robot changes its pose. We use the robot body center of mass because the Aibo possesses an inertial sensor than gives us feedback on the motion of this point. Each leg has a unique support point that can be the foot as well as the knee, and, according to the restriction that the robot must be standing, at least three of the legs must have their supporting points in contact with the ground; therefore there are 32 possible support planes if we take into account all feasible combinations support points that may give us a standing configuration of the robot. In order to determine which combination of supporting points coincides with the physical supporting surface we obtain the plane equation for every possible combination. For a given combination of support points we have the plane equation π : ax + by + cz + d = 0, then we evaluate to which hemisphace belong the points that have not been taken into account to build the plane equation; if for any one of them we find (x p, y p, z p ) T : ax p + by p + cz p + d < 0, it means that this support point is under the plane and therefore this plane is not the ground surface. Besides, in order for the robot to be standing in a stable pose, the projection of the body center of mass must lie inside of the triangle defined by the three supporting points in contact with the ground surface. This condition 238

252 Fig. 3. Condition for supporting points on the ground plane Fig. 4. Geometry of the leg articulations is illustrated in figure 3. Therefore, the search for the ground support points is guided by testing this condition on each triplet of leg supporting points. For those triplets that meet the condition, we fit the plane equation and test that the remaining supporting points remain above this plane. Feet and Knees positions In order to obtain the ground supporting plane, is necessary to determine which are the supporting point coordinates for each leg in the reference space centered on the robot body center of mass. It is necessary to determine the positions of the feet and knees in function of the articulation states, given by their torsion angles. We find the foot centre position, for the front left leg, using the following coordinate system transformations. T 1 : Translation along de z-axis of length l 1. R 1 : Clockwise rotation about y-axis by angle q 1. R 2 : Counterclockwise rotation about x-axis by angle q 2. R 1 : Clockwise rotation about y-axis by angle q 3. T 2 : Translation along de z-axis with length l 2. T l : Translation along de x-axis with length 1 2l, being l the robot length. 239

253 Fig. 5. Geometry of the head articulations T a : Translation along de y-axis with length 1 2a, being a the robot width. In hom*ogeneous coordinates the transformation from the body center to the foot coordinate system can be described as the product of transformation matrices: X p 0 0 Y p Z p 1 = (R 1.R 2.T 1.R 3.T 2 ). This equation is valid for the robot front left leg; however, due to the symmetry of leg coordinate systems, only a few signs must be changed to get the positions of the other three leg s feet. In order to find the coordinates of each knee in the body reference system we only have to do the three first and the two last transformations used to determine the foot coordinates: Head degrees of freedom The Aibo ERS-7 has three degrees of freedom in the head. That introduces ambiguity in the control trajectories needed to track the ball trajectory. Figure 5 shows the two tilt degrees of freedom of the Aibo, denoted θ big and θ small. The first head tilt degree of freedom corresponds to the neck base pivoting along part of the dog chest, while the second one allows the head to move vertically using as the rotation centre the joint between the neck and the head. The third degree of freedom, called θ pan, allows a perpendicular rotation to the previous one, moving the head from side to side. 2.3 Image features The stated goal is to bring the ball in the image centre, so the target features are the image centre coordinates and the observed features from the real world are the coordinates of the ball region centre and its diameter. But these features 240

254 Fig. 6. Reference systems involved in the visual servoing must be expressed in terms of the robot degrees of freedom, in order to use the Jacobian to determine the feature sensitivity respect to each articulation positions changes. Coordinate reference systems In order to obtain the ball position expressed in the S 0 system base it is necessary to obtain the transformation matrices between the different systems. These reference systems are illustrated in figure 6. Transformation between S 0 and S 1 In order to define the coordinates changes between the base system, S 0, and the body system, S 1, we define the S 0 vectors in the system S 1, and then do the translation between them. So, we separate the transformation in rotation and translation, although it exists an scale component. The entire transformation uses the supporting points positions: r i = (x i, y i, z i, 1) T, r j = (x j, y j, z j, 1) T, r k = (x k, y k, z k, 1) T.We use the position point r i as the origin of S 0, and the vectors r i r j and r i r k as the two first vectors, and we built the third vector as the vectorial product of the two first. So we built the rotational matrix, R, from the three vectors of S 0 0 R = r j r i r k r i r k r i, r j r i 0 0 (1) and we define the translational matrix from the origin of S 1 to the origin of S 0, 241

255 1 0 0 x i T = y i z i. (2) So, composing the two transformations we finally obtain the matrix change from S 0 to S 1, S 1 I S0 = T R. (3) Transformation between S 1 and S 2 The transformation between these systems can be done through the compositions of more elemental transformations. We will compose the transformations that go from the body system S 1, to the head system S 2. The first transformation is a translation from the camera base to the top of the neck, T 1. Next, we have to rotate the head, taking into account the nod and pan articulations, we call this rotational matrix R 1. Then, we have to use the tilt articulation defining the rotational matrix R 2. Finally, the translation T 2, between the neck base and the body center, take the system to the S 1 origin. The result of the matrix composition is the transformation between the systems S 1 and S 2 S 2 I S2 = T 2 R 2 R 1 T 1. (4) Observed image features The camera reference system is fixed to the robot head, and define the ball position according to the vision camera of the robot. The observed image features, c = (u, v) T, are determined by the ball position in the camera system, according to the following relation ( u = f(b v) 2 ) = λ ( ) yb2. (5) x b2 z b2 The features are expressed in terms of the ball position in the system S 2, but as we had supposed the ball was fixed respect to S 0, we could obtain the features expressed in function of the head robot articulations and the support points positions, using the ball position in S 0 and the transformation between S 0 and S 2. ( ) u = f( v S2 I S0.b 0 ) (6) 2.4 Feature Jacobian matrix Now we will construct the Jacobian matrix that relates the variations of the diverse degrees of freedom of the robot with the variations in the image plane. 242

256 Dependence on the features Deriving the equation 5 we get the following relation: ( ) ( λ.yp ) δx b2 λ δu x = 2 p x p 0 0 λ.z δy b2 δv p x 0 λ 2 p x p 0 δz b2 (7) 0 We call J cb the Jacobian matrix of the equation 7. Then J cb defines a linear transformation from variations of the positions of the ball in S 2 into variations of the image features. c J cb b (8) Dependence on the target object We saw that the ball position in the camera system could be expressed as a function of the support points and the head robot articulations, equation 6. By deriving this equation we get the Jacobian matrix that relates the variations in the image ball position with the variations in the support points positions and in the head articulations Using the chain rule, we rewrite the equation 9: J br = [ δ( S 2 I S1 ) δr J br = δ( S 2 I S1 S1 I S0 ) b 0 (9) δr ( S1 I S0 ) + ( S2 I S1 ) δ( S 1 I S0 ) ]b 0 (10) δr As S2 I S1 is a function of r head (head articulations) and S1 I S0 is a function with parameter r legs (support points positions), we rewrite 10: J br = [ δ( S 2 I S1 ) δr head ( S1 I S0 ) + ( S2 I S1 ) δ( S 1 I S0 ) δr legs ]b 0 (11) The dependence between the variations in the ball position and the variations in the head degree of freedoms and in the legs positions can be summarized by: b J br r (12) Dependence on the support points The next step is obtaining a linear transformation between the variations of the legs degrees of freedom and the ground support points coordinates in the body reference system. First we observe that according to which part of the leg is in contact with the ground there are two possible jacobean matrices, one for the foot (J pi ) an another for the knee (J ri ). We model the changes in the foot and the knees 243

257 coordinates according to the degrees of freedom variations, using the Jacobians as follows: p i Jp i J i (13) r i Jr i J i (14) Being J 3i, J 1i and J 2i the value of the variations of the degrees of freedom in leg i. Composing with the support points Jacobian at every moment, we obtain the following jacobian matrix: P 1 P 2 P 3 = P 4 M M M M 4 J 1 J 2 J 3 (15) J 4 The jacobian matrix receives the name J pθ,where M i is: Jp i, if the support point for the leg i is the foot. Jr i, if the support point for the leg i is the knee. Zero (the matrix with all the elements equal 0) if this leg has not a lean point on the plane. The dependence of the support ground points on the limb s degrees of freedom is summarized as follows: P J pθ. J (16) Dependence on the robot articulations The following matrix relates the variations in the generic support points, δr, with the variations in the true legs support points and the free leg support point, δp. We call δr h and δp h the head articulation variations in order to define r and p. δp h Id δp 1 δp 2 δp 3 = 0 M 1i M 1j M 1k δr h 0 M 2i M 2j M 2k δr i 0 M 3i M 3j M 3k δr j (17) δr δp 4 0 M 4i M 4j M k 4k We call J pr R the Jacobian matrix of equation 17, and we define this matrix as a composition of matrixes of size 3 3. The first row starts with the identity and the rest of matrixes are null. So, δr h and δp h are equals. To the rest of matrixes: M xy = Id, if the leg x has the support point y, M xy = 0, if the leg x has a support point different from y, M xy = α xy, if the leg x has not a generic support point. 244

258 So, if the leg x has a generic support point, then the row x has a identity matrix and three null matrix; while for the free leg we get the following row ( 0 αi α j α k ) (18) This coefficient matrixes define the relation between the free leg variations and the variations in the rest of legs. This coefficients can be used to generate stability and advance behaviors. If the first element of the row is not 0, then we can make the free leg position depend on the head articulations variations. The dependence between the variations in the legs articulations with the supporting points positions and the head articulations variations can be resumed in the following equation p J pr r (19) Defining the Jacobian matrix J rθ, as the product J + pr J pθ, we get the following dependence relation between the variations of support points positions and robot articulations, r J rθ θ (20) Full Jacobian matrix Finally, to obtain the full Jacobian matrix that models the dependence of the image features on the diverse degrees of freedom of the robot we must compose the previous transformations 8, 12, 19 and 16. We call this matrix J cθ. c = [(J cb J br ) J rθ ]. θ (21) 3 Inverse Kinematics The goal of the stated visual servoing problem is to determine the instantaneous of each of the robot degrees of freedom that will be needed to bring the ball centre to the image centre. In order to determine the velocity at each robot degree of freedom we should obtain the inverse of the J cθ matrix in equation 21. However, this is not possible because the matrix is not invertible. As we have more degrees of freedom than image features, the problem is overconstrained, because there are not sufficient features to determine the movements in an only way. The general solution is to use the seudoinverse of J + cθ, by minimum squares. θ = J + cθċ + (I J + cθ J cθ)n (22) Being b an arbitrary vector of R 15. In general, (I J + xj J xj)n 0, and all the vectors of the form (I J + xj J xj)n belong to the kernel of the transformation associated to J cθ. This solution minimizes the norm ẋ (J cθ ) θ (23) 245

259 As our objective is to center the ball in the image, we will not get into more details about the movements which minimize de error, so our solution will be θ = J + cθċ (24) But this solution does not take into account the restriction of keeping the distances constant. So, we need to determine how these variations in the supporting points positions affect the distances between them. l 1 r i r j l = l 2 = r j r k (25) l 3 r k r i Differencing l we get the Jacobian matrix that relates these changes. J lr = 0 δl1 δr i δl 1 δr j δl 1 δr k 0 δl2 δr i δl 2 δr j δl 2 δr k 0 δl3 δr i δl 3 δr j δl 3 δr k (26) This Jacobian matrix receives the name J lr. Finally this dependence is resumed in the following equation: l J lr r (27) Now we use the Jacobian matrix J rc with J lr and J rθ to get the variations on the robot articulations that make the image features converge to the desired features, keeping constants the distances between the supporting points. To mantain the distances constants, the vector r must belong to the kernel of the transformation associated to J lr. The following equation ensures that r belongs to the kernel of J lr. r = [(I J + lr J lr){(i J + lr J lr)j + rc} + ] c (28) As our final objective is to get the articulations variations we add the seudoinverse of J rθ, also we add a velocity constant to control the advance velocity of the robot θ = J + rθ (I J + lr J lr){(i J + lr J lr)j + rc} + {k i c}. (29) This equation allows us to determine the variations on the robot degrees of freedom to get the desired configuration of the image. However, this equation is unrestricted and may drive the robot into unstable configurations, that is, to articulation configurations out of the region of stable poses in configuration space. Stable poses are characterized by the existence of a triplet of ground support points which fulfill the condition illustrated in figure 3. When this does not happen, or the projection point is too close to the triangle boundary, we restrict the visual servoing to the head degrees of freedom, using the transformation S 0 (I)S 2 instead of S 1 (I)S 2, to construct a 246

260 reduced Jacobian M h that relates the image features to the head degrees of freedom. Its seudoinverse gives the control for the head degrees of freedom. This reduced approach has already been applied in [2, 3] : ( ) dθ = M + h.dr (30) 4 Conclusion We have developed the visual servoing for the whole set of degrees of freedom of the Aibo 7 following a principled approach. From the geometrical description of the robot we have constructed the full Jacobian matrix that linearizes the functional dependence of the image plane viewed by the robot camera on the robot degrees of freedom. The seudoinverse of this Jacobian matrix provide the desired controls. The blind application of this control strategy may lead the robot to unstable or unfeasible configurations for a standing pose. Therefore, we test the stability of the robot configuration. When it is compromised we restrict the visual servoing to the head. The implementation shows that the approach gives real time response when the seudoinverse is computed in the onboard processor of the robot. We are actually performing the real time experiments and collecting performance information. References 1. Hutchinson, S. Hager, G. D. Corke, P. I. A tutorial on visual servo control IEEE Transactions on Robotics and Automation, 12 (5): M. Quinlan, C. Murch, T. Moore, R. Middleton, L. Li, R King, and S. Chalup, The 2004 NUbots Team Report, 2004, 3. Th. Röfer, H.-D. Burkhard, U. Düffert, J. Hoffmann, D. Göhring, M. Jüngel, M. Lötzsch, O. v. Stryk, R. Brunn, M. Kallnik, M. Kunz, S. Petters, M. Risler, M. Stelzer, I. Dahm, M. Wachter, K. Engel, A. Osterhues, C. Schumann, and J. Ziegler. GermanTeam RoboCup Technical report, 2003, Sony Corporation, OPEN-R SDK Model Information for ERS-7, Pomares, J. Torres, F. Movement-flow-based visual servoing and force control fusion for Manipulation Tasks in unstructured environments IEEE trans. Systems, Man and Cybernetics, Part C 35(1): Garcia-Aracil, N. Malis, E. Aracil-Santonja, R. Perez-Vidal, C. Continuous visual servoing despite the changes of visibility in image features IEEE Trans. Robotics 21(6):

261 3D Camera for Mobile Robot SLAM Ivan Villaverde Grupo Inteligencia Computacional Dept. Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco / Euskal Herriko Universitatea ivan.villaverde@ehu.es Abstract. The recent development of innovative 3D cameras has opened a new field of research in mobile robotics. The nature of those cameras, an hybrid of a video camera and a time-of-flight rage sensor, enables new mixed techniques between traditional machine vision and range sensor data processing algorithms. 1 Introduction 3D cameras have been subject of development for quite a while. The capability of capturing depth information from the environment in every spatial dimension is an extremely powerful tool in numerous applications. However, until recently the size and price of those cameras has restricted their use to large budget 3D modeling applications. Today, a bunch of companies offer different 3D camera models of affordable price and size, based on different technologies, from the LIDAR used by Advanced Scientific Concepts [1], red-green-blue lasers by Arius 3D [2] to infrared light time-of-flight used by Canesta [3] and Swiss Ranger [4]. Nevertheless, most of those cameras are still big in size and only capable of acquire still images, not being suitable for its use for the subject of this paper, i.e., mobile robotics. First attempts of 3D object modeling based on multiple range images were done quite early [5], usually based on the processing of clouds of range points with the Iterative Closest Point (ICP) algorithm [7]. Until now, most 3D mapping/environment reconstruction has been tried with combinations of laser range finders, mounted on PTZ units or in horizontal and vertical mount combinations [6]. Those systems achieve good results using 2D localization algorithms but the heavy weight of various laser systems mounted on the same robot is still an issue. There have been also attempts of use time-of-flight 3D cameras in combination with other sensors in order to build a full, colored 3D reconstruction of the environment [8, 9], but in general, is still a widely unexplored area of research. On this paper, we will focus on the Swiss Ranger SR-3000 range imaging camera and the possibilities that it gives to the development of SLAM techniques for mobile robots. 248

262 2 2 Swiss Ranger SR-3000 The Swiss Ranger SR-3000 (Fig. 1) [10] is a compact time-of-flight range camera. Its size and its capability of fast operation, being able to take 30 fps, make it suitable for its use over almost any mobile robotic platform. It works based on phase-measuring time-of-flight principle [11]. A near-infrared controlled light source is used to light up the scene. The light is reflected on the objects in the scene and captured by the optical lens of the camera. Emitted light is intensity modulated, so, knowing the amplitude of the wavelength used, we can determine the distance by the delay in the phase measured in the moment of capture (Fig. 2), within a range of non-ambiguity caused by the cyclic nature of the wave and determined by the frequency of emission. This phase delay is calculated in each of the pixels of the camera sensor. If we know the characteristics of the optics, the calculated distance for each pixel can be directly translated in spherical coordinates, since each pixel receives light only from a specific azimuth and zenith angles, being the origin in the camera sensor. Fig. 1. Swiss Ranger SR-3000 range camera The built-in light source of the SR-3000 consists in an array of 55 LEDs of infrared light, with a wavelength of 850 nm. The frequency of emission is typically of 20 Mhz, which gives a non-ambiguity range of 7,5 m [10] for that wavelength and provides a typical depth resolution of 1% of the distance measured. The image sensor has a resolution of 176x144 pixels and scans at 80 Mhz, providing 249

263 3 Fig. 2. Phase delay. range images up to a frame rate of 30 fps. The optics has a field of view of 47.5 x 39.6, quite similar to other mounted video cameras. The sensor, optics and LED array are packed inside a compact, lightweight aluminium case of 50x67x42 mm. This, along its power supply being 12 V, standard value for most computer devices, and its power consumption 12 W, makes it perfectly suited for its use as mounted range device for mobile platforms. Communication with SR-3000 is done via USB port. It supports change of some processing and capture parameters, like exposition time. The output of the camera is a range image (computed from the distance measured for each pixel) and an intensity image (computed from the quantity of reflected light each pixel has received). The range image can be directly translated to Cartesian coordinates, and the intensity image can be a measurement of the reliability of the distance measured in that pixel. 3 Potential applications 3.1 Pseudo-3D reconstruction Nowadays, probably the most extended and used sensor on mobile robotics is the laser range finder. There are a lot of successful research works reporting excellent results in navigation, mapping and SLAM for mobile robots in very structured environments. Laser maps provide a good representation of the typical indoor environment, in which vertical walls enclose a flat horizontal surface. However, laser mapping presents some problems that arise from its main characteristic: it only covers one narrow horizontal line at a specific height. This leaves the mobile robot literally blind against obstacles or environment features that are above or below that line-of-sight. Those possible threats can be very frequent even in most structured environments, and range from small obstacles 250

264 4 in the floor to tables or chairs lower than the eight of the mobile robot. The robot will also be unable to detect variations in the eight of the floor, like ramps or stairs, being in risk of suffer damages or being unable to reach areas of the environment that are perfectly reachable. Since the bidimensional world representation seems to be a quite good model for structured environments, for most of the tasks the advantages obtained from a full full 3D reconstruction of the environment doesn t seem to pay for the computational cost of building it. Instead, we can profit from the range data obtained from the 3D camera to extend the bidimensional world model to a pseudo-3d model. For a robot moving through an environment, only a fraction of the information contained in a full 3D model is of real value: e.g. that robot doesn t need to know that the wall in front of it goes from the floor to two meters high, the only thing that is really valuable for it is that there is something at an height between the floor and its own height. In fact, every information above his own height is irrelevant for its operation, since whatever is there is not going to interfere with it. Taking this into account, in a pseudo-3d model each point in the bidimensional map can be, instead of the occupied/free dual values, a numerical value representing de maximum height (below the robot s height) of that point. In this way we can use only the information that is of real value to the robot moving through the environment. The resulting representation would be, instead a full 3D model, a surface (Fig. 3) corresponding to the height at each point in the environment plant. In that surface, besides the obstacles that could be readily detected and mapped by a laser rangefinder, ramps would be represented by slopes and tables below robot s height like solid block obstacles. Also, note that the lack of information of height in one point is also informative: if it s not occluded by a vertical surface, it says that there is a step down, that is the cause for the lack of reading at that point. 3.2 Navigation techniques In a first approach, most of the navigation techniques used for robot navigation with laser range devices can be used with few or none changes. However, the additional information that the pseudo-3d model provides makes possible other approaches to the navigation, path planning and obstacle avoiding tasks. Here we are going to propose some quite simple possible techniques. Distance image information: The simplest approach to navigation using range sensors is just to use the distance information to choose the direction to follow. Closer readings meaning nearer obstacles, and farther readings meaning free space, the simplest choice will be just avoid the direction of closer readings following the direction of the farthest reading. The distance image provided by the SR-3000 allows a robust realization of this simple algorithm, since it provides also information about possible obstacles in the selected direction below the lineof-view of a typical range sensor. 251

265 5 Fig. 3. Simulated surface representation of the pseudo-3d map of a corridor with a door and a slope Gradient following: In the pseudo-3d surface representation, transitions between obstacles and free areas will be determined by slopes. One simple approach would be just to follow the path in the surface with the lesser gradient. Normally, the junction between vertical and horizontal surfaces, which will characterize most of the obstacles, will have an extremely high gradient, whereas free space will have a flat horizontal surface with very low gradient. The typical example is a robot running along a corridor, in which at its sides (to the walls) there will be a high gradient, and at its front (to the middle of the corridor) there will be a clear path with low gradient. Loosing the lesser gradient restrictions in combination with path planning, it will also allow the robot to use and navigate through ramps, being the only restriction the physical climb limitation of the robot. 3.3 Conclusions and future work New small and cheap 3D range cameras open a new wide area of research on mobile robotics. The typical application of those cameras would be the build of full 3D models of the environment of the robot. Instead, we propose to do a more simple approach, extending and improving well known and tested paradigms used for older range finder sensors. We think that the 3D information obtained from the range images can greatly improve the results of those methods, without the high costs of building highly complex full 3D models. Immediate further work would be to make some prototype implementations of the methods proposed in this paper and test their efficiency. Also, an on- 252

266 6 line self-localization algorithm with the pseudo-3d model should be developed in order to achieve full SLAM capabilities. Probably also an extension of other localization algorithms developed for laser range finders would be suitable for this task. References Y. Chen, G. Medioni, Object modelling by registration of multiple range images, IEEE Conf. on Robotics and Automation, Sebastian Thrun. Robotic Mapping: A Survey. Technical Report CMU-CS , School of Computer Science, Carnegie Mellon University, Besl, P. J. and McKay, N. D. A Method for Registration of 3-D Shapes. IEEE Transac-tions on Pattern Analysis and Machine Intelligence, Vol. 14, No. 2, Feb Waleed Kadous, Sarath Kodagoda, Jonathan Paxman, Malcolm Ryan, Claude Sammut, Raymond Sheh, Jaime Valls Miro, and John Zaitseff. RoboCupRescue - Robot League Team CASualty (Australia). Lecture Notes in Computer Science, Lecture Notes in Artificial Intelligence: RoboCup 2005, Raymond Sheh, M. Waleed Kadous, Claude Sammut. On building 3D maps using a Range camera: Applications to Rescue Robotics. Technical Report UNSW-CSE- TR-0609, UNSW, Sydney, Australia, T. Oggier, M. Lehmann, R. Kaufmannn, M. Schweizer, M. Richter, P. Metzler, G. Lang, F. Lustenberger, N. Blanc, An all-solid-state optical range camera for 3Dreal-time imaging with sub-centimeter depth-resolution (SwissRanger), Proc. SPIE Vol. 5249, pp , R. Lange and P. Seitz, Solid-State Time-of-Flight Range Camera, IEEE J. Quantum Electronics, Vol. 37 (3), , March

267 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 1 Integración de controladores de redes neuronales en manipuladores robóticos industriales Josu Larranaga* Fatronik Donostia Paseo Mikeletegi 7, Spain jlarranaga@fatronik.com Josu Larrañaga Departamento de Control y Tecnologías de la Información, Fatronik, Donostia Paseo Mikeletegi 7, Spain jlarranaga@fatronik.com.com En este artículo, el autor describe controladores de redes neuronales para la plataforma de Stewart en las aplicaciones de transformada cinemática directa, modelo dinámico y modelo de control inverso. El objetivo es resaltar los puntos fuertes y débiles para su utilización en una aplicación industrial. Los controladores libres de modelo con capacidad de aprendizaje en-línea ofrecen buenas perspectivas de aplicación; sin embargo, su implementación industrial es muy escasa. Este artículo describe las características necesarias para su implementación industrial así como el tipo de aplicaciones a las que pueden ir dirigidas. Keywords: Neural Networks; Parallel Kinematics; Control; System Identification 1. INTRODUCCIÓN Las imprecisiones tanto cinemáticas y dinámicos de los manipuladores robóticos depende de factores como la fricción, la inercia y la carga de trabajo. Estos factores no se conocen con precisión en el diseño y fabricación del manipulador y obligan a realizar una puesta en marcha compleja y costosa. Una vez que el manipulador esta en producción el uso, el asentamiento y el desgaste provocan la variación del comportamiento por lo que se requiere un proceso de calibración de la cinemática y disponer de un mecanismo de adaptación para el controlador. Un controlador basado en redes neuronales proporciona una fácil calibración, un controlador que se adapta al entorno y que tiene capacidad de aprendizaje. Este artículo quiere estudiar las aportaciones y debilidades de los con- 254

268 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 2 troladores neuronales en manipuladores robóticos orientados a procesos industriales. Existen algunos trabajos que demuestran teóricamente que la implementación de controladores neuronales es posible, pero su demostración práctica se reduce a robots muy sencillos, 1 como prismáticos con dos eslabones. El artículo utiliza la plataforma de Stewart, un manipulador de cinemática paralela para describir las capacidades y debilidades de las redes neuronales en la funcionalidad requerida en un controlador robótico. La transformada cinemática directa, el modelo dinámico y el controlador se pueden implementar con redes neuronales y se comparan con su implementación tradicional. En la primera sección introduciremos la plataforma de Stewart junto con el fundamento teórico de cada una de las funcionalidades implementadas. En la segunda sección describiremos las características de las redes neuronales implementadas para mostrar los resultados en el tercer apartado y finalmente las conclusiones en el cuarto apartado. 2. Controladores neuronales en la Plataforma de Stewart La plataforma de Steward 2 se propuso en 1965 para construir un simulador de vuelo. Desde entonces ha tenido muchas otras aplicaciones como maquinas herramientas, plataformas de montaje, plataforma de antenas, etc. Los 6 brazos de la figura 1 son articulación; y pueden coger distintos valores, como las juntas son libres la plataforma superior adopta distintas posiciones y orientaciones Transformada cinemática directa Unas de las aplicaciones de las redes neuronales es la modelización de una cinemática directa. En robots de cinemática paralela la resolución de la cinemática directa es un problema complejo. Nos referimos al problema de la cinemática directa de un robot como la relación la posición Cartesiana y la orientación del efector conocidos los desplazamientos de las articulaciones. Conocidos los elementos mecánicos entre el efector y las articulaciones esta relaciona se puede escribir de forma algebraica. No obstante su resolución se realiza por métodos numéricos; la solución resulta ser una función no-lineal muy acoplada entre las variables. Dada una posición y orientación del efector X = (x, y, z, α, β, γ) y los desplazamientos articulares L = (l 1,..., l n ) el problema de la cinemática directa trata de encontrar la función 255

269 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 3 Figura 1. Plataforma de Stewart x = f(l) (1) Extendiendo el problema de la transformada directa 1, considerando los parámetros p 1,..., p n que representan las características de los mecanismos que se formula de la siguiente manera x = f(l, p 1..., p n ) (2) La posiciones de las juntas de la plataforma de Stewart forman los parámetros Sobre la plataforma de Stewart, en la figura 2 vemos representado los parámetros mecánicos. Por construcción se conocen los valores nominales de los parámetros pero después de su montaje se liberan tensiones en algunos materiales y se introducen tensiones en otras elementos con lo que las cotas nominales no se corresponde a las reales, por lo que se requiere determinar de manera experimental los valores reales. En un robot de cinemática paralela el número de parámetros es considerablemente más grande que las variable dependientes e independientes; concretamente, en la plataforma de Stewart, en en una primera aproximación se pueden considerar las 3 coordenadas de los 12 extremos de los brazos con lo que llegamos a 36 parámetros frente a solo 6 variables que relacionan entradas con salidas. La determinación de estos parámetros se puede hacer 256

270 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 4 Figura 2. Plataforma de Stewart experimentalmente, pero la complejidad de la mecánica y su cantidad requiere de muchas horas de medición, de modo que se tiende a hacer medidas experimentales de L = (l 1,..., l 6 ) y X = (x, y, z, α, β, γ) para determinar los parámetros P = (p 1,..., p n ) mediante métodos de ajuste de parámetros de hiper-superficies. La función de la hiper-superficie a ajustar 2 es no lineal y muy intrincada por lo que se necesitan muchos valores experimentales de L y X. Muchas veces el problema de ajuste esta mal condicionada ya que los parámetros guardan una relación entre ellos, el valor de un parámetro corresponde al valor del resto de los parámetros. De modo que un subespacio de parámetros tiene el mismo el error cuadrático medio y condiciona el valor de otros parámetros. Para la resolución de este problema de calibración las redes neuronales ofrecen una característica interesante: las redes neuronales pueden identificar la relación de unas entradas L con unas salidas X sin conocer la estructura de la función 2 y por tanto no necesitan determinar los parámetros P. Otra característica interesante es la capacidad de adaptación sobre una red ya entrenada de forma que una recalibración debida al desgaste de la máquina se puede hacer con menos medidas que las iniciales. 3. Identificación del Modelo dinámico Los modelos analíticos de sistemas mecánicos complejos des-estiman algunas contribuciones importantes por lo que se prefiere trabajar con el sistema real. La identificación del modelo dinámico permite utilizar la red neuronal en la fase de diseño del controlador. En una fase posterior existe 257

271 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 5 la alternativa de incorporar o no el modelo identificado al controlador. En una fase final se puede aprovechar la capacidad de aprendizaje de la red neuronal para disponer de un sistema adaptivo. Un modelo dinámico representa la dependencia temporal de las entradas u(t) R m con las salidas y(t) R n. El estado del sistema se representa un estado x en espacio de estados. La evolución de un sistema se describe por las siguientes ecuaciones de estado: ẋ(t) = f [x(t), u(t)] y(k) = h [x(t))] En este artículo utilizaremos una descripción de la evolución temporal de forma discreta en el tiempo con lo que las ecuaciones 3 se puede describir en forma discreta con las siguientes ecuaciones: (3) x(k + 1) = f [x(k), u(k)] y(k) = h [x(k))] (4) La identificación del modelo corresponde a determinar las funciones f y h de forma que las variables estimadas ˆx(k) y ŷ(k) se acercan a las variable reales x(k) y y(k). Representado por medio de redes neuronales N las ecuaciones son las siguientes: ˆx(k + 1) = N f [ˆx(k), u(k)] ŷ(k) = N h [ˆx(k))] Se observa que estas ecuaciones 5 son recurrentes. La retro-alimentación de las ecuaciones viene determinado por un valor estimado por lo que el sistema puede resultar inestable. De hecho estas ecuaciones representan una red neuronal recurrente. El entrenamiento de esta red neuronal recurrente se puede realizar por retro-propagación dinámica. De forma que se plantea un problema ya que la determinación del gradiente del índice de actuación con respecto a los pesos puede resultar inestable. Para solucionar este problema, desde el punto de vista práctico se pueden alterar las ecuaciones 5 para utilizar estados medidos en lugar de estimados. De forma que se utilizan las siguientes ecuaciones: ˆx(k + 1) = N f [x(k), u(k)] ŷ(k) = N h [x(k))] Con la variación de ecuaciones la estrategia de aprendizaje de las ecuaciones 6 puede ser la retro-propagación; de este modo obtenemos un aprendizaje estable. Aun en estas condiciones el aprendizaje es complejo de forma (5) (6) 258

272 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 6 que se hace una simplificación sugeridas por el modelo lineal ARMA: la salida y(k + 1) depende de una combinación lineal de n salidas y entradas anteriores. Las ecuación obtenida es por tanto ŷ(k+1) = N h [y(k), y(k 1),..., y(k n + 1), u(k), u(k 1),..., u(k n + 1))] (7) Este procedimiento de identificación se ha aplicado con éxito para sistemas robóticos de pocos grados de libertad [1, Rovithakis], pero no se ha encontrado ninguna aplicación a la plataforma de Stewart 3.1. Modelo inverso de control La implementación en tiempo real de un controlador para la plataforma de Stewart a partir de un modelo es computacional-mente costosa y no siempre exitosa. La dificultad radica en que algunas leyes de control no lineal, como la retro-alimentación de linearización requieren el conocimiento exacto del modelo exacto. Las redes neuronales, sin embargo, pueden aprender la actuación requerida a partir de medidas experimentales. Además, se aprovecha de la robustez frente a incertidumbres en el modelo que ofrecen las redes neuronales. El modelo inverso de una planta determina la acción de control u en función del estado actual y la el comportamiento deseado de la salida. En referencia a la ecuación más general de un sistema dinámico 3 el modelo inverso es determinar u = g(x) (8) de forma que y(k) se aproxima a una referencia r(k), esto es y(k) r(k) ɛ en el infinito, un problema de regulación, o en toda la trayectoria, problema de tracking. En estas condiciones el sistema dinámico se puede expresar de la siguiente forma: x(k + 1) = f [x(k), N g (x(k))] (9) De nuevo se trata de una red neuronal recurrente pero en este caso la experiencia demuestra que el entrenamiento por retro-propagación dinámica es más efectiva que la transformación de la red neuronal para realizar un aprendizaje por retro-propagación clásica. El aprendizaje del modelo inverso 9 puede realizarse de manera generalizada, de modo que la red neuronal trata de aproximar hatu, a una ley de control conocida u, minimizando la función 259

273 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 7 k=n J = (u(k) û(k)) 2 (10) k=1 En este caso el aprendizaje se desliga del equipamiento industrial. El aprendizaje especializado trata de producir hatu, de forma que una estimación ŷ como una salida objetivo se corresponda con la salida deseado y. Se trata de minimizar el funcional k=n J = (y(k) ŷ(k)) 2 (11) k=1 En este caso el aprendizaje se realiza ligado al sistema experimental. 4. Selección de arquitecturas de red neuronales 4.1. Transformada cinemática directa Entre las distintas formas de resolución de esta ecuación las redes neuronales demuestran unas propiedades interesantes: son independientes de la estructuras por lo que se muestran robustos a cambios en el entorno. Se han utilizado distintas topologías de redes como las feedforward, entrenadas por retro-propagación, 3 ; 4 redes de base radial 5 o redes neuronales de tipo holográfico. 6 En general el esfuerzo realizado en el aprendizaje de la red neuronal, el tiempo de cálculo en tiempo real y la resolución obtenida no favorece la utilización de métodos basados en redes neuronales. Según 5 el desarrollo de series de Taylor resulta más favorable. La aplicación de la transformada directa en la realidad resulta más compleja si se considera la necesidad de realizar la calibración; toda la precisión y rapidez obtenidas por el desarrollo en serie de Taylor requiere otro paso adicional la estimación de los parámetros. No obstante, las redes neuronales estiman el modelo directamente con lo que se puede obtener resultados apreciables, 1 mm, 3 en 1000 muestras. En este artículo queremos verificar el resultado que se puede obtener con 1000 muestras repartidas en todo el área de trabajo sin un mecanismo de regularización de entrada o poda, de forma en que se puede replicar su aplicación industrial en un proceso automatizado que no se base en la experiencia de un experto. 260

274 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart Modelo dinámico El modelo dinámico de la plataforma se refiere a la relación entre los pares aplicados en los actuadores f respecto a la aceleración, la velocidad y la posición. En formulación de Lagrange se llega a una ecuación matricial compacta en coordenadas generalizadas q, que corresponden a las longitudes articulares, Donde M(q) es la matriz de inercia, la fuerza de Coriolis generalizada es C(q, q). M(q) q + C(q, q) q + G(g) = J T f (12) El modelo dinámico de la plataforma de Stewart es resoluble por métodos simbólicos 7 y por métodos numéricos. No obstante, la modelización numérica necesita laboriosos procesos de modelización de todos los componentes, así como una calibración más de los componentes mecánicos tanto dimensional como de tensiones y deformaciones de los materiales Modelo inverso de control El controlador de modelo inverso se puede tener distintas configuraciones como como el modelo inverso de control directo, el modelo de feedforward, el modelo interno o los modelos predictivos. En la figura 3 se muestra el modelo inverso colocado de forma directa. En este caso el aprendizaje debe ser generalizado, a partir de un modelo previo, se diseña un regresor capaz de identificar su ley de control. Figura 3. determinación directa 261

275 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 9 Para realizar un aprendizaje de modelo inverso especializado se requiere una arquitectura más compleja. Para poder seguir un modelo de referencia se necesita utilizar el modelo dinámico de la planta para la inicialización. Figura 4. determinación especializada 5. Resultados 5.1. transformada directa de la plataforma de Stewart En nuestro caso hemos realizado una prueba con una red neuronal de base radial. De acuerdo con [5, sadjadian et al.] 1000 muestras son adecuadas para realizar el aprendizaje. En un escenario de calibración de máquina, la precisión esperada se puede obtener a partir de un sistema de visión de una sola cámara, con lo que se pueden automatizar la muestra de puntos. Obtener más precisión es más costoso por un lado se requiere un sistema de automatización de las medida más preciso, además se requiere un número de muestras mucho mayor. Se han obtenido 2000 puntos, la primera mitad se ha utilizado en el aprendizaje de los pesos y la segunda mitad en validación de los resultados obtenidos. De las pruebas de ajuste de parámetros se ha observado que la convergencia es alta con una divergencia mayor que 10. De forma que se ha obtenido una media de error cuadrático (mse) tendiendo a cero sobre los datos del entrenamiento y de 0.4 mm sobre la muestra de validación. Se han utilizado 1000 bases. En la figura 5 se observan los resultados Se aprecia un buen ajuste, no obstante hay puntos de un error muy 262

276 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 10 Figura 5. Gráficas de validación grande, por ejemplo en el eje z de hasta 8 mm. Este punto corresponde a las cercanía de una singularidad donde el comportamiento de la transformación cinemática es brusca. Utilizando más bases se puede eliminar este problema, pero se requiere utilizar más puntos experimentales, los puntos suficientes para realizar una buena calibración, con lo que se evitan problemas de ajustes locales de las redes neuronales Modelo dinámico de la plataforma de Stewart Se ha realizado un modelo dinámico considerando solamente la plataforma superior. Para ello se ha modelizado un cuerpo rígido con 6 articulaciones. El modelo es in-estable por lo que se ha utilizado una entrada obtenida de un regulador PID independiente de cada brazo, de esta forma la señal de salida permanece acotado en un rango pequeño con lo que se facilita el aprendizaje. La red neuronal recurrente 7 se ha aplicado para identificación del modelo dinámico la plataforma de Stewart para distintos ordenes de regresión. Considerado todo el modelo de 6 accionamiento y un cuerpo móvil las redes neuronales de base radial aplicados a un esquema recurrente han conseguido estabilizar el aprendizaje, no obstante, no se han conseguido buenos resultados en la validación. La red radial validada con puntos correspondientes a un movimiento similar se observan discrepancias grandes. En este caso la red radial a interpolado muestras pero no ha conseguido extrapolar un relación dinámica distinta. El aprendizaje del modelo dinámico en el que múltiples entradas se apli- 263

277 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 11 can sobre la misma plataforma superior es complicado. La dificultad radica en determinar la contribución de cada cadena cinemática al movimiento de la plataforma. El aprendizaje es posible cuando sólo una cadena cinemática contribuye al movimiento y el resto de brazos aplican para mantener su posición fija. Para calcular la fuerza a aplicar en cada brazo para mantener su posición podemos utilizar un regulador PID. La respuesta del regulador PID es muy rápida y las variaciones de posición del resto de brazos es del orden de un 1mm. Se han utilizado distintas topologías de red recurrente (ARX, Elman), con distintas estructuras de regresores. Se ha obtenido un aprendizaje y una validación de error cuadrático medio de 0.05 (sobre una salida 1) con redes auto regresivas. La estructura de regresor utilizada es un modelo autoregresivo de orden 2 en la salida y orden 4 en la entrada. La red utiliza una capa oculta de 15 neuronas, con funciones de transferencia de tangente sigmoide y lineal. Sobre la figura vemos la comparación con una topología de Elman. Figura 6. Gráficas de validación El aprendizaje se estabiliza siempre y el error es pequeño con distintas configuraciones de regresión, topología de red, numero de neuronas, funciones de transferencia. No obstante la extensión a un modelo de múltiple entrada no es exitosa y la solución tradicional es preferible a la solución neuronal. 264

278 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart Modelo inverso de control Se considera el modelo de plataforma de Stewart con un sólo brazo activo y 5 brazos reactivos, el mismo del que se ha identificado el modelo dinámico. Se ha utilizado un procedimiento de modelo inverso especializado en la arquitectura descrita en la figura 4. Previamente se ha determinado el modelo inverso generalizado, para lo que se ha realizado el aprendizaje de la ley de control del regulador PID. La topología de red utilizada ha sido una red recurrente auto-regresiva con entrada exogena. Sobre la figura siguiente 7 observamos que la predicción con un ciclo de antelación sigue a la señal de control. Sobre la figura inferior se observa que el error tiende a cero. Figura 7. Ajuste Aprendizaje generalizado El modelo especializado hace uso de la dinámica de la planta que se ha 265

279 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart 13 determinado en el apartado anterior. El modelo dinámico puede utilizarse como predicitor del comportamiento de la planta y anular los errores de seguimiento frente a cambios bruscos que se observan en la figura 7. Realizar el ajuste especializado con una Platforma de Stewart real requiere realizar el aprendizaje en cada vez que se cierra el lazo de control. En este artículo se ha sustituido la planta real por una planta simulada en Matlab-Simulink de forma que el aprendizaje se puede realizar fuera de línea. La topología de red es auto-regresiva con entrada exógena. El objetivo de la red es generar una ley de control que minimice el error entre la salida del modelo Simulink y el modelo dinámico ajustado por una red neuronal. Se trata de un entrenamiento dinámico. Sobre la figura 8 se observa un seguimiento de la trayectoria bastante ajustado en las transiciones bruscas. Figura 8. Ajuste Aprendizaje especializado 266

280 16 de octubre de 15:53 WSPC - Proceedings Trim Size: 9in x 6in stewart CONCLUSIONES En este trabajo se ha mostrado que la aplicaciones redes neuronales en controladores de manipuladores observa distintos grados de madurez. Por un lado, la implementación de la transformada cinemática directa es ventajosa frente a la solución tradicional para unas condiciones determinadas; con una calibración de pocos puntos las redes neuronales tienen la capacidad de aproximar rápidamente la forma de la función y ofrecen una resolución moderada. El resultado no es extrapolable para obtener más precisión, par lo que se requiere unas redes más complejas que a su vez requieren la medición de más puntos, y en estas condiciones el procedimiento tradicional ofrece mayor fiabilidad. En el caso de la identificación del modelo dinámico y el modelo inverso de control, la recurrencia de las ecuaciones no permite estabilizar el entrenamiento por lo que no es aplicable en un manipulador de entrada múltiple. No obstante, la identificación no es tampoco exitoso por métodos tradicionales y se tiende a tratar cada cadena cinemática de forma independiente. En este caso el método neuronal no supone una ventaja relevante. No obstante, la aplicación de las redes neuronales al caso de un control óptimo de la Plataforma de Stewart es ventajoso, ya que se trata de un problema numérico de difícil solución. Bibliografía 1. A. K. K. G. A. Rovithakis, A disturbance attenuating adaptive neural network controller for multi-input nonlinear systems Proceedings of the European Control Conference (Kos, Greece, ). 2. S. D., Proc Inst Mech Engrs 180, 371 (1965). 3. S. Yurt, E. Anli and I. Ozkol. 4. D. B, Z. A, S. R, A. U, D. T. A. M, R. A, C. S. Y and L. K. b, 333 (1997). 5. H. Sadjadian and H. Taghirad, 225 (2005). 6. B. R, L. G and D. S, 37 (1998). 7. M.-J. Liu, C.-X. Li and C.-N. Li, Robotics and Automation, IEEE Transactions on 16, 94 (2000). 267

281 E. Modelado de sistemas No Author Given No Institute Given E1 Energy cost of the transmission of information between biological neurons. C. Sarasola (Dpto. Física y Materiales), Francisco Javier Torrealdea (Grupo de Inteligencia Computacional). E2 Modelo estocástico para una red de interconexión. Jose A. Pascual (Facultad Informática, UPV/EHU), F. Xabier Albizuri (Grupo de Inteligencia Computacional). E3 A dynamical model of social agents following the mode. Blanca Cases (Grupo de Inteligencia Computacional), Pablo González-Nalda (Dpto. Lenguajes y Sistemas Informáticos). E4 Aspectos energéticos de la sincronización bidireccional de sistemas caóticos. Abdel Malik Moujadih, Alicia D'Anjou, Francisco Javier Torrealdea (Grupo de Inteligencia Computacional). 268

282 Energy cost of the transmission of information between biological neurons C. Sarasola Department of Physics of Materials, University of the Basque Country, San Sebastian, Spain F. J. Torrealdea, and A. d Anjou Department of Computer Science, University of the Basque Country, San Sebastian, Spain The brain consumes a great deal of energy to maintain the signalling activity of the neurons. This consumption is so high that could be a real constrain for communication. In this work we show how the energy consumption of a neuron can be theoretically evaluated. We also quantify the amount of information transmitted between two coupled neurons in order to investigate in what conditions the ratio of information to energy consumption is most favorable. We show that there are working conditions in which this ratio is optimum and, therefore, it can be conjectured that actual biological neurons could tried to develop neural circuits that minimize their energy expenditure. Keywords: neuron coding, energy, mutual information PACS numbers: La, Xt, Bb 1 Introduction The metabolic energy required to maintain neural activity is very high [1 4]. In humans, for instance, the brain has only 2% of the body mass and consumes 20% of the human metabolic energy [1]. A large fraction of the total energy consumed by the brain is expended in the generation of the firing sequences of action potentials that neurons use to represent and transmit information [2]. The demand of energy to generate these sequences of action potentials is so high that energy supply seems to be a real constrain for neural coding 1 269

283 [3] and, it has been suggested that nature, searching a compromise between energy consumption and representational capacity, might have developed energy efficient codes, that is, codes that maximize the ratio of representational capacity to energy expended [5]. Quantitative mathematical models have proved to be an indispensable tool in pursuing the goal of understanding neuron dynamics [6] and the study of models showing the irregular spike bursting characteristic of real neurons [7 9] has received much attention [10 13]. Nevertheless, the study of the relationships between the dynamical properties of a neuron and its energy consumption requires to be able to evaluate the energy of the neuron in the different possible states of its dynamics. In Ref. [14] we deduced for a Hindmarsh-Rose neuron [9] a function of its variables and parameters, which has the characteristics of a real electrical energy, that can be used to evaluate the energy consumption of the neuron during its signalling activity. Most of the cells in the nervous system are interneurons, that is, neurons that communicate only to other neurons and provide connection between sensory and motor neurons. Signals are transferred from one neuron to another through synaptic junctions which can be chemical or electrical. Electrical synapses are considered to be frequent and, it is believed, that they provide a flexible mechanism for modifying the behavior of an oscillatory neural network [15]. In this work we will study neurons coupled by electrical synapses. A neuron responds to the income signals from other neurons with changes in its firing regime that modify its information capacity as well as its average energy consumption. A natural way to propagate information through a channel of neurons could be via partial or total synchronization of the postsynaptic neuron to the signalling pattern it receives from its presynaptic neighbor. The degree of synchronization obtained between the two neurons conditions, on the one hand, the capacity of the neurons to transmit information and, on the other, the energy consumption of their signalling activity. As the synchronization regime is very dependent on the coupling, there can be expected coupling conditions which are more favorable than others from the point of view of an energy efficient transmission of signals. In this work we investigate how this efficiency depends on the values of the coupling strength when both neurons are coupled electrically. Results of this work have been published in Ref. [16]. The evaluation of the energy efficiency of the transmission requires both, calculation of the amount of information transmitted and calculation of the energy cost of the transmission. The rate of information transmitted by the neurons can be quantified calculating the mutual information between the corresponding trains of spikes of the presynaptic and postsynaptic neurons [17]. The average energy cost of maintaining that rate of information can also be evaluated as we can know the energy that corresponds to the different possible 2 270

284 states of the neurons. 2 Energy associated to the dynamics of a neuron We show here a formal procedure to assign to a system of known dynamics a function of the variables of the phase space with the characteristics of an energy [14,18]. The problem of finding a specific energy function to which attribute responsibility for the movement of a dynamical system is in some respects reciprocal to the usual approach in physics. When dealing with conservative or dissipative physical systems its movement is usually derived out of the knowledge of the driving forces governing the system. That is, our understanding of the physical world permits us to know the energy and forces actuating on the system and from that knowledge infer its kinetics. The approach of this work is rather the opposite. Given the kinetics, we need to investigate what function of the phase space variables can be consistently thought of as a possible energy function for the system. This question finds a straightforward answer in Hamiltonian systems where the Hamiltonian function plays the role of the total energy of the system [19]. A system is Hamiltonian if it has the form ẋ = M H(x) ; x R 2n where H(x) denotes the Hamiltonian function; and M = 0 I d, where I d denotes the identity matrix in R n. As M is a I d 0 skew symmetric matrix, ẋ and H(x) are always orthogonal. Consequently, the movement takes place at a constant value of the Hamiltonian (energy), that is, H(x) is a first integral and the system is conservative. Nevertheless, isolated neurons behave, in some range of the applied external current, as dissipative chaotic systems which are not conservative and neither can they be written in a Hamiltonian format nor have they a first integral energy function. Some kind of generalization of the Hamiltonian formalism, including dissipation, is then required in order to be able to analyze the behavior of a neuron under this perspective. In [20] McLachlan et al. provide a general framework that encompasses both energy functions, in the conservative case, and Lyapunov functions, in the dissipative case, showing that they have a common formulation ẋ = M(x) H(x) ; x R n and M is either a skew symmetric or a definite or semidefinite negative matrix. This generalization is compatible with the extended view of thinking of a Lyapunov function as a kind of generalized energy for dissipative systems. Nevertheless, dissipative chaotic systems do not fit into the McLaghlan et al. generalization as they have neither a first integral energy nor a Lyapunov function. A more general matrix M(x) is required to account for the kind of dissipation that takes place in dissipative chaotic systems. In [21] Bloch et al. express the general dynamics for systems with dissipation as sum of a skew symmetric Poisson bracket plus a symmet

285 ric bracket. This approach is also adopted in [22,23] using an ordinary matrix notation, and it is the one that we will be using in this paper when we refer to a generalized Hamiltonian formalism. That generalized hamiltonian approach has been used in problems of control [22,24], where typically positive definite quadratic forms are sought to play the role of energy. Unfortunately, as any positive definite quadratic form can always be forced to be a solution for the energy compatible with the generalized Hamiltonian formalism, independently of the system itself, the same trivial positive definite quadratic form has usually been assigned to different chaotic systems [22]. Nevertheless, assigning always the same type of energy function to every chaotic oscillator fails to uncover the individual traits of its particular dynamics. The generalized Hamiltonian approach requires additional hypothesis in order to be able to assign to each oscillator a particular energy function. These additional hypothesis can be established forcing a link between change in energy and change in phase space volume in the sense that both go together. It cannot occur any energy variation without a variation in the phase space volume and viceversa. We show in the paper that when this constraint is imposed to a particular chaotic oscillator as an additional condition to its generalized Hamiltonian representation it determines an energy function which is specific for the chaotic system and that is no longer, in general, a positive definite quadratic form. We would like to emphasize that this condition occurs naturally in ordinary physical systems and that when this approach is applied to an ordinary physical system the energy obtained is the actual energy of the system. Once the energies corresponding to two particular oscillators have been found, the flows of energy that take place when they synchronize their behaviors can be calculated. Many theoretical studies of chaos synchronization have been carried out coupling identical systems. In these cases, if feedback synchronization is used, identical synchronization is reached spontaneously at a given, usually small, value of the gain parameter k (coupling strength). Nevertheless, in most of the practical occurrences of synchronization the systems involved are not identical. They can be either nonidentical systems of the same family [25,26] or, even, systems of a completely different structure [27,28]. Maintaining the guided system in a synchronized regime requires an average nonzero flow of energy per unit time. This flow of energy should be provided, or absorbed, by the coupling device and compensates the interaction of the guided system with its environment through the dissipative components of its structure

286 3 Determination of the energy function Consider an autonomous dynamical system ẋ = f(x) (1) where x R n and f : U R n is a smooth function with U R n. These dynamical equations can be expressed in a generalized Hamiltonian form ẋ = M(x) H (2) where M(x) is the local structure matrix and H is the gradient vector of a smooth energy function H(x). For Hamiltonian systems M(x) is a skewsymmetric matrix which satisfies the Jacobian identity. For a generalized Hamiltonian system M(x) is no longer skew-symmetric but can be decomposed into the sum of a skew-symmetric matrix J(x) and a symmetric matrix R(x) ẋ = (J(x) + R(x)) H. (3) The time derivative of the energy along a trajectory is then Ḣ = H T (J(x) + R(x)) H = H T R(x) H. (4) as for the skew-symmetric matrix J(x) H T J(x) H = 0. (5) In many physical problems the local structure matrix M(x) and the energy function H(x) of the dynamical system are known and then the energy change in time is easily evaluated by Eq. (4). In our case we only know the vector field given by Eq. (1) and we do not know either the energy function of the system or its structure matrix. The problem is then to associate to the dynamical system an energy function and a local structure matrix compatible with its dynamics, that is, in the form of Eq. (2). This association is not unequivocal and it is frequent to use as an energy function the trivial quadratic positive definite function of the state variables [22]. In doing so, the procedure assigns to every dynamical system the same type of energy function and fails to uncover the particular characteristics of its dynamics. We adopt here a different approach. As Eq. (2) does not uniquely determines matrix M(x) and energy H, additional hypothesis are required in order to use that formalism to assign a specific energy function to the system given by Eq. (1). In ordinary physical systems any energy variation that occurs as a consequence of their dynamics takes always place together with a volume change in phase space. In what 5 273

287 follows we show that if we impose this natural condition to the energy function to be associated to the dissipative chaotic oscillator given by Eq. (1), this energy function becomes unique. According to Liouville s theorem, the volume rate of change in phase space associated to the vector velocity field f is related with the divergence of that field by dv (t) dt = A(t) divf(x)dx = n A(t) i=1 f i x i dx (6) where A is a bounded set in the phase space R n and V its volume. If we could isolate unequivocally from the vector field f the component that contributes to its divergence we would be able to determine the energy associated to that vector field, imposing the condition that any temporal variation of the energy along a trajectory of the system occurs exclusively due to the presence of that component. Following the Helmholtz s theorem [29] we can try to decompose the velocity vector field f in Eq (1) into the sum of one divergence-free vector f c that accounts for the whole rotational tensor of f plus one gradient vector field f d that carries its whole divergence. f(x) = f c (x) + f d (x). (7) Such a decomposition is unique apart from the arbitrary addition of one simultaneously gradient and divergence-free vector field, what can generally be avoided. In practice, the following procedure leads to a decomposition unique. In a first step, the vector field f d is constructed with all the terms of f that contribute to its divergence and only with that terms. All the rest of the terms of the vector field f conforms f c. If the vector field f d is a gradient the Helmholtz s condition is fulfilled and the procedure is finished. If the vector field f d is not a gradient that means that f d retains part of the rotor of f. A divergence-free vector field with opposite rotational must be added to f d, and subtracted from f c, to cancel the undesired rotor of f d. The Helmholtz s theorem itself guarantees that this vector field to be added, if chosen free of gradient divergence-free components, is unique. This decomposition can be used to determine the energy associated to the system given by Eq. (1) imposing the condition that any change of the energy along a trajectory of the system occurs exclusively due to the contribution of the term f d

288 If we impose in Eq. (4) the condition we have R(x) H = f d (x) (8) Ḣ = H T f d (x). (9) That is, the energy is dissipated, passively or actively, due to the divergent component of the velocity vector field and can be thought of as the work per unit time of the energy gradient along this velocity component according to Eq. (9). To determine the energy function H that fulfills this requirement it is sufficient to realize that if Eq. (8) holds then Eq. (3) can be rewritten as ẋ = (J(x) + R(x)) H = J(x) H + f d (x), (10) and, consequently, J(x) H = f c (x). (11) On the other hand, for J(x) to be a skew-matrix, H T J(x) H = 0 (12) or, H T f c (x) = 0. (13) which defines for each dynamical system a partial differential equation from which the energy function H(x) can be calculated. Once the energy function H(x) is known, the system can be easily rewritten in a ẋ = (J(x) + R(x)) H(x) formulation to make explicit the corresponding skew symmetric J(x), and symmetric R(x) matrices. We would like to point out that whereas the energy function is unequivocally determined by the velocity vector field f the matrices J(x) and R(x) are not, what simply shows the fact that different formulations can be compatible with the same dynamics. 4 Hindmarsh-Rose energy The Hindmarsh-Rose model of a neuron [9], which exhibits a dynamical behavior similar in several aspects to the properties of real neurons, is described 7 275

289 Fig. 1. (Color online) Energy isosurface of H = 45 pj for a Hindmarsh-Rose neuron. The neuron attractive manifold is also sketched. by the following equations of movement: ẋ = y ax 3 + bx 2 + ξi ρz, ẏ = c dx 2 y, ż = r(s(x x 0 ) z), (14) where to ensure dimensional consistency we have added two additional parameters ξ and ρ. This is a qualitative model whose dimensional consistency does not usually deserve much attention. Nevertheless, the dimensional consistency of the model is relevant to our study in order to be able to ascertain whether the energy function that emerges from its dynamics is dimensionally consistent with a true physical energy for a neuron. In the model variable x is a voltage associated to the membrane potential, variable y although in principle associated to a recovery current of fast ions has been transformed into a voltage, and variable z is a slow adaptation current associated to slow ions. Parameter I is a external current input. The time variable of the model is dimensionless. For the numerical results of this work we fix the usual parameters to the values a = 1 (mv) 2, b = 3.0 (mv) 1, c = 1.0 mv, d = 5.0 (mv) 1, s = 4.0 µs, x 0 = 1.6 mv, r = These numerical values have been frequently used since Ref. [?]. The two new parameters are fixed to ξ = 1 MΩ and ρ = 1 MΩ. For values of the external current input 2.92 na < I < 3.40 na the system exhibits a multi-time scale spike-burst chaotic behavior [30]. We have fixed the external current value to I = 3.2 na. In the Hindmarsh-Rose model given by Eq. (14) the vector field f(x) can be 8 276

290 Membrane potential (a) t 50 (c) Energy derivative (b) t Fig. 2. (a) Action potentials and (b) energy derivative for the Hindmarsh-Rose model neuron. (c) Detail of the energy derivative associated to two action potential spikes showing the energy contributed to the cell to generate the spike (positive area) and the ulterior release of that energy. expressed as sum of the following vector fields, y ρz f c = dx 2 rsx ax 3 + bx 2 + ξi and f d = c y. (15) rsx 0 rz As it can be observed f c is a divergence free vector that accounts for the whole rotor of the vector field and f d is a gradient vector that carries its whole divergence. Consequently, the energy function H(x, y, z) will obey the following partial differential equation, (y ρz) H H H dx2 +rsx = 0, which x y z has the cubic polynomial solution H = p ( 2 3 dx3 + rsρx 2 + (y ρz) 2 ) (16) where p is a parameter. In Appendix we prove the existence of a local skewsymmetric structure matrix J(x, y, z) that satisfies Jacobi s closure condition and guarantees that this H function is formally a generalized Hamiltonian and so a real physical energy for the Hindmarsh-Rose neuron. Note that as in the model time is dimensionless and every adding term in Eq. (16) has dimensions of square voltage, function H is dimensionally consistent with a physical energy as long as parameter p has dimensions of conductance. In this paper we fix parameter p to the arbitrary value p = 1 S. Figure 1 shows the isosurface H = 45 pj. The Hindmarsh-Rose attractor is also shown

291 The energy derivative Ḣ = HT f d (x) is given by Ḣ/2p = (bd rsρa)x 4 + ξdix 2 y 2 adx 5 + (c + ρrsx 0 )y ρ(c + ρrsx 0 )z + ρ(1 + r)yz + rsρbx 3 + rsρξix ρ 2 rz 2. (17) It can be easily checked that the energy derivative is also dimensionally consistent with a dissipation of energy. The two first adding terms in Eq. (17) are definite positive, that is, they always contribute energy, and the third term is always definite negative helping to the quick release of energy in the membrane. As the time scale parameter r is very small, the last three adding terms can be neglected. The rest of the adding terms are not definite and their net contribution to the balance of energy in the normal activity of the neuron depends on the particular parameterizations of the model. To estimate the energy needed to generate action potentials the terms contributing energy will have to be identified. Figure 2(a) shows a series of action potentials (variable x in the model neuron) and Fig. 2(b) shows the energy derivative Ḣ corresponding to that series. In Fig. 2(c) a detail of the energy derivative corresponding to a train of two action potentials is also shown. For each action potential it can be appreciated that the energy derivative is first positive, contributing energy to the spike, and then negative, quickly releasing part of that energy to relieve the membrane potential. During the resting state between the two spikes the energy derivative remains slightly negative, still releasing energy, until the onset of the following action potential. As the states of an isolated Hindmarsh-Rose neuron are confined to an attractive manifold, Fig. 1, the range of possible values of its energy is recurrent and the long term average of its energy derivative is zero. This leads to the apparent paradox that the electrical activity of the isolated neuron occurs with no average energy consumption. However, it has to be considered that the average involves a global balance of energy. The model itself incorporates, in a non explicit way, components which are responsible of the energy consumption together with others which are the energy suppliers. Altogether, the whole balance is zero in the long run. However, the average energy consumption per unit time of the neuron, that is, the metabolic energy that has to be supplied to the neuron to maintain its activity, corresponds to the long term average of only the positive component of the energy derivative. As an illustrative application, relevant to the investigation of energy efficient neuronal coding, we have calculated the average consumption of energy of the Hindmarsh-Rose neuron at different values of the external current I ranging from 1 to 6 na. As it has been reported in [30] the external current I modifies the permanent regime of the isolated neuron. For sufficient low values of I the neuron is in a stable quiescent state. As I increases, a low frequency train of regularly spaced spikes appears. Further increase in I leads to peri

292 Energy consumption [pj] Membrane potential t External current I [na] Fig. 3. Average consumption of energy versus external current I. The plateau at 0 corresponds to the non energy consuming quiescent state of the neuron. The energy consumption is sensitive to the different firing regimes of the neuron which are reflected in the successive plateaus. The nonsmooth region between 2.92 na < I < 3.40 na corresponds to the chaotic regime. Inset: High-frequency repetitive firing regime of the neuron at I 3.75 na, the approximate frequency of the firing is 0.04 Hz. odic bursts of two or more spikes per burst. For intermediate values of I there is a chaotic regime. For large values of I the neuron is in a high-frequency repetitive firing state. Our results show, Fig. 3, that the energy consumption of the neuron during its signaling activity is discontinuous with I and very sensitive to the different firing states. The initial plateau at zero corresponds to the neuron in its quiescent state where no electrical energy is required and the next plateaus correspond to the subsequent firing states. The nonsmooth regime between 2.92 na < I < 3.40 na corresponds to the chaotic regime, and the continuous, nearly linear, increase with I corresponds to the highfrequency periodic regime. The inset in Fig. 3 shows the firing regime of the neuron at I 3.75 na, the approximate frequency of the firing is 0.04 Hz. The parallelism of this result of energy consumption with the one obtained in [30] for the time-averaged firing rates versus the external current I is remarkable. This parallelism supports the assumption that energy consumption increases linearly with the mean firing rate [5] and, consequently, with the representational capacity of a possible neuronal code. 5 Synchronization energy The possibility of assigning an energy value to a particular state of a given neuron permits evaluating its energy balance in the process of synchronization with other neurons. To do so, let us force two identical neurons to mutually synchronize via linear bidirectional feedback coupling to the x component, x i = y i ax 3 i + bx 2 i + ξi ρz i + k(x j x i ), y i = c dx 2 i y i, z i =

293 Energy [pj] H [pj] t k Fig. 4. Energy of one of the two bidirectionally coupled neurons averaged on the attractor at different values of the coupling strength k. In the inset a time series of its energy at k = 0.30 is shown as an example of energy pattern. r(s(x i x 0 ) z i ), where k 0 is the coupling strength and i, j = 1, 2 ; i j are the indices for the neurons. We have computed the average energy and the average dissipation of energy of each of these neurons at different values of the coupling strength k ranging from k = 0 to k = 0.6. Figure 4 shows the energy of a neuron averaged on its respective manifold at different values of the coupling strength k. As soon as the coupling is engaged the average energy of the neuron starts to increase with the coupling strength. The average energy reaches a maximum at k = 0.17 and begins a slow decline followed by a second rise to a new maximum at about k = After that the average energy quickly falls, at k = 0.467, to its initial uncoupled level. Although both neurons follow different temporal trajectories the aggregate data for their average energy and average dissipation are identical. The inset illustrates a time series of energy of one of the neurons at k = Several considerations are pertinent. As at every value of k the average energy corresponds to the average on a trajectory virtually covering the whole manifold we can contemplate this average energy as characterizing the manifold itself. From this perspective the process of increasing the gain k leads the neuron through a set of manifolds of different energies. For a linear feedback coupling identical synchronization implies that the interaction term equals zero, consequently, identical synchronization can only occur at the same value of the energy that corresponds to the original noncoupled situation at k = 0. This occurs at k = 0.467, as it can be seen in Fig. 4. For the two coupled neurons that we have analyzed it has been reported [31] that synchrony is a multiscale phenomenon that involves synchrony of bursts, that occurs at k 0.45, and synchrony of spikes, that occurs at k 0.5. According to our energy results identical synchronization, that is, synchro

294 Lyapunov transversal k Fig. 5. The two largest Lyapunov exponents of the transversal system of two bidirectionally linearly coupled Hindmarsh-Rose neurons at different values of the coupling strength k. nization of both bursts and spikes occurs at k = a little before than what has been reported. This result is confirmed by the evolution of the two largest Lyapunov exponents of the transversal system that are shown in Fig. 5. From k = both Lyapunov exponents are negative indicating that the neurons can be completely synchronized. Our results for the Lyapunov exponents show some degree of discrepancy with the ones presented in [31] for the same neurons. The discrepancy could be attributed to the possibly inaccurate linear approximation performed there. Note that evolving on manifolds of the same energy is a necessary precondition for identical synchronization of two neurons and that bidirectional coupling guarantees always that precondition. Thus, a change in the mechanism of coupling in such a way that the interaction term did not go to zero at identical synchronization could permit both neurons to synchronize at values of the gain parameter others than k = The fact that the whole curve of average energy versus k is very nonsmooth is a reflection of the complex structure of manifolds for each neuron at different values of the coupling strength k. Figure 6(a) shows the periodic appearance of the neuron dynamics at k = while Fig. 6(b) shows the chaotic appearance for k = This changeable dynamics very much conditions the quality of the synchrony between both neurons. As we have said before, although the average energy on the manifold at every value of k is the same for both neurons it does not mean that they follow an identical pattern of energy. Figure 7(a) shows the cross correlation of the energies of both neurons at different values of the coupling strength ranging from k = 0 to k = 0.5. The evolution of the cross correlation is very illuminating of the behavior of both neurons. At the very beginning both energies are uncorrelated but very soon reach a high degree of coherence that, with the remarkable exception of the region 0.15 < k < 0.25, further increases

295 (a) 4 (b) z 3.5 z y x y x 2 Fig. 6. State space portrait of a neuron for values of the coupling strength (a) k = showing periodic behavior and (b) k = showing an apparent chaotic regime. Ener. corr. Ener. drv. corr. 1 0 (a) k (b) k Fig. 7. (a) Cross correlation between the instantaneous values of the energies of both neurons at different values of the coupling strength k. (b) Cross correlation of the energy derivatives. monotonically until complete coherence at k = In the region of gains approximately between 0.15 < k < 0.25, the cross correlation of both energies constantly jumps from positive values very near to one to very significant negative values. That is so because, in that region, both neurons often change with parameter k from a regime in which both are close to complete synchrony with chaotic appearance, to a regime in which both are periodic and in complete synchrony although shifted by half a period. This shifted periodic synchrony is called antiphase synchrony. If the neurons are forced to synchronize via a coupling device their oscillatory region in the state space is different from the one that corresponds to their free oscillation and, consequently, their total average energy derivative is no longer zero. That means that energy must be provided by the coupling mechanism to balance the flow of energy [18]. This energy is dissipated by the neurons and it is a direct and specific consequence of their cooperative behavior. Figure 8 shows the pattern of average dissipation of energy of one of the neurons as a function of the coupling strength k. The average dissipation of energy is zero

296 0.5 0 Energy derivative [pj] E. drv. [pj] t k Fig. 8. Average energy derivative of any of the two bidirectionally coupled neurons at different values of the coupling strength k. In the inset, a time series of the actual energy derivative at k = 0.3. at the starting point and remains in general very near to zero except for a clear burst between approximately k = 0.15 and k = This result shows that, in general, all the different regimes of synchrony that the two neurons attain at different values of the coupling strength work with a low net dissipation of energy but that there is a region of values of the coupling strength, 0.15 < k < 0.25, where the activity of the neurons is more energetically demanding. As we have seen before, Fig. 7(a), in that region the qualitative behavior of the neurons is particularly changeable and antiphase synchronization is frequent. A smaller second burst occurs for values of the coupling strength between k = 0.42 and k = After this second burst the average dissipated energy returns to zero at k = which means that the movement is again on the synchronization manifold [18]. This fact confirms complete synchronization at k = Data from the cross correlation between the energy derivatives of both neurons at different values of the coupling strength are shown in Fig. 7(b). At low values of k correlation remains around zero until it starts a slow linear increase from k = 0.2. The cross correlation of the energy derivatives remains fundamentally low in an ample range of values of k which means that, in contrast with what happens with the energy level, the consumption of energy is fundamentally incoherent. Although the average dissipation of energy of the neuron is in general small it does not mean that its instantaneous demand of energy is necessary small, as can be seen in the inset of Fig. 8. Moreover, in a neural network, a coherent instantaneous demand of energy by each individual neuron might be energetically very demanding. Our results show that a coherent demand of energy only happens at the threshold of identical synchronization whereas coherence is quickly lost if the need of complete synchrony is slightly relieved. This fact suggests that a cooperative behavior near synchrony could be energetically less demanding than in complete synchrony

297 6 Information entropy to energy ratio in the isolated neuron We have computed values of average energy consumption at different values of the applied current I. Our results show, Fig. 9(a), that the energy consumption of the neuron during its signaling activity increases in steps with I, being very sensitive to the different firing regimes. The different plateaus correspond to subsequent regimes of periodic bursts of increasing number of spikes per burst. The nonsmooth regime between 2.92 na < I < 3.40 na corresponds to the chaotic regime, and the continuous, nearly linear, increase with I corresponds to the high-frequency periodic regime. As it can be appreciated, the appearance of the chaotic regime starts a decrease in the energy consumption that lasts as far as the onset of the high-frequency regime which takes place at progressively higher values of energy consumption. To quantify the information capacity of the neuron in its different signalling regimes we have calculated the information entropy of the neuron in the same range of values of the external current I used before. The information entropy S of a discrete distribution of probability p i is defined by S = i p i log 2 p i. This entropy is usually contemplated as a measure of the average uncertainty of occurrence of events that have a probability of occurrence p i. Although the information entropy of a discrete probability distribution is well defined, the situation is more unclear when what is sought is the information entropy of a train of spikes emitted by a neuron. In this work we have performed a naive estimate [32] of the information entropy generating successive trains of spikes of 50 ms length which are partitioned into 5 bins of 10 ms length each. The presence or absence of a spike inside one of these bins is codified as 1 or 0 respectively, so that each train of spikes can be contemplated as a particular symbol from an alphabet of thirty two different symbols. The maximum entropy rate that can be consequently measured is 5 bits per average 50 ms train. The computation has been performed generating 2000 different spike trains of 50 ms length at every value of the external current. As it can be seen in Fig. 9(b), information entropy proves to be sensitive to the different spike regimes of the neuron and increases in plateaus corresponding to its progressively richer signalling activity, the higher values of the entropy occurring in the chaotic bursting regime. Quite remarkably, energy consumption is relatively low in the chaotic region. This makes that the maximum ratios of information entropy to energy consumption occur for values of the applied current I that correspond to a chaotic signalling regime, as it is shown in Fig. 9(c). In what follows we use one of these signals of maximum information to energy ratio as input to a second neuron in order to study the transmission efficiency

298 4 Energy consumption [ pj/s ] 3 2 (a) Entropy rate [ bits/50ms ] (b) Entropy to energy ratio [ bits/pj ] 0.03 (c) External current I Fig. 9. (a) Electrical energy consumption per unit time of an isolated Hindmarsh-Rose neuron at different values of the external current parameter I. (b) Information entropy rate of the neuron at different values of the external current parameter I. (c) Entropy to energy consumption ratio. 7 Mutual information to energy ratio between two electrically coupled neurons. We consider again two Hinmarsch-Rose model neurons representing two interneurons coupled by an electrical synapse, ẋ i = y i ax 3 i + bx 2 i + ξi i ρz i + k i (x j x i ), ẏ i = c dx 2 i y i, ż i = r(s(x i x 0 ) z i ), (18) where k i 0 is the coupling strength and i, j = 1, 2 ; i j are the indices

299 for the neurons. This kind of coupling between model neurons has been very often reported [11,30,31]. Let T i 1 and T i 2 represent symbols of the grammar of the different possible symbols that can be coded with the spike trains of the presynaptic and postsynaptic neurons respectively. The mutual information, I m, between the spike trains of both neurons can be defined as I m = i p(t i 2)log 2 p(t i 2) + j p(t j 1 ) i p(t i 2/T j 1 )log 2 p(t i 2/T j 1 ), (19) that is, the entropy of the output train minus the average of its conditioned entropies. This formulation emphasizes the fact that the mutual information between the two trains of spikes can be contemplated as the reduction in entropy that would take place in the postsynaptic train if the presynaptic one was known. Using Eq. (19) and the coding explained before, we can calculate the mutual information between the trains of spikes of the pre and postsynaptic neurons at different values of the coupling strength k. If the two neurons were identical, sufficiently large values of the coupling strength would lead both neurons to complete synchronization and, therefore, to a noiseless channel where no loss of information takes place. However, as actual channels are always noisy and neurons nonidentical, it is of practical interest to know about the efficiency of the signal transmission in these circ*mstances. Thus, we suppose that both neurons are nonidentical and, therefore, in different signalling regimes. The sending neuron signals in a chaotic regime corresponding to a external current I 1 = 3.2. As we have seen, in this chaotic regime the neuron signals at its maximum information capacity and energy efficiency. The receiving neuron is initially close to its quiescent state at a low value, I 2 = 1.4, of its external current. 7.1 Unidirectional coupling We first suppose a unidirectional coupling, k 1 = 0, k 2 = k, between both neurons. The information entropy rate of the postsynaptic spike train, as well as the mutual information between both neurons at the different values of the coupling parameter are shown in Fig. 10. Computation has been performed generating different spike trains of 50 ms length at every value of the gain parameter k. As it can be appreciated, the information entropy increases

300 5 receiver Information rate [bits/50 ms train] sender mutual information Gain parameter k Fig. 10. (Color online) Information entropy (dash, red online), at different values of the gain parameter k, of a 50 ms spike train of a receiving Hindmarsh-Rose neuron electrically coupled unidirectionally to another nonidentical presynaptic neuron. Mutual information between both neurons (solid line). The constant value of the entropy of the sending neuron is also shown as a reference (dots, blue online). Energy consumption [pj/ms] 1.2 (a) Inf to enery ratio [bits/pj] (b) Gain parameter k Fig. 11. Same neurons and conditions of Fig. 2. (a) Signalling energy consumption of the postsynaptic Hindmarsh-Rose neuron. b) Mutual information to energy consumption ratio. rapidly with k reflecting the fact that the signalling activity of the postsynaptic neuron becomes more complex due to the coupling. The mutual information also starts a slower and progressive increase from being zero when both neurons work independently, at k = 0, to its maximum value close to 4 bits/50 ms which is reached at about k = 0.8. As the channel is noisy the mutual information never reaches the information entropy of the postsynaptic signalling. Figure 11(a) shows the average consumption of energy of the postsynaptic neuron at different values of the coupling strength k. It becomes apparent that there is a region of values of the coupling parameter, around k = 0.7 where signalling occurs at minimum values of energy consumption. The ratio of mutual information to energy consumption can be seen in Fig. 11(b). The ratio progressively increases from its zero initial value when both neurons are

301 Information rate [bits/50 ms train] receiver sender mutual information Gain parameter k Fig. 12. (Color online) Mutual information (solid line) between two neurons, coupled with an electrical bidirectional symmetric coupling, at different values of the gain parameter k. Also, information entropies of the receiving (dash, red online) and sending (dots, blue online) neurons. All values refer to spike trains of 50 ms length. Energy consumption [pj/ms] (a) sender receiver Inf to energy ratio [bits/pj] (b) Gain parameter k Fig. 13. Same neurons and conditions of Fig. 4. (a) Signalling energy consumption of the sending (left axis) and receiving (right axis) neurons. b) Mutual information to total (both neurons) energy consumption ratio. isolated, shows a small relative maximum at k = 0.2 and reaches its absolute maximum at k = 0.8. These two peaks of the ratio correspond to minima of the energy consumption. Thus, results show that there is a region of values of the coupling strength, at about k = 0.8, where the mutual information reaches its maximum possible value and, simultaneously, the consumption of energy is minimum. Further increase in the coupling strength does not lead to any improvement in the information transmission rate but to a loss in the energy efficiency of the transmission

302 7.2 Bidirectional coupling As bidirectional couplings between neurons are likely, we have also studied how the energy and mutual information respond to different coupling strengths in the case of two neurons coupled via two symmetric electrical synapses, that is, k 1 = k 2 = k. Both neurons are the same as before the only difference being the symmetry of the coupling. The dynamics of the neurons is now more complex. The receiving neuron is initially, at k = 0, close to its quiescent state at a value of the external current I 2 = 1.4 and the sending neuron signals in a chaotic regime corresponding to a external current I 1 = 3.2. Computation has been performed generating different spike trains of 50 ms length at every value of the gain parameter k. The information entropy of the receiving neuron, Fig. 12, soon reaches a relatively high value and progressively diminishes with subsequent increment of the coupling strength k. The information entropy of the sender also experiences a slight decline as both neurons mutually synchronize. The channel is noisier than in the unidirectional case and the values reached by the mutual information are now lower and more erratic. In Fig. 13 we show the average energy consumption and the ratio of the mutual information to energy consumption as a function of the coupling strength k. Despite the unidirectional case, where the average consumption of energy of the sending neuron remains constant, in the bidirectional case the coupling also affects the sending neuron and makes it modify its energy consumption as a function of the coupling strength k. Thus, in this bidirectional case both neurons have to be considered. Figure 13(a) shows the average energy consumptions of both the sending and receiving neurons as a function of the coupling strength k. As it can be appreciated, the signaling of the sending neuron takes place at higher values of average energy consumption than the ones of the receiving neuron. This result is quantitatively consistent with the data of average consumption of energy at different values of the external current I that we have presented in Fig 3. The average energy consumption of both neurons follows quite an irregular pattern. In spite of it, a clear minimum, that occurs simultaneously for both neurons at a value of the gain parameter close to k = 0.3, can be appreciated. This minimum of the consumption of energy gives rise to a clear absolute maximum of the information to energy ratio as can be appreciated in Fig 13(b). This figure shows that the ratio of the mutual information to the total energy consumption of both neurons soon reaches a kind of uneven plateau with many peaks. All these peaks represent relative maxima of the information to energy ratio which provide plenty of room for energy efficient information transmission. Nevertheless, the absolute maximum of the information to energy ratio occurs at the value of the coupling strength close to k = 0.3 at which the energy consumption of both neurons shows a clear minimum and, for bidirectionally coupled neurons, transmitting information at that values of the coupling strength would definitely be

303 energetically less expensive. 8 Conclusion We have deduced for a Hindmarsh-Rose model neuron a function of the state space variables that can be used to evaluate the electrical energy of the neuron throughout the different states of its dynamics. This function permits calculation of the temporal derivative of the energy and thus, the energy consumption of the neuron in different circ*mstances can be estimated. Coding is the most specific activity of neurons and its understanding remains as an important open problem in neuroscience. It has been reported that energy consumption by neurons in their normal signaling activity is very high and seems to be a real constrain for neural coding [3]. Codes maximizing representational capacity seems to be too energy demanding and it has been suggested that nature might have developed a compromise between energy consumption and representational capacity [5]. Energy efficient codes would then be codes that maximize the ratio of representational capacity to energy expended [5]. As a relevant application of our work to the investigation of energy efficient neuronal coding, we have calculated the average consumption of energy of the Hindmarsh-Rose neuron at different values of the external current I, and found that the energy consumption of the neuron during its signaling activity is very sensitive to the different firing regimes. Our result for energy consumption is in remarkable agreement with the one obtained in [30] for time-averaged firing rates, what supports the assumption that energy consumption increases linearly with the mean firing rate [5] and, consequently, with the representational capacity of a possible neuronal code. Understanding energy efficient codes is a promising area of research where models of electrical energy of the type described in this work can find a particular area of application. We have also studied the energy and the global balance of energy of two bidirectionally coupled neurons at different values of the coupling strength k. When the two neurons are coupled they are forced to oscillate in regions of the state space where the long run average of their energy derivative is no longer zero. That means that an extra flow of energy is required to maintain the synchronized regime. This fact is a consequence of the different oscillatory regime of the neuron when coupled, and remains true whatever type of coupling used for the synchronization. The extra flow of energy required for the collective behavior must be provided by the coupling mechanism itself. For the central nervous system it has been proposed the existence of a specialized structural site, for glycolytic generation of ATP, localized at the postsynaptic site [33]. According to [34] the temporal pattern of the presumed glycolytic response would directly follow the presynaptic input in order to meet metabolic needs induced by the processing of nerve signal transduction. Our results are con

304 sistent with this proposal as they anticipate the need of a source of energy linked to the coupling mechanism in order to maintain a synchronized kinetics between two neurons. They also make it clear that that requirement is only for a cooperative behavior, not for an isolated activity of the neurons. For the Hindmarsh-Rose studied case, we have seen that the average flow of energy required for the synchronized regime is low in an ample range of values of the gain parameter k but that there is a region, 0.15 < k < 0.25, where the energy dissipation is higher. In this region the interrelation in the dynamics of both neurons is very changeable and antiphase synchronization is frequent. Cross correlation of instantaneous values shows that the consumption of energy of both neurons is basically incoherent until very near the threshold of identical synchronization, which indicates that a behavior near synchrony is energetically less stringent than in complete synchrony. Incoherence in energy consumption could facilitate a cooperative behavior especially in a large net of assembled neurons. Nevertheless, as we have shown, the specific cost of maintaining the cooperative regime has also to be considered and might strongly depend on the topological characteristics of the network couplings. The Hindmarsh-Rose model of a neuron is useful for studying neural behaviors as it properly reproduces qualitatively some of the temporal dynamics of a real neuron. It will be of interest to experimentally ascertain whether the energy pattern exhibited by this Hindmarsh-Rose model is in fact reproducing energy characteristics of real neural synchronization. In [35] synchronization between an electronic oscillatory circuit and a real neuron from the inferior olivary nucleus of the rat brain has been reported. To accommodate the oscillation between the circuit and the neuron, an electronic coupling consisting of adjustable gain amplifiers is used. Experiments of this type seem to support that a flow of energy must be provided by the coupling mechanism, and could be used to obtain information of the energy required for the synchronization of real neurons. Models of neurons of the Hindmarsh-Rose type are frequently used to generate and analyze spike trains with temporal characteristics similar to the ones emitted by real neurons. As we have shown in this work, these models can also tell us about the energy implications of producing spike trains and, therefore, they can be used to estimate the energy cost of any particular signalling regime. When the availability of energy is a significant constrain, trade-offs between information transfer and energy consumption are to be expected in order to improve the energy efficiency of neurons. Our main interest in this paper has been to analyze whether a commonly accepted mathematical model of a neuron provides room for such a kind of trade off. Our approach can be extended, in principle, to any other of the frequently used models. Identical neurons can always reach complete synchronization at sufficiently large values of the gain parameter k. Thus, a channel of identical neurons at large enough values of the synaptic coupling constitutes a noiseless channel

305 where mutual information reaches its maximum rate and energy efficiency. Nevertheless, if the neurons are different, synchronization is never complete and the channel is always noisy independently of the value of the coupling strength. In this case, we have found that there are synaptic conditions between the neurons that optimize the ratio of the information they transmit to the energy cost of the transmission. Transmitting in these conditions is energetically advantageous without implying a significant loss in the information rate. These results, which are provided by a comprehensive single model of neuron that links information and energy, suppose a novel approach to the open problem of whether biological computation optimizes the use of energy in the generation and transmission of neural codes. It seems likely that real neurons use energy efficient circuits to generate and transmit information but experimental work will be required to test the results. Appendix To guarantee that function H in Eq. 4 is a real energy for the Hinmarsh- Rose neuron we need to rewrite the conservative component f c of its flow in a generalized Hamiltonian form f c = J(x) H where J(x, y, z) is a skewsymmetric matrix that verifies Jacobi s closure condition. Let matrix J be, 0 a 12 (x, y, z) a 13 (x, y, z) J = a 12 (x, y, z) 0 a 23 (x, y, z). a 13 (x, y, z) a 23 (x, y, z) 0 The Jacobi s closure condition for matrix J can be expressed as [36]: S ijk := a il a jk x l + a jl a ki x l + a kl a ij x l = 0, i, j, k, l = 1, 2,..., n. It can be easily checked that, in this case, S ijk is zero if two indexes are equal and that, for nonequal indexes, cyclic terms are identical and opposite in value to the anti-cyclic ones. Thus, for matrix J to satisfy Jacobi s condition it is only required that S 1,2,3 = 0, that is,

306 ( a23 a 12 y + a ) ( 13 a23 + a 13 x z a ) ( 12 a12 a 23 x y + a ) 13 = 0. (A-1) z On the other hand, as f c = J H, that is, y ρz 0 a 12 a 13 2p (dx 2 + 2rsρx) dx 2 = a 12 0 a 23 2p (y ρz), rsx a 13 a p ρ (y ρz) the following equations must be satisfied, 2p a 12 2p ρ a 13 = 1 2p (dx 2 + rsρx) a 13 2p (y ρz) a 23 = rsx, which can be parameterized as, a 12 = ρ a p a 23 = 1rsx p 2 (dx2 + rsρx) a 13 p (y ρz) a 13 = a 13. (A-2) Taking into account Eqs. A-2 the Jacobi s condition given by Eq. A-1 can be rewritten after some calculation as, a 13 x dx2 a 13 (y ρz) y + rsx (y ρz) a 13 z = rsx + 2p (dx2 + rsρx) a 13 2p (y ρz) 2, which is an ordinary linear differential equation of variable coefficients, which has the following solution, a 13 = (y ρz) i H(x, y, z) (y ρz) rsx 2p (y ρz) 3 dx, where i is the imaginary unit and H(x, y, z) is the previously calculated energy of the Hindmarsh-Rose neuron

307 References [1] D.D. Clarke and L.Sokoloff, Circulation and energy metabolism of the Brain. In: G.J. Siegel et al., Editors, Basic Neurochemistry: Molecular, Cellular and Medical Aspects, Lippincott-Raven, Philadelphia, pp , (1999). [2] D. Attwell and S. B. Laughlin. An energy budget for signalling in the gray matter of the brain. J. Cereb. Blood Flow Metab. 21, 1133 (2001). [3] S. B. Laughlin. Energy as a constraint of the coding and processing of sensory information. Curr. Opinion Neurobiol. 11, 475 (2001). [4] P. Siekevitz. Producing neural energy. Science 306, 410 (2004). [5] W.B. Levy and R.A. Baxter. Energy efficient neural code. Neural Comput. 8, 531 (1996); W.B. Levy and R.A. Baxter. Energy efficient neural computation via quantal synaptic failures. J. Neurosci 22, 4746 (2002); S. Schreiber, C.K. Machens, A.V.M. Herz and S.B. Laughlin. Energy-efficient coding with discrete stochastic events. Neural Comput. 14, 1323 (2002); [6] A. V. M. Herz, T. Gollisch, C. K. Mahens and D. Jaeger. Modelling singleneuron dynamics and computation: a balance of detail and abstraction. Science 314, 80 (2006). [7] A.L. Hodgkin and A.F. Huxley. A quantitative description of membrane current and its application to conduction and excitation in nerve. J. Physiol. (London) 117, 500 (1952). [8] R. FitzHugh. Impulses and physiological states in theoretical models of nerve membrane. Biophys. J.1, 445 (1961). [9] J.L. Hindmarsh and R.M. Rose. A model of neuronal bursting using three coupled first order differential equations. Proc. R. Soc. London, Ser. B 221, 87 (1984); R.M. Rose and J.L. Hindmarsh. A model of a thalamic neuron. ibid. 225, 161 (1985). [10] N.F. Rulkov. Regularization of synchronized chaotic bursts. Phys. Rev. Lett. 86, 183 (2001); S. De Monte, F. d Ovidio and E. Mosekilde. Coherent regimes of globally coupled dynamical systems. ibid. 90, (2003); M.V. Ivanchenko, G. V. Osipov, V. D. Shalfeev, and J. Kurths. Phase synchronization in ensambles of bursting oscillators. ibid. 93, (2004); A. Venaille, P. Varona and M.I. Rabinovich. Synchronization and coordination of sequences in two neural ensambles. Phys. Rev. E 71, (2005). [11] H.D.I. Abarbanel et al.. Synchronized action of synaptically coupled chaotic model neurons. Neural Comput. 8, 1567 (1996); R. Huerta, M. I. Rabinovich, H. O. I. Abarbanel and M. Bazhenov. Spike-train bifurcation scaling in two coupled chaotic neurons. Phys. Rev. E 55, R2108(1997); M.G. Rosenblum and A.S. Pikovsky. Controlling synchronization in an ensemble of globally coupled oscillators. Phys. Rev. Lett. 92, (2004); I. Belykh, E. de Lange and

308 M. Hasler. Synchronization of bursting neurons: What matters in the network topology. ibid. 94, (2005). [12] H. Hayashy and S. Ishizuka. Chaotic nature of bursting discharges in the Onchidium pacemaker neuron. J. Theor. Biol.156, 269 (1991); L.F. Lago- Fernández, R. Huerta, F. Corbacho, J. A. Siguenza. Fast response and temporal coherent osillations in small-world networks. Phys. Rev. Lett. 84, 2758 (2000); M. Yoshioka. Chaos synchronization in gap-junctions-coupled neurons. Phys. Rev.E 71, (2005). [13] H. Hasegawa. Dynamical mean-field approximation to small-world networks of spiking neurons: From local to global and/or from regular to random coupling. Phys. Rev. E 70, (2004); K. Nagai, H. Nakao and Y. Tsubo. Synchrony of neural oscillators induced by random telegraphic currents. ibid. 71, (2005) [14] F.J Torrealdea, A. d Anjou, M. Graña and C. Sarasola. Energy aspects of the synchronization of model neurons. Phys. Rev. E 74, (2006). [15] T. B. Kepler, E. Marder and L. F. Abbott. The effect of electrical coupling on the frequency of model neuronal oscillators. Science 248, 83 (1990); B. W. Connors and M. A. Long. Electrical synapses in the mammalian brain. Annual Rev. Neurosci. 27, 393, (2004). [16] F.J Torrealdea, C. Sarasola and A. d Anjou,. Energy consumption and information transmission in model neurons. Chaos Solitons and Fractals. [17] F. Rieke, D. Warland, R. de Ruiter van Steveninck and W. Bialek, Spikes. Exploring the neural code, (MIT Press, 1999). [18] C. Sarasola et al., Phys. Rev. E 69, (2004). [19] Arnold V.I. [1989] Mathematical methods of Classical Mechanics, Springer, New York, 2nd ed.. [20] McLachlan R.I., Quispel G.R.W., Robidoux N. [1998] Unified Approach to Hamiltonian Systems, Poisson Systems, Gradient Systems, and Systems with Lyapunov Functions or First Integrals, Phys. Rev. Lett. 81, [21] Bloch A., Krishnaprasad P.S., Marsden J.E.and Ratiu T.S. [1996] The Euler- Poincar Equations and Double Bracket Dissipation, Commun. Math. Phys. 175, [22] Sira-Ramirez H. & Cruz-Hernandez C. [2001] Synchronization of chaotic systems: A generalized Hamiltonian systems approach, Int. J. Bifurcation and Chaos 11(5), [23] Maschke B.M.J., Ortega R. & Van Der Shaft A.J. [1998] Energybased Lyapunov functions for forced Hmiltonian systems with dissipation, Proceedings of CDC98, Tampa, Florida,

309 [24] Cheng D. & Spurgeon S. [2001] Stabilization of chaotic systems with dissipation, Int. J. Control 74(5), [25] Hohl A., Gavrielides A., Erneux T. & Kovanis V. [1997] Localized synchronization in two coupled nonidentical semiconductor lasers, Phys. Rev. Lett. 78(25), [26] Tass P., Rosenblum M.G., Weule J., Kurths J., Pikovsky A., Volkmann J., Schnitzler A. & Freund H.J. [1998] Detection of n:m phase locking from noisy data: Application to Magnetoencephalography, Phys. Rev. Lett. 81(15), [27] Lotric M.B. & Stefanovska A. [2000] Synchronization and modulation in the human cardiorespiratory system, Physica A 283(3-4), [28] Mrowka R., Patzak A. & Rosenblum M. [2000] Quantitative analysis of cardiorespiratory synchronization in infants, Int. J. Bifurcation and Chaos 10(11), [29] Panofsky W.K.H. and Phillips M. [1962] Classical electricity and magnetism, Addison-Wesley Series in Physics, Reading, MA, pp. 2-7; Kobe Donald H. [1986] Helmholtz s theorem revisited, American Journal of Physics 54(6), ; Aspects of uniqueness and arbitrary dimensionality are addressed and referenced here in. [30] D. Hansel and H. Sompolinsky, Phys. Rev. Lett. 68, 718 (1992). [31] M. Dhamala, V.K. Jirsa and M. Ding. Enhancement of neural synchrony by time delay. Phys. Rev. Lett. 92, (2004). [32] S. P. Strong, R. Koberle,R. de Ruyter van Steveninck, and W. Bialek. Entropy and information in neural spike trains. Phys. Rev. Lett. 80, 197 (1998). [33] K. Wu, C. Aoki, A. Elste, A. Rogalski-Wilk and P. Siekevitz, Proc. Natl. Acad. Sci. 94, (1997); P. Siekevitz, Science 306, 410 (2004). [34] K.A. Kasischke and W.W. Webb, Science 306, 410 (2004). [35] I. Ozden, S. Venkataramani, M.A. Long, B.W. Connors and A.V. Nurmikko, Phys. Rev. Lett. 93, (2004). [36] P.J. Olver Applications of Lie Groups to Differential Equations, (Springer, New York, 1993)

310 Modelo Estocástico para una Red de Interconexión Jose A. Pascual, F. Xabier Albizuri Facultad de Informática, Universidad del País Vasco, Donostia. Resumen En este artículo proponemos un sistema analítico, basado en la teoría de colas, que modela el tráfico que circula por la red de interconexión de un multicomputador con topología de anillo. El modelo consiste en un sistema exponencial formado por una red de colas, y en él representamos varias caracterésticas de la red, como los canales virtuales y el tipo de encaminamiento utilizado. Los resultados analíticos habrán de compararse con las simulaciones realizadas mediante el simulador FSIN (Functional Simulator), en las que se observan algunos desequilibrios en la utilización de la red, como ocurre con sistemas reales en producción. 1. Introducción La red de interconexión es uno de los elementos clave que influyen en el rendimiento de un multicomputador. Hay numerosos factores, que afectan al óptimo funcionamiento de ésta, siendo el caso ideal aquél en el que se produjera una ocupacion total de la red, en condiciones de tráfico intenso. Debido a la complejidad y coste de las redes, se han desarrollado diferentes simuladores [1] [2], que nos permiten la variación de numerosos parámetros de la red, con el fin de analizar todas las posibles situaciones que se pueden presentar, en un entorno de producción. Mediante estas simulaciones, se han estudiado diferentes métodos [3] [4] [5], que permiten un mejor aprovechamiento de los recursos de la red, y se han detectado situaciones en las que el rendimiento, es decir, la ocupación de la red, decrece. En este artículo, se desarrollará un modelo analítico de una red con una topología en anillo, que nos permitirá verificar los resultados obtenidos mediante el simulador. El modelo analítico aquí presentado, está basado en la 1 297

311 teoría de colas, y modela ciertas características de la red, como la bidireccionalidad de los enlaces y la tasa de inyección de paquetes a la red. Comenzaremos con una breve introducción a las redes de interconexión y los problemas de rendimiento que se producen bajo ciertas circunstancias, siguiendo con una descripción de la red modelada. A continuación, se realizará una introducción a la realización de modelos analíticos mediante la aplicación de la teoría de probabilidades. Para finalizar esta sección, se describirá en detalle el modelo desarrollado. Para concluir, se presentan algunas líneas de investigación futuras, cuyo propósito será mejorar el modelo desarrollado. 2. Redes de interconexión de computadores En los últimos años, el aumento de velocidad producido en los procesadores y memorias no se ha visto correspondido con un aumento similar en las redes de interconexión. Es por este motivo, que el óptimo aprovechamiento de este elemento de un multicomputador, se convierte en un factor imprescindible a la hora de maximizar el rendimiento. Son numerosos los factores que afectan al rendimiento de una red de interconexión. El tamaño de los buffers y de los paquetes, el número de inyectores en los nodos, la utilización de canales virtuales y otra serie de elementos son parte fundamental del rendimiento óptimo de la red. Es por ello, que la existencia de herramientas que permitan su estudio, se convierte en imprescindible. Dentro de este tipo de herramientas, podemos destacar: Simuladores Modelos analíticos Algunos estudios sobre el rendimiento [3] [6], revelan que, bajo condiciones de tráfico intenso, se produce un desequilibrio en la utilización de la red. Este desequilibrio produce que, el número de paquetes que se inyectan en la red, se reduzca, provocando una pérdida general de rendimiento. Estos desequilibrios, han sido estudiados mediantes simulaciones, utilizando FSIN y se han percibido en redes con topología k-ary n-cube. Este desaprovechamiento de la capacidad de la red, se debe a la desigual utilización de los canales virtuales, provocando la saturación de alguno de éstos, 2 298

312 e impidiendo su uso para la inyección de paquetes. Para solucionar este impacto en la pérdida de rendimiento, se han propuesto múltiples técnicas de control de la congestión, que intentan minimizar su impacto [6]. La red de interconexión más sencilla con topología k-ary n-cube, es la de dimensión n igual a 1, que posee una estructura de tipo anillo, y en ésta también se produce este desequilibrio cuando el número de nodos, k, aumenta. Por este motivo, el módelo estocástico que se desarrollará, representará este tipo de topología, debido a la menor complejidad que posee, en comparación con redes de dimensiones mayores. 3. Descripción de la red modelada La red seleccionada para ser modelada, es una con topología k-ary n- cube con n igual 1, es decir, con estructura en anillo. La red está formada por elementos de procesamiento y por elementos de switching. Los elementos de procesamiento, son los encargados de la inyección de nuevos paquetes en la red, y los de switching, de enrutar el tráfico en la red hacia el nodo destino. Los canales que unen los switches de la red, son bidireccionales, por lo que los paquetes pueden viajar en dos direcciones dentro de la red. Los elementos de procesamiento, sólo disponen de un canal de inyección por el que proporcionar paquetes a la red. En este modelo, se asume que la red utiliza enrutamiento de tipo el cámino mínimo, por lo que los paquetes únicamente pueden dirigirse a su destino, utilizando un camino y suponemos que, debido a la sencillez de la red, no se utiliza ningun tipo de control de la congestión, para evitar los bloqueos que se puedan producir. La generación de tráfico en los nodos, se produce de manera independiente entre ellos, y siguiendo una distribución de Poisson. El destino de estos paquetes generados, está uniformemente distribuido por toda la red. También asumimos, que la red no está formada por canales virtuales. 4. Modelo estocástico La búsqueda de modelos para el análisis cuantitativo de redes de comunicación o de redes de computadores nos conduce a la teoría de probabilidades. En efecto, el estudio de este tipo de modelos probabilísticos se remonta a 3 299

313 principios del siglo pasado, cuando A.K. Erlang desarrolló [7] fórmulas probabilísticas para el diseño y análisis de la red telefónica conmutada tradicional. Iniciada la era de la tecnología digital y de los computadores, L. Kleinrock [8] proporcionó las bases del análisis probabilístico para sistemas y redes de computadores. Más recientemente [9] nos proporciona una introducción a las técnicas de evalucación cuantitativa de un sistema de computadores. La definición de modelos probabilísticos para sistemas y redes de computadores, modelos basados en procesos estocásticos y teoría de colas, requiere un sólido fundamento teórico, que podemos encontrar en [10, 11, 12] y en la excelente referencia [13]. En [14] encontramos un estudio analítico de las modernas redes de comunicaciones. Se denomina proceso estocástico al modelo probabilístico de un sistema cuyo estado evoluciona de manera aleatoria en el tiempo. Un proceso estocástico simple viene dado por un proceso de renovación: una secuencia aleatoria de eventos donde los tiempos entre eventos son independientes y con la misma distribución de probabilidad. Siendo µ la media de los tiempos entre eventos y N(t) el número de eventos hasta el instante t, el teorema de renovación elemental nos dice que: E[N(t)] lím t t = 1 µ Este resultado define de manera consistente la tasa de renovación. La tasa de renovación λ = 1/µ es una tasa de llegadas si los eventos corresponden a llegadas de clientes a un sistema o servidor, por ejemplo paquetes a un nodo de conmutación. Finalmente, se denomina proceso de Poisson a un proceso de renovación en el que los tiempos entre eventos son exponenciales. El modelo básico para analizar una red de comunicación es un sistema de cola. La teoría de procesos de renovación-recompensa proporciona resultados muy útiles para analizar colas y otro tipo de sistemas. Antes de introducir la estructura de renovación-recompensa, definimos un proceso regenerativo como aquel proceso estocástico {X(t), t 0}, siendo t el parámetro temporal, en el que se suceden ciclos de forma que al comienzo de cada ciclo el proceso se regenera con la misma estructura probabilística que en el ciclo inicial y con independencia de los ciclos anteriores. La secuencia de estos ciclos constituye a su vez un proceso de renovación, donde denotamos como Y la duración aleatoria de los ciclos

314 Dado un proceso regenerativo, que describe la evolución temporal de un sistema, tenemos una estructura de recompensa si a lo largo del tiempo el sistema tiene determinadas ganancias, que se producen bien de forma continua o en ciertas transiciones de estado. Definimos R(t) como la ganancia acumulada hasta el instante t. Por otra parte denotamos como R la ganancia aleatoria en un ciclo. El teorema de renovación-recompensa establece que (con probabilidad 1): R(t) lím = E[R] t t E[Y ] donde interpretamos el término izquierdo como la tasa de recompensa o ganancia (promedio temporal límite) del sistema. La especificación de la recompensa o ganacia de un sistema permite deducir dos fórmulas básicas de la teoría de colas (cuya deducción omitimos). Dado un sistema a donde llegan clientes, y de donde salen tras un tiempo finito, de forma que la evolución del sistema constituye un proceso regenerativo, tenemos estas relaciones básicas: la ley de Little L = λw y, para un sistema con un servidor, la ley de utilización U = λs. En estas fórmulas λ representa la tasa de llegadas de clientes al sistema, L el número (promedio temporal) de clientes en el sistema, W la media del tiempo que un cliente permanece en el sistema, U la utilización del servidor (promedio de la fracción de tiempo) y S la media del tiempo de servicio a un cliente. La ley de Little es muy general, en una red de comunicaciones podemos aplicarla al sistema en conjunto o a un subsistema de la red. La ley de utilización se aplica a un sistema más particular, en el que hay un servidor (uno sólo). En un proceso regenerativo con tiempos entre renovaciones continuos existen las probabilidades límite P (n) = lím t P {X(t) = n}, siendo n el estado del sistema, por ejemplo el número de clientes en una cola. Estas probabilidades también se pueden interpretar como fracciones temporales para cada estado, en el límite. Las probabilidades límite se calculan mediante las ecuaciones de balanza. En el análisis que vamos a desarrollar no calcularemos probabilidades límite, sino valores medios de parámetros de rendimiento, valores que obviamente vienen determinados por las probabilidades límite. Además de los resultados derivados para procesos regenerativos con estructura de recompensa, necesitamos una hipótesis adicional para definir un modelo analítico de la red de interconexión. Consideraremos sistemas exponeciales formados por una red de nodos o estaciones en los que los tiempos de servicio son exponenciales. Trabajaremos con sistemas abiertos, en los que 5 301

315 las llegadas externas se producen siguiendo procesos de Poisson. Un cliente que entra a la red realiza un recorrido aleatorio pasando por varias estaciones, siguiendo ciertas probabilidades, y tras un tiempo finito sale de la red. Teniendo en cuenta la falta de memoria de los tiempos exponenciales, y para procesos regenerativos, se demuestra, de manera no trivial, el teorema de llegadas: en cada estación i tenemos A i (n) = P i (n), para todo n, donde A i (n) es la probabilidad de que un cliente que llega a una estación encuentre, en ese instante, n clientes en la estación. Existe un teorema análogo para sistemas cerrados. Una vez recogidos los fundamentos teóricos, definiremos el modelo estocástico de la red de interconexión. Tenemos una red de nodos dispuestos en un anillo bidireccional. En cada nodo entran paquetes desde el exterior, de acuerdo con un proceso de Poisson, así como paquetes transmitidos por los nodos adyacentes, y salen del nodo paquetes provenientes de otros nodos con destino a ese nodo. Un paquete que entra a un nodo se encamina en sentido horario o antihorario siguiendo el camino más corto al nodo destino. La tasa de llegadas de paquetes externos será igual en cada nodo, y el nodo destino de cada paquete será aleatorio con probabilidad uniforme. Para un paquete el tiempo de transmisión de un nodo al nodo adyacente es proporcional al tamaño del paquete, tamaño aleatorio con distribución exponencial. Cuando un paquete requiere varias transmisiones por nodos consecutivos, la transmisión en un nodo puede comenzar tan pronto como la cabecera del paquete haya llegado al nodo, desde el nodo precedente, sin necesidad de que el paquete completo haya llegado al nodo. En cada nodo consideraremos dos colas, que serán colas de las conexiones de salida (output queueing), correspondientes a la transmisión en sentido horario y antihorario. Suponemos que las colas de paquetes se forman en buffers de tamaño infinito. Esta hipótesis es asumible para los paquetes que están esperando su inyección en el nodo origen, pues se almacenarían en el computador conectado al nodo, y también es una hipótesis razonable para los paquetes que están circulando por la red si en cada cola de transmisión se priorizan los paquetes que circulan por la red frente a los que esperan ser inyectados en el nodo, y en los nodos hay buffers de tamaño suficiente para los paquetes que circulan por la red teniendo en cuenta que su tamaño es variable y originan por tanto colas. Si el anillo tiene suficiente capacidad para transmitir el tráfico que llega a la red, tenemos procesos regenerativos en las colas de los nodos. Consideraremos un anillo con un número impar de nodos M = 2N + 1, por simetría y sin pérdida de generalidad. La red tiene por tanto 2M colas, 6 302

316 que son las colas de salida en cada nodo para la transmisión a uno u otro de los nodos adyacentes. Fijado un nodo y una de sus dos colas de salida, sea V la probabilidad de que un paquete cualquiera que entra en la red se dirija a dicha cola. De acuerdo con el modelo descrito: V = 1 2M Calculando la suma, obtenemos: [ 1 + N 1 N + N 2 N (N 1) N N ] V = N (2N + 1) = M + 1 8M (1) Sea X net la tasa (total) de paquetes que llegan a los nodos del anillo, que asimismo será la productividad global de la red en condiciones de estabilidad, escribimos la relación trivial: X = X net V = X net M + 1 8M donde X es la tasa de llegadas de paquetes, y asimismo la productividad, en una cola de un nodo. Aplicando la ley de utilización a una cola de salida de un nodo, deducimos U = XS, siendo S la media del tiempo de transmisión de los paquetes, proporcional a su tamaño. Por tanto, la utilización en una cola de salida de un nodo viene dada por: U = X net V S = X net S M + 1 8M A partir de aquí podemos calcular la condición de estabilidad del anillo bidireccional de nodos, que viene determinada por un valor máximo para la tasa global X net de paquetes que entran a la red. En efecto, la utilización en una cola no puede superar el valor U = 1, a partir de ahí el proceso deja de ser regenerativo. Por tanto, de la relación anterior deducimos: máx (X net ) = 8 S M M + 1 De esta manera la productividad máxima de la red viene dada por esta función del número de nodos M y el tiempo de transmisión medio S de los paquetes en las colas de salida de los nodos. 7 (2) (3) (4) 303

317 Una vez calculado el límite de la productividad de la red, procedemos a calcular parámetros de rendimiento del anillo de nodos para un funcionamiento en condiciones de estabilidad, de forma que la utilización de las colas de transmisión puede ser alta pero siempre inferior a 1. Interesa calcular los tiempos de respuesta para la transmisión de paquetes y, de forma secundaria, el tamaño de las colas de paquetes en los buffers. Denotamos como R el tiempo medio de respuesta en una cola de salida de un nodo: el tiempo transcurrido desde la llegada de la cabecera del paquete al nodo, seguido por la posible espera hasta el comienzo de la transmisión, hasta la transmisión completa del paquete. El tiempo medio de respuesta de la red R net es el tiempo transcurrido desde que un paquete se dispone para ser inyectado en el nodo origen, al que puede seguir un tiempo de espera antes de comenzar la transmisión en este nodo, hasta que se completa la transmisión del paquete en la cola que lleva al nodo destino. El modelo que vamos a analizar tiene una diferencia significativa con las redes de colas usuales, en las que un cliente que llega a una cola sale de la misma tras completar el servicio y en ese instante llega a otra cola. Sin embargo en nuestro modelo tenemos que la llegada de un cliente a una cola consiste en la llegada de la cabecera de un paquete a una cola de salida de un nodo, mientras continúa la transmisión de ese paquete en la cola de salida del nodo precedente, salvo que se trate del nodo origen del paquete. Esta característica del modelo requiere un análisis particular, y más detallado, para el cálculo del tiempo de respuesta total R net, aunque para el cálculo del tiempo de respuesta local R es válido el análisis de las redes de colas usuales. Recordemos el cálculo del tiempo de respuesta R en una cola para servicios exponenciales y llegadas externas a la red según procesos de Poisson. Definimos la variable aleatoria Y como el número de paquetes que observa la cabecera de un paquete que llega a una cola de salida de un nodo, y la variable aleatoria T como el tiempo que realiza un paquete en una cola desde la llegada de su cabecera, instante al que puede seguir un tiempo de espera, hasta la transmisión completa del paquete. La disciplina de servicio en la cola no afecta a los cálculos, aunque en el anillo de nodos tendrán cierta preferencia los paquetes que circulan por la red frente a los que esperan ser inyectados en el nodo origen. Sí se requiere que se produzca transmisión siempre que haya algún paquete en la cola, aunque sea sólo su cabecera. Bajo estas condiciones, y con servicios exponenciales, tenemos E[T Y ] = S (1+Y ), por tanto R = E[T ] = E[E[T Y ]] = S (1 + E[Y ]). De acuerdo con el teorema de llegadas descrito más arriba, tenemos que E[Y ] = Q, siendo Q la longitud 8 304

318 (promedio temporal) de la cola. Escribimos la ley de Little, adecuando la notación: Q = XR. De estas dos relaciones, y teniedo en cuenta el resultado (2), obtenemos: R = S 1 XS = S 1 X net S (M + 1)/8M De aquí obtendremos la expresión para Q. El cálculo del tiempo de respuesta total R net precisa un análisis cuidadoso puesto que para un mismo paquete se solapan los intervalos de los tiempos de respuesta en las sucesivas colas de salida que atraviesa. Por tanto R net 2M V R, donde 2M es el número de colas de la red y V R es el tiempo que un paquete cualquiera está en una cola, desde que entra su cabecera hasta que se transmite completamente, de acuerdo con la probabilidad de que atraviese dicha cola. Para calcular el valor exacto de R net basta observar que el solapamiento de los intervalos de los tiempos de respuesta en las colas de salida de dos nodos consecutivos es el tiempo de transmisión del paquete, es decir el tiempo que transcurre desde el instante en que comienza la transmisión en el nodo precedente, y por tanto la cabecera del paquete llega al nodo siguiente iniciándose el computo del tiempo de respuesta en este nodo, y el instante en que se completa la transmisión del paquete en el nodo precedente. Por tanto tenemos que R net = 2M V R ( N 1)S, donde N = ( N)/N = (N + 1)/2 es el promedio de nodos, sus colas de salida, que atraviesa un paquete, y N 1 es el número de solapamientos en los tiempos de respuesta de los nodos consecutivos. Recogiendo los resultados (1) y (5), obtenemos finalmente: R net = M (5) S 1 X net S (M + 1)/8M M 3 S (6) 4 siendo el número de nodos del anillo M = 2N + 1. Aplicando la ley de Little a toda la red, el número medio de paquetes en espera y circulando por el anillo bidireccional de nodos es Q net = X net R net. 5. Trabajo futuro En este artículo hemos desarrollado un modelo preliminar, que representa una red de interconexión con topología en anillo. En futuros trabajos, se incluirán en el modelo, otras características propias de la red, como los canales 9 305

319 virtuales, y las distintas técnicas de avance de paquetes, como wormhole y virtual cut-through. También es necesaria la comparación de los resultados obtenidos mediante simulación, con los obtenidos a través del modelo analítico, para así poder verificar su validez. Consideramos la ampliación y desarrollo del modelo, una tarea importante, debido a la ventaja que supone una aproximación matemática frente a las simulaciones, ya que nos va a permitir medir el impacto de ciertos parámetros en el rendimiento de una forma más rápida y menos costosa. Referencias [1] F.J. Ridruejo, J. Miguel-Alonso. INSEE: an Interconnection Network Simulation and Evaluation Environment. Lecture Notes in Coputer Science, Volume 3648/2005 (Proc. Euro-Par 2005), Pages [2] P.S. Magnusson, M. Christensson, J. Eskilson, D. Forsgren, G. Hallberg, J. Hogberg, F. Larson, A. Moestedt, B. Werner. Simics: A full System Simulation Platform. IEEE computer, 2002, February. [3] C. Izu, J. Miguel-Alonso, J.A. Gregorio. Evaluation of Interconnection Network Performance under Heavy Non-uniform Loads. Lecture notes in Computer Science, Volume 3719/2005 (Proc. ICA3PP-2005), Pages [4] W.J. Dally and H. Aoki. Deadlock-Free Adaptive Routing in Multicomputer Networks Using Virtual Channels. IEEE Trans. on Parallel and Distributed Systems, vol 4, no. 4, pp , [5] V. Puente, C. Izu, J.A. Gregorio, R. Beivide, and F. Vallejo. The Adaptive Bubble Router. Journal on Parallel and Distributed Computing, vol 61, no. 9, pp , September [6] C. Izu, J. Miguel-Alonso, J.A. Gregorio. Effects of injection pressure on network throughput. Proc. PDP06-14th Euromicro Conference on Parallel, Distributed and Network-based Processing. Montbéliard-Sochaux, Feb. 2006, France. Pp [7] E. Brockmeyer, H.L. Halstrom, A. Jensen. The Life and Works of A.K. Erlang. The Copenhagen Telephone Company,

320 [8] L. Kleinrock. Queueing Systems. Wiley, [9] R. Jain. The Art of Computer Systems Performance Analysis : Techniques for Experimental Design, Measurement, Simulation and Modeling. Wiley, [10] H.C. Tijms. Stochastic Models: An Algorithmic Approach. Wiley, [11] S.R. Ross. Introduction to Probability Models. Academic Press, [12] A.O. Allen. Probability, Statistics and Queueing Theory: With Computer Science Applications. Academic Press, [13] K. Kant. Introduction to Computer System Performance Evaluation. McGraw-Hill, [14] A. Kumar, J. Kuri, D. Manjunath. Communication Networking: An Analytical Approach. Morgan Kaufmann,

321 A dynamical model of social agents following the mode Blanca Cases 1 and Pablo Gonzalez-Nalda 2 Dpt. of Computer Languages and Systems. University of the Basque Country Apdo. 649, 20080, San Sebastián, Spain 1 jipcagub@si.ehu.es, 2 jipgonap@si.ehu.es Abstract. We present a model of social agents based on symbolic dynamics, studying experimentally their global behavior. The model consists of a set of intercommunicating agents formalized as a randomly created equations system. The iterations of systems represent social dynamics, as the behavior of a population when voting two candidates T and F, or the reaction of people in economical recessions when deciding to retrieve the money of the bank or not. Agents hear a number of references and take their decisions depending on the calls to T and F. We study the local mechanisms of conflict solution that make a population of agents select one of two choices. We found that the local criterion of following the mode, i.e. the value that has the largest number of observations, reduces conflicts and brings the majority of the population to make the same choice. Moreover, we found that filtering intercommunications of situated agents by geographical constrictions is a way to obtain heterogenous dynamics with less conflicts. 1 Introduction. The aim of this paper is the formalization and implementation of a model of human social dynamics. Concretely, the kind of dynamics that make a whole population select an action between two choices. An example of this is the behavior of persons in an economical recession. A person in this situation has two choices: retire the money from the bank or wait. Our model shows that observing a number of references an adopting the decision more observed in the environment, technically the mode of the set of data, the system evolves to a situation such that almost the totality of the individuals in the population select the same action. This global behavior is represented in figure 4. The formalization of this kind of dynamics is particulary interesting for sociologists when predicting or analyzing the tendency of voters to make a selection based in the preferences of familiars or friends. Our model is a multiagent system described as a team of robots in section 2, The symbolic dynamics of agents: the basic model. There, we introduce the formalization of a multiagent system as a symbolic equations system. Basically, each agent hears a number of references, created randomly at the initial step. 308

322 Agents are initially waiting in state I for a message to perform a task T or F. If the agent hears a consistent call to T (resp. F), it follows the origin of the message. When an agent perceives calls to both T and F, the robot stops in conflict state J. These are the values of Diamond logic defined in [6] We implement the model in LISP programming language in less than two pages of code. Some contributions in the Artificial Life field (e.g. the works on Ants Like Robots- Robots Like Ants systems) deal with the problem of developing distributed algorithms inspired in the functional self-organization of ant colonies and how them could be used by a team of robots [5,4]. This work is an adaptation to agents of some previous works on different fields of computer science [1, 3, 2]. In section 3 The dynamic STATE-BASIC, we describe the non-situated logic of agents in the basic case giving examples. This behavior is determined by the STATE-BASIC dynamics. In section 4 Experimental results for dynamic STATE-BASIC, we present the experimental results of the STATE-BASIC implementation, producing dynamics that end in configurations as the one shown in figure 3 with a great number of conflicts. Section 5, Situated agents: dynamic STATE-MODE, presents the dynamics STATE-MODE, a variation of STATE-BASIC that counts the occurrences of states T and F when a conflict J arises following the more frequent data, that is the mode. We show the experiments that prove that this kind of dynamics produce typically massive selection of one of the two choices, as represented in figure 4 being the mean probabilities for T and F equal and near to 50%. Finally, we define the situated dynamics STATE-MODE in section 6. Each agent has a position in a square board. The model consists in filtering the communications of agents to those references that are geographically near, using the Euclidean distance. We conclude that situated dynamics produce final configurations qualitatively different of non-situated dynamics STATE-BASIC and STATE-MODE. The experiments show a drastic diminution of conflicts and the formation of heterogeneous groups around T and F. In section 7 we present the conclusions of this works and some open lines of development. 2 The symbolic dynamics of agents: the basic model. Our system is composed of a set of communicating agents. Each agent has a radio station, identified by its broadcasting frequency. The message, or song, being broadcasted is one within the set SONGS = I, T, F, J. Each agent has a sensor composed by k radio receivers to hear other robots, and employs a procedure to tune randomly a new frequency. The antenna is a grid of k aerials, and can rotate around a vertical edge following the sources of the messages. It assigns to each frequency the values being heard V i1,...,v ij SONGS. An agent is represented in figure 1. An agent knows its own state by means of a proprioceptor. Note that each agent is able to identify itself and other agents in the system, but they do not have any memory. Assume that robots Agent 0 = T and Agent 1 = F are pre-wired to 309

323 begin recruiting for tasks T and F singing T and F respectively. In figure 1 we give a graphical description of agents. Fig. 1. Agents description. In the early steps, agents move around the world without any predictable direction waiting for a signal. We set value I to denote waiting. When a receiver hears the song T (respectively F), the antenna is oriented towards the signal s source, and the robot reaches the state T (resp. F). Once a direction T (resp. F) is taken, the robot continues following it until a conflict situation arises. This occurs when an agent hearing T or F takes notice of a call to perform the opposite task. The symbolic dynamics that formalizes the system described above is based on the four values of the Diamond logic [14, 17], extending propositional calculus, allowing us to define self-referential equation systems. It includes Booleans, True = T, False = F, together with two values I, J to denote paradoxes. Both paradoxical values are solutions of the self-negated equation X = X. It means that the opposite of doing T is doing F and conversely, but waiting value I = I and conflict value J = J do not have any opposite action. The renamed values are ordered as shown in 2 following the Diamond order. Fig.2. The order of states. The state transition function that governs the system is specified in terms of a self-referential equation system, solved by iteration from the initial condition 310

324 I assigned to all agents. The specification of the local dynamics of Agent i is defined by a text that represents a self-referential expression in Lisp form, a list with the name of the function preceding the arguments: Agent 0 = T Agent 1 = F Agent i = (STATE OPERATOR Agent i Agent i1... Agent imi ) We study the dynamics produced by the iteration of the system from initial conditions Agent i (0) = I for all the agents at time step t = 0. The message of Agent i at time t + 1 depends on the own message and the messages that the agent is listening and at time t. The new state is calculated by means of the function STATE-OPERATOR, that gives a value for any sequence of logical values in the diamond of figure 2: Agent i (t+1) = (STATE OPERATOR Agent i (t) Agent i1 (t)...agent imi (t)). The system halts when it reaches a periodic point, i.e. there exists a step t and a period k such that Agent i (t +k) = Agent i (t ) for all robots Agent i. The periodic point is a fixed point if the period is k = 1. 3 The dynamic STATE-BASIC. The basic dynamics of social agents is determined by the function STATE- OPERATOR that makes messages change over time. The binary operator STATE- BASIC is the first model of intercommunication of agents presented in this paper. For two logical values it gives the maximum in the order of the diamond of figure 2, as defined in the table below. The function is commutative and associative and hence can be extended to any number of arguments. STATE BASIC T F I J T T J T J F J F F J I T F I J J J J J J We represent the system over a square board in figure 3. Let two special robots Agent 0 and Agent 1 (the sources) stay fixed in their positions singing constantly T and F respectively while other agents are waiting. The arrows indicate the frequencies that the robots are hearing. The robots hearing Agent 0 and not Agent 1 begin singing T at the next step, and song T is transitively transmitted. The same occurs with message F. The message J appears when a robot hears both calls to follow T and F. Value J is transitively transmitted, with higher priority than T and F. 311

325 Fig.3. A final configuration of the basic model. Let us present the following example of a system represented as a set of self-referential equations: AGENT 0 = T AGENT 1 = F AGENT 2 = (STATE BASIC AGENT 2 AGENT 0 AGENT 3 AGENT 3) AGENT 3 = (STATE BASIC AGENT 3 AGENT 2 AGENT 4 AGENT 2) AGENT4 = (STATE BASIC AGENT 4 AGENT 3 AGENT 5 AGENT 5) AGENT5 = (STATE BASIC AGENT 5 AGENT 1 AGENT 4 AGENT 4) Here is the result of iteration until a fixed point is reached. Note that the conflict affects to all the agents in the system in except of the specials Agent 0 and Agent 1. AGENT 0 AGENT 1 AGENT 2 AGENT 3 AGENT 4 AGENT 5 t = 0 I I I I I I t = 1 T F I I I I t = 2 T F T I I F t = 3 T F T T F F t = 4 T F T J J F t = 5 T F J J J J 4 Experimental results for dynamic STATE-BASIC. We have implemented the system in Lisp programming language the system described before. The experiment handles a population of 100 agents following 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40, 50, 60, 70, 80 and 90 references. For each number of references, the program creates and tests 1000 worlds. For each 312

326 world, we store the number of steps until convergence and the number of agents with value T, F, I, J respectively. In the following table are the average results. REF ERENCES ST EP S T F I J MEAN Notice that the mean number of agents in state T and F in the last configuration is equal: 2.9 rounding to one decimal position, meaning that the whole population reaches the conflict value J in the majority of the executions. The mean number steps until convergence is decreasing while the number of references increases; from 40 to 90 references the mean steps remains constant. The dynamics has a particularity: for references=1, the majority of the agents remain in state I. For a number of references greater than 1, the number of agents in state I in the final configuration decreases to value 0. Dynamics are drastic for a number of references greater than value 1: the typical execution gives a configuration with all the agents in conflict, excepting the sources T and F. In the few final configurations ending without conflict J, the dynamics is like in figure 4, the number of agents in final state T is usually 1 or 99, and the same occurs to agents in final state F. This can be easily inferred from the following table, showing the number of agents in state T in the final (cycling) configuration obtained over 1000 iterations for each number of references. From 70 to 90 references, all the dynamics end in conflict state J. REFERENCES STATE T > 90 STATE T < STATE T From 7 to

327 5 Following the mode: dynamic STATE-MODE. Function STATE-BASIC defines the basic dynamic of the system. The alternative dynamic STATE-MODE will simplify the process of convergence of agents to a state with less conflict values J. It consists in counting the occurrences of T and F in a configuration. If function STATE-BASIC gives value J, we count the number of occurrences of T in variable n T and the number of F in variable n F to follow the mode. (STATE MODE v 1... v m ) = (STATE BASIC v 1... v m) (STATE BASIC v 1... v m) J T (STATE BASIC v 1... v m) = J and n T > n F F (STATE BASIC v 1... v m) = J and n T < n F J (STATE BASIC v 1... v m) = J and n T = n F The agent takes the value T or F with maximum occurrences by application of STATE-MODE. Without conflicts J, the value given by STATE-BASIC function is returned. For example, a call (STATE BASIC T T I I F) produces J, but (STATE MODE T T I I F) gives T. The expression (STATE MODE T T I I F F) produces the conflict value J. Note that STATE MODE produces less conflicts than STATE BASIC. The self-referential equation system given as example in section 3 is executed below using STATE-MODE instead of STATE-BASIC. AGENT 0 = T AGENT 1 = F AGENT 2 = (STATE MODE AGENT 2 AGENT 0 AGENT 3 AGENT 3) AGENT 3 = (STATE MODE AGENT 3 AGENT 2 AGENT 4 AGENT 2) AGENT 4 = (STATE MODE AGENT 4 AGENT 3 AGENT 5 AGENT 5) AGENT 5 = (STATE MODE AGENT 5 AGENT 1 AGENT 4 AGENT 4) AGENT 0 AGENT 1 AGENT 2 AGENT 3 AGENT 4 AGENT 5 t = 0 I I I I I I t = 1 T F I I I I t = 2 T F T I I F t = 3 T F T T F F t = 4 T F T T F F t = 5 T F T T F F The following table shows the experimental results for the STATE-MODE model. The conditions of the experiment are equal to the conditions for the STATE-BASIC model in section 4: a population of 100 agents following 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40, 50, 60, 70, 80 and 90 references and for each number of references, the program creates and tests 1000 worlds. 314

328 STEPS T F I J MEAN Again, the mean number of steps until convergence decreases continuously from a low number of references, in this case references=3. The number of waiting agents and conflict agents decreases to value 0 when the number of references increases. The number of agents in states T and F in the final configuration Fig. 4. is similar in average, but the majority of the dynamics are drastic, as can be inferred from the following table, which shows that the dynamics produced by 315

329 STATE-MODE are as represented in figure 4: from 5 or more references, the typical dynamics end with teams of 1 value T and 99 F and viceversa. REFERENCES STATE T > 90 STATE T < STATE T Situated dynamic STATE-MODE. The dynamics STATE-MODE presented in previous section is efficient to solve conflict states J of the basic dynamics, but we got surprised by the results. The mean number of agents T and F is near of the 50%. One could expect heterogeneous groups as for example 25 T-75 F, 60 T-40 F, as shown for example in figure 5. Instead of this, the typical final states are of the types 1 T-99 F and 99 T- 1 F, they both with identical probability. These results are not intuitive. Our hypothesis was that we expected heterogenous groups T and F because we had in mind a situated process of transmission of messages. For this purpose, we have extended the STATE-MODE dynamics assigning to agents a position of coordinates (x y) in a square board of If Agent i is following the references Agent i1... Agent im, the references at Euclidean distance greater than a given ratio from Agent i are ignored. The parameters are as in previous section with worlds of 100 agents and 1000 experiments per number of references. The following results correspond to a ratio=25 and they corroborate our hypothesis. STATE-POSITION dynamics shows different final configurations. First, the geographical constriction make appear groups of waiting robots in state I when the agents follow an small number of references. But for a high 316

330 Fig. 5. number of references dynamics are heterogeneous, reaching the average of 50% for T and F for 90 references. REF ERENCES ST EP S T F I J MEAN The following table shows that the number of T agents in the final configurations for the 1000 executions of the algorithm increases drastically over the number of references. 317

331 REFERENCES STATE T > 90 STATE T < STATE T We deduced that the high number of waiting agents I should be reduced if a longer ratio were used. For this purpose, we executed the experiments for ratio=50. Column I presents in this table average values smaller than the case of ratio=25. REF ERENCES ST EP S T F I J MEAN

332 For ratio=50 the mean over all the references of T, , and F, , are almost the double of the mean values for T and F when ratio=25. With ratio=50, the dynamics with less references become heterogeneous, but the dynamics with a high number of references become drastic, as in the case of the dynamics STATE-MODE. 7 conclusions We have defined self-referential equations systems as the formalism to represent the logic of a social multiagent system. First, we implemented the dynamics STATE-BASIC, which produces dynamics that end in conflict in the majority of the cases, excepting a few non conflictive dynamics that end as represented in figure 4. We introduced dynamics STATE-MODE to solve conflicts, obtaining a majority of dynamics like the one represented in figure 4. Complementing STATE-MODE dynamics with a procedure that filters the references outside of a neighborhood of a given ratio, we obtain heterogenous groups around each value T and F, as shown in figure 5. As open lines, we suggest the study of friendship as a mechanism to filter the STATE-MODE dynamics regulating the convergence to equilibrated groups of agents. Acknowledgements. This work is partly supported by the Spanish Ministerio de Ciencia y Tecnologa MCYT TIN C03-01 and the University of the Basque Country ref. 9/UPV /2004. References 1. Cases, B. (1996). From Synonymy to Self- Modifiying Automata: Q-Diam Language in Dassow, J.; Rozenberg G. and Salomaa, A. (Eds.) DEVELOPMENTS IN LANGUAGE THEORY II. Ed. World Scientific (Singapore-New Jersey- London-Hong Kong 1996). pp Cases B.; Etxeberria A., Gonzalez-Nalda, P. (1996)Modelling Evolution on Hypergraphs: a Structural Approach to Study Diversity. In the Proceeding of ICEC 96- IEEE 3rd International Conference on Evolutionary Computation. pp Cases, B. (1996)Modelling Mutual Influence in Communication Networks. in Callaos, N.C. (ed.) Proceedings of ISAS96- International Conference on Information Systems, Analysis and Synthesis. pp Orlando. U.S.A. 4. Colorni, A. et al. (1993) Distributed Optimiztion by Ant Colonies. In Custom Course Material CS.425 ARTIFICIAL LIFE, Instructor KOZA, Winter. Standford Bookstore. U.S.A. 5. Denebourg, J. L. et al. (1993) The dynamics of collective sorting Robots-Like- Ants and Ants-Like-Robots. Custom Course Material CS.425 ARTIFICIAL LIFE, Instructor KOZA, Winter. Standford Bookstore. U.S.A. 6. Hellerstein, N. S. (1985) Diamond, a logic of Paradox Cybernetics vol 1. n1 Summer-fall. American Society for Cybernetics. USA 319

333 Aspectos Energéticos de la Sincronización Bidireccional de Sistemas Caóticos A. Moujahid *, A. D Anjou, F.J. Torrealdea Grupo de Inteligencia Computacional, UPV/EHU. Resumen En este trabajo analizamos numéricamente el proceso de sincronización bidireccional de dos sistemas caóticos idénticos de Lorenz usando un enfoque energético basado en funciones de energía y coste de sincronización [3, 8]. Hemos realizado un balance energético de dicho proceso de sincronización calculando la energía necesaria para mantener el régimen sincronizado tanto en el caso unidireccional como bidireccional. También hemos analizado este flujo de energía para distintos valores de la fuerza de acoplamiento cuando los sistemas acoplados transitan de un acoplamiento unidireccional a bidireccional y viceversa. I. Introducción La sincronización del caos se refiere al proceso mediante el cual dos (o más) sistemas dinámicos caóticos acoplados convenientemente ajustan ciertas propiedades de sus dinámicas para alcanzar un comportamiento común. Este fenómeno ha sido observado en muchos campos de la ciencia y de la tecnología. También, la sincronización está presente en los sistemas vivos, siendo observado al nivel de celulas simples, subsistemas fisiológicos, organismos o incluso al nivel de poblaciones. Estudios sobre los diferentes enfoques de la sincronización de sistemas caóticos pueden encontrarse en la referencia [1]. Dos sistemas caóticos idénticos acoplados vía acoplamiento unidireccional lineal alcanzan un régimen de sincronización idéntica cuando la fuerza de acoplamiento supera un cierto umbral K s [4]. Este régimen de sincronización se caracteriza por una disipación de energía que en promedio es nula, y una energía con un valor promedio igual al valor inicial que corresponde a la energía del sistema guiado cuando la fuerza de acoplamiento es nula. Por tanto, establecer un régimen de sincronización idéntica entre sistemas idénticos acoplados vía realimentación lineal requiere un suministro continuo de energía hasta que la fuerza de acoplamiento alcance el umbral de sincronización. A partir de este valor, el régimen de sincronización se mantiene sin ningún coste [6]. Muchos trabajos sobre sincronización han sido llevados acabo acoplando sistemas caóticos usando esquemas unidireccionales. Este tipo de acoplamiento * abdelmalik.moujahid@ehu.es / Tel:

334 unidireccional, donde sólo la dinámica del sistema guiado se ve afectada por la fuerza de acoplamiento, no refleja el comportamiento de muchos de los sistemas reales donde la interacción entre sistema guiador y guiado es mutua y por tanto están permitidos flujos de energía que darán lugar a comportamientos energéticos distintos. En este trabajo analizamos numéricamente el proceso de sincronización bidireccional de dos sistemas caóticos idénticos de Lorenz usando un enfoque energético basado en funciones de energía y coste de sincronización [3, 8]. II. Resultados numéricos 1. Acoplamiento bidireccional En esta sección presentamos los resultados numéricos del balace energético del proceso de sincronización para distintos valores de la fuerza de acoplamiento. Consideremos dos sistemas idénticos de Lorenz acopalados vía realimentación bidireccional según el siguiente esquema de ecuaciones diferenciales: x 1 = σ(x 2 x 1 ) + k(y 1 x 1 ) x 2 = x 1 x 3 + ρx 1 x 2 + k(y 2 x 2 ) (1) x 3 = x 1 x 2 βx 3 + k(y 3 x 3 ) y 1 = σ(y 2 y 1 ) + k(x 1 y 1 ) y 2 = y 1 y 3 + ρy 1 y 2 + k(x 2 y 2 ) (2) y 3 = y 1 y 2 βy 3 + k(x 3 y 3 ) Los valores de los parámetros vienen dados por σ = 16, β = 4, ρ = 45,92. Los k representan los elemnetos de una matriz diagonal (3X3), los cuales representan la fuerza de acoplamiento. Para analizar los aspectos que caracterizan este proceso de sincronización hemos utilizando la función de energía asociada al sistema caótico de Lorenz dada por H(x) = 1 2 ( ρ σ x2 1 + x x 2 3), su derivada temporal Ḣ(x) = ρx 2 1 x 2 2 βx 2 3, [8], y el coste global de sincronización definido como el promedio temporal de la norma del término de interacción K(y x) [3]. En la Figura 1 hemos representado los resultados numéricos del proceso de sincronización tanto unidireccional como bidireccional evaluado en términos de energía, disipación de energía y coste global de sincronización en función de la fuerza de acoplamiento. Las curvas en color rojo representan los resultados correspondientes a un acoplamiento unidireccional, mientras que las curvas en azul corresponden al caso de un acoplamiento bidireccional. Como se puede apreciar en la Figura 1, el régimen de sincronización idéntica, el cual se caracteriza por una disipación de energía nula y un coste de sincronización nulo, ocurre para un valor de la fuerza de acoplamiento k = 1,6 cuando los sistemas están acoplados según un esquema unidireccional, mientras que cuando están mutuamente acoplados, alcanzar este régimen requiere la mitad de la fuerza de acoplamiento, es decir, k = 0,8. Esto implica una disipación de energía y coste de sincronizaqción menores como se puede apreciar en la 321

335 Energía (a) Parámetro de ganancia k 30 Disipación de energía (c) (b) Parámetro de ganancia k Coste de sincronización Parámetro de ganancia k Figura 1: Energía, Disipación de energía y Coste de sincronización del sistema de Lorenz. Color rojo: acoplamiento unidireccional. Color azul: acoplamiento bidireccional gráfica (b) y (c) de la figura 1; tanto la disipación de energía como el coste de sincronización se reducen de manera muy notable al pasar de un acoplamiento unidireccional a bidireccional. La Figura 2 representa en el plano (x 1, y 1 ) los atractores correspondientes a los sistemas 1 y 2 para distintos valores de k. En las gráficas de esta figura se puede apreciar cómo la variedad de sincronización se hace notable una vez conectado el dispositivo de acoplamiento y que a medida que vamos incrementando la fuerza de acoplamiento las trayectorias de los sistemas acoplados van convergiendo hacia el régimen de sincronización idéntica. Un régimen que requiere un suministro de energía menor que cuando los sistemas están acoplados según un esquema unidireccional. 2. Acoplamiento unidireccional versus bidireccional Para completar este análisis y estudiar los posibles comportamientos, tanto cualitativos como cuantitativos, que se podrán observar cuando los sistemas acoplados pasan de un acoplamiento unidireccional a otro bidireccional, hemos implementado un esquema de acoplamiento que permite analizar la transición, en un sentido como en otro, entre estos dos esquemas de acoplamiento. El nuevo sistema acoplado viene dado según el siguiente esquema: x 1 = σ(x 2 x 1 ) + k 2 (y 1 x 1 )(1 + θ) x 2 = x 1 x 3 + ρx 1 x 2 + k 2 (y 2 x 2 )(1 + θ) (3) x 3 = x 1 x 2 βx 3 + k 2 (y 3 x 3 )(1 + θ) 322

336 k=0 k=0.4 k= y1 0 y1 y x x1 k= k= x1 50 k= y1 y1 y x x x1 50 Figura 2: Retrato de fases de la variable x1 del sistema 1 frente a la variable y1 del sistema 2 para diferentes valores del para metro k. y 1 y 2 y 3 k (x1 y1 )(1 θ) 2 k = y1 y3 + ρy1 y2 + (x2 y2 )(1 θ) 2 k = y1 y2 βy3 + (x3 y3 )(1 θ) 2 = σ(y2 y1 ) + (4) donde 1 θ 1. En las figuras 3 y 4 hemos representado respectivamente la disipacio n de energı a de los sistemas descritos por las ecuaciones 3 y 4 en funcio n de los para metros θ y la fuerza de acoplamiento k. En la parte izquierda se muestra la disipacio n de energı a en funcio n de k para valores de θ = 0, θ = 1 y θ = 1. Cuando θ = 0 los sistemas se encuentran mutuamente acoplados dando lugar a una dina mica similar a la de la figura 1. Para θ = 1 el sistema dado por la ecuacio n 4 se encuentra en un re gimen guiado y la evolucio n de su disipacio n de energı a en funcio n de k es la correspondiente al sistema de Lorenz cuando el acoplamiento es unidireccional, es decir que el sistema va disipando energı a hasta un valor de k 1,2 a partir del cual empieza a recuperar la energı a perdida hasta alcanzar el re gimen sincronizado donde la disipacio n se hace nula. En este caso el sistema guiador dado por la ecuacio n 3 tiene una disipacio n de energı a constante. Para θ = 1 los sistemas 3 y 4 intercambian de roles dando lugar a dina micas sime tricas. Sin embargo, para valores intermedios del valor de θ, por ejemplo θ = 0,5 el sistema de la ecuacio n 3 tiene un te rmino de interaccio n con una ganancia de valor 0,25 k, mientras que para el sistema 4 esta ganancia es de 0,75 k, es decir, una ganancia 3 veces mayor. En este caso el sistema 3 se encuentra en un re gimen relativamente guiador lo que explica una disipacio n de energı a menor 323

337 0 theta = Disipación de energía theta = Disipacion de energia theta = theta Parámetro de ganancia k Figura 3: Disipación de energía del sistema Lorenz de la ecuación 3 en función de la fuerza de acoplamiento y del parámetro θ que la del sistema 4 que se considera como guiado ya que empieza a disipar energía de manera notable una vez conectado el dispositivo de acoplamiento, mientras que el sistema 3 empieza a disipar energía sólo a partir de un valor de k alrededor de 0,75 (ver Figura 5). III. Conclusiones En este trabajo hemos presentado los resultados numéricos de análisis del balance energético de la sincronización tanto unidireccional como bidireccional de sistemas caóticos. Para ello, hemos considerado, en una primea parte, dos sistemas idénticos de Lorenz acoplados según un esquema bidireccional. Los resultados muestran un régimen de sincronización con un comportamiento similar al que observamos cuando los sistemas están acoplados según un esquema unidireccional. Una vez conectado el dispositivo de acoplamiento, los sistemas acoplados mutuamente empiezan a disipar energía lo que se refleja con un promedio temporal de la derivada de energía con valores negativos. Para mantener este régimen forzado, el dispositivo de acoplamiento tendrá que proporcionar la misma cantidad de energía disipada. Contrastando estos resultados con los obtenidos cuando el esquema de acoplamiento es unidireccional, vemos que mantener el régimen de sincronización idéntica cuando los sistemas están acoplados según un esquema bidireccional requiere un suministro de energía mucho menor que cuando están acoplados unidireccionalmente. Además, el régimen sincronizado se alcanza con sólo la mitad de la fuerza de acoplamiento. En la segunda parte, hemos implementado un esquema de acoplamiento vía realimentación lineal con un parámetro θ que nos ha permitido analizar el régimen de sincronización en distintas regiones del espacio de estados correspondientes a distintos esquemas de acoplamiento. Dependiendo del valor del parámetro θ, los sistemas pueden 324

338 Disipacion de energia encuentrarse en un régimen de sincronización mútua, caso de θ = 0, o en un régimen totalmente de tipo guiador/guiado (master/slave), caso de θ = 1 o θ = 1. Sin embargo, para valores intermedios de θ entre 1 y 1, observamos situaciones en donde el régimen de sincronización pasa por dos regiones del espacio de estados. En la primera región, correspondiente a valores de k entre 0 y 0.75, el sistema 3 juega el papel de sistema guiador con una disipación de energía casi nula. en la segunda región, el sistema 3 empieza a disipar energía entrando en un régimen de sincronización mútua hasta alcanzar la sincronización idéntica. 10 theta = theta = theta = theta Parámetro de ganancia k Figura 4: Disipación de energía del sistema Lorenz de la ecuación 4 en función de la fuerza de acoplamiento y del parámetro θ 0 theta = theta = Disipacion de energia del sistema k=0.75 Disipacion de energia del sistema (a) 40 (b) Parametro de ganancia k Parametro de ganancia k Figura 5: Disipación de energía de los sistemas Lorenz de las ecuación 3 y 4 en función de la fuerza de acoplamiento para un valor de θ = 0,5 325

339 Referencias [1] L.M. Pecora, T.L. Carroll, G.A. Johson, D.J. Mar and J.F. Heagy, Chaos 7, 520 (1997); U. Parlitz and L. Kocarev, Handbook of chaos and control, edited by H.G. Shuster, (Wiley-VCH, Berlin, 1999), pp ; S. Boccaletti, J. Kurths, G. Osipov, D.L. Valladares and C.S. Zhou, Phy. Rep. 366, 1 (2002) [2] d Anjou A, Sarasola C, Torrealdea FJ, Orduna R and Graña M. (2001), Parameter-adaptive identical synchronization disclosing Lorenz chaotic masking. Phys. Rev. E 63. [3] Sarasola C, Torrealdea FJ, d Anjou A and Graña M. (2002), Cost of synchronizing different chaotic systems. Mathematics and Computers in Simulation 58. [4] Sarasola C, Torrealdea FJ, d Anjou A, Moujahid A and Graña M. (2003a), Feedback synchronization of chaotic systems. Int. J. Of Bifurcation and Chaos 13: [5] Sarasola C, Torrealdea FJ, d Anjou A, Moujahid A and Graña M. (2003b), Nonzero error synchronization of chaotic systems via dynamic coupling. Physica D 177. [6] Sarasola C, Torrealdea FJ, d Anjou A, Moujahid A and Graña M. (2004), Energy balance in feedback synchronization of chaotic systems. Phys. Rev. E 69, [7] Sarasola C, Torrealdea FJ, d Anjou and Graña M. (2005), Minimization of the energy flow in the synchronization of noidentical chaotic systems. Phys. Rev. E 72, [8] Sarasola C, d Anjou A, Torrealdea FJ, Moujahid A. (2004), Energy like functions for some dissipative chaotic systems. Int. J. Of Bifurcation and Chaos 15:

340 F. Interacción hombre-máquina avanzada No Author Given No Institute Given F1 Emotion recognition based on the analysis of facial expressions. A survey. Andoni Beristáin (Grupo de Inteligencia Computacional). F2 First experiments on acoustic-phonetic decoding for multilingual speech recognition in the basque context. I. Ariztimuño, N. Barroso, Aitzol Ezeiza, N. Gilisagasti, Karmele López (Ingeniería de Sistemas y Automática). F3 Intelligent tutoring system to integrate people with disabilities into social and work environments. Karmele López, Eloy Irigoyen, Nestor Garay, Ekaitz Zulueta (Ingeniería de Sistemas y Automática). F4 Desarrollo de un sistema de medida de emociones humanas no perceptibles a través del modelado mediante ordenadores de la conducta humana basada en el aprendizaje de emociones. Eloy Irigoyen, Karmele López (Ingeniería de Sistemas y Automática), Carmen Hernández (Grupo de Inteligencia Computacional). 327

341 1 Emotion recognition based on the analysis of facial expressions. A survey. Andoni Beristain Computational Intelligence Group Computer Science Faculty, University of the Basque Country (UPV/EHU) (2018) San Sebastián, SPAIN Abstract - This article shows a review of the actual research and techniques on emotion recognition based on the visual analysis of facial expressions. It also describes the difficulties of automatic emotion recognition, and the way the researchers have tried to overcome them. Keywords Emotion recognition, Facial expression. I. INTRODUCTION In our daily life, during communication between humans, the verbal communication channel delivers only a fraction of the entire information transmitted. Components like voice intonation, body language and facial expressions provide much additional information as it is stated in [3] and [11]. In the last years a special effort has been addressed to the research of ways to improve our communication with machines. New input and output devices are being proposed that try to overcome the actual limitations in the human-machine communication bottleneck are being proposed. The underlying reasoning is that Humans cannot take full advantage of all our communicating abilities when we try to communicate with machines, because this communication process takes place in an artificial setting, and has nothing to do with the human communication processes we are used to. That causes people to have interaction problems in their first contacts with computers. It would be desirable to have a more human-like communication with computers, that is, to reduce the semantic gap between computer language and human language. To that end, interaction must be multimodal [4], because humans use many information carriers during the communication process. Affective Computing [5] is a research area conceived to reach a more natural and humanlike communication with computers. Rosalind Picard coined the expression and she is the most important precursor of this research area. She postulates the need to integrate the emotional component into the communication between humans and machines. The development of facial expression and emotion recognition systems is one of the first steps to achieve these goals. As shown in [6] the research on facial expression recognition did not begin until the decade of The main reason for this late starting lies in the great amount of computational resources required. The growing availability of increasingly powerful personal computers lets still plenty of room for improvement and innovation. The research on automatic facial expression analysis could benefit to areas such as Ambient Intelligence, predictive technology development or manufacturing environments, able to offer services and tools proactively. Human-robot interaction and human-computer interaction (e.g. using virtual and emotional characters) could be improved too. The Emotional Mirror is one of the first applications defined in the Affective Computing paradigm, which would help people train their facial expressions (e.g. actors). There are also applications for the treatment of patients with psyco-affective illnesses (e.g. autism), and non invasive measurement of the emotional response of subjects in Psycological studies, under some specific stimuli. A big industrial potential lies in marketing studies based on the non invasive measurement of 328

342 2 emotional response of test subjects to new products, services, advertisem*nts or web pages could be performed. Although the present document is about emotion recognition based on the analysis of the facial expressions, it is worth to mention that the complete, reliable and precise emotion recognition requires placing the facial expressions into a context and situation. Employing additional multimodal information like user activity and voice intonation, the automatic interpretation of the emotion experienced by a person would be more reliable [7], [4]. The use of specific sensing hardware has also been considered by many researchers. For example, using infrared lighting and an infrared camera, human eye pupils are easily located [8]. Thermographic cameras have also been used in [9]. Stereo vision offers distance information too, like in[10]. Recently developed3d cameras and 3D sensors offer distance information, which can be used to build up models of and to recognize facial features easier. This kind of visual sensors can help to improve facial expressions recognition, but they are also expensive or more intrusive than conventional CCD cameras in most of the cases. That is why they are not used widely. Therefore, most of the research found in the literature is based on single and ordinary colour digital video cameras. A wide variety of computational techniques have been applied to facial expression recognition. They include Artificial Vision algorithms like Canny edge detection, Optical Flow, histogram equalization or the Kalman Filter, and Machine Learning algorithms like Neural Networks, Support Vector Machines or Hidden Markov Models. One last reflection on the literature is that automatic facial expression recognition based on visual cues is often used as a benchmark to test new Machine Learning or Artificial Vision algorithms. Therefore, there are many papers presenting tentative systems, or following unfeasible approaches, since the main purpose of those papers is to show the advantages of their technique. The remainder of the paper is structured as follows: In Section 1 facial expressions are introduced and described. In Section 2 advances in automatic facial expression recognition are reviewed. In section 3 several representative systems are described in detail. We give some conclusions in section 4. II. FACIAL EXPRESSIONS We begin reviewing how facial expressions are produced, how they can be analysed objectively and which the main problems when working with emotions are. Facial expressions are produced due to facial muscle movements that end up in temporary wrinkles in the face skin and the temporary deformation of facial features like eyebrows, eyelids, nose and mouth. In most cases, facial expression persistence is short in time, usually no more than a few seconds [11]. We can divide a facial expression generation process into 3 steps. First of all, a transition between the previous facial expression and the actual one, increasing its strength, then the facial expression is sustained for some seconds, and finally there is a transition to the next facial expression, which means a decrease in the strength of the facial expression. Facial expression strength refers to the easiness of recognition. A strong facial expression is one that is easily recognized by anybody. People are able to show a lot of different facial expressions, so a specific taxonomy is needed to describe and analyse them. It would be necessary to describe the face region where the facial expression takes place, its strength and the movement itself. Some of the facial expressions are culture or ethnic specific, having different meaning depending on the subject population, like Paul Ekman stated in his work [12]. 329

343 3 Furthermore, there are people who are more or less expressive, with different facial expression strength ranges. There are also differences between a spontaneous facial expression and a simulated one, both in appearance and strength. It is difficult to obtain spontaneous facial expression videos for testing purposes, due to ethical issues. For this reason researchers usually work with professional actor s video recordings, even if actors cannot always perform all the nuances of a spontaneous facial expression. It must be taken into account that each facial expression associated to each emotion has its own strength range. For example, the changes produced in a subject s face when showing a sad facial expression are more subtle than those related to happiness or surprise. Paul Ekman set the ground for most of the systematic psychological works specialized in emotions [13-17]. According to Paul Ekman s research conclusions [18] there are only 6 emotions which have the same facial expressions for all human beings, regardless of culture, ethnic group or geographic location. Those basic or universal emotions are happiness, sadness, anger, surprise, disgust and fear. Most of the researches on emotion recognition based on the analysis of facial expressions are focussed on recognizing these basic emotions. There are two different approaches to define the mapping between facial expressions and emotions [19]. On one hand there are researchers who try to map facial expressions directly into specific emotions (message judgment). On the other hand some researchers decompose and encode each facial expression prior to any interpretation of the emotion (sign vehicle). A. Message Judgment Researches that follow this approach try to make a direct mapping from facial expressions to emotions building up a classifier of the face image. When classifying facial expressions into a set of categories related to mental and emotional activities, the information provided by an expert team is usually taken as basis. Most of the studies try to classify each facial expression in terms of the Universal emotion set defined by Ekman and Friesen [18]. This is the simplest approach, which makes it easier to develop, and less computationally demanding. It also has its drawbacks. It is difficult to extend, because to recognize any new emotion it is necessary to characterize all the possible facial expressions from the root, not reusing the work previously done with the emotions considered before. It is too rigid, since the facial expression is considered as a whole, not taking into account asymmetric changes in the face or subtle changes in specific sections of the face. B. Sign Vehicle Researches following this approach try to encode a facial expression into its constituent elements before trying to interpret it, mapping it into an emotion. To accomplish this task it is necessary to develop a coding system able to describe every visually perceptible and anatomically feasible change in the face that a human being can produce. Among the different coding systems defined in the literature [20], the most used are the Facial Action Coding System (FACS), defined by P. Ekman and W. Friesen and the Facial Action Parameters (FAPS), which is part of the MPEG-4 standard. Both coding systems will be described later. 330

344 4 Having a language able to specify every change on each facial feature makes easier to deal with them. Using a language to describe facial changes is easier for experts in emotions to point out which facial changes compose each specific facial expression, and helps more accurate descriptions. Moreover, having an application able to recognize different feasible facial changes, instead of facial expressions, helps upgrading it with more facial expression, which could be formed by some facial changes already recognizable by the system. C. Reliability of Ground Truth Coding It is essential to have reliable data for both classifier creation and testing purposes. In this particular case, a video or picture database is required. But those media must be correctly labelled with the right emotion shown on it, otherwise they are useless. This labelling is done manually, usually by more than one person, because of the large amount of media files. Since facial expression interpretation is something subjective, and evaluator dependant, obtaining an objective and regular labelling is difficult. To reduce the subjective ness to its minimum, it is mandatory to define a set of rules to guide the recognition of each facial expression. Those rules are defined by psychologists or by experts on emotions (e.g. FACS, explained later). There are several facial expression databases, some of them freely accessible for research purposes. Among them, the Cohn-Kanade AU-Coded Facial Expression Database, is the most widely used. At the moment contains video recordings of the facial behavior of 210 adults who are 18 to 50 years old; 69% female and 31% male; and 81% Caucasian, 13% African, and 6% other groups. All image sequences have been FACS coded by certified Facial Action Coding System (FACS) coders for either the entire sequence or target Action Unions (AUs). Approximately 15% of these sequences were coded by two independent certified FACS coders to validate the accuracy of the coding. The first portion of the database DFAT-504 has been prepared for computer vision research. This database is active and still growing. The PIE (Pose, Illumination and Expression) Database developed by the Human ID Group at the Carnegie Mellon University is formed by a set of images of 68 people. This pictures show each person under 13 different poses, 43 different illumination conditions, and with 4 different expressions. The project was closed in 2000, but the database can still be obtained. The Vision and Autonomous Systems Center's Image Database gathers several picture databases sorted by specific areas. Some face and facial expression databases can be found there. The PIE database is also included in this database. The FERET Database is also an important source for testing. Now this database includes both color and greyscale images of facial expressions. The last update of the database was in 2004 but this database can still be obtained. The AR Face Database from the Computer Vision Center (CVC) at the U.A.B contains pictures from 126 different people, 70 men and 56 women, counting 4000 color images, showing different facial expressions, taken under different illumination conditions and with oclussions. There are 2 sessions for each person, and they took place in 2 different days, separated by two weeks (14 days). 331

345 5 These are, in our opinion, the most important databases, but there are more databases like the FEEDTUM database or the JAFFE database. III. AUTOMATIC FACIAL EXPRESSION ANALYSIS Most of the existing literature on the area distinguishes the following steps in the recognition of facial expressions and the ensuing emotional state estimation: Face localization on the image. Facial feature vector extraction and representation. Facial expression recognition. Facial expression interpretation or emotion recognition. Face localization Facial feature vector extraction Facial expression recognition Emotion recognition Figure 1. Processing pipeline of facial expression recognition Indeed, these are the most sensible steps to follow, according to the usual decomposition of any artificial vision application. In spite of it, there are exceptions, which don t follow all the steps in figure 1, like [21, 22]. Next, each computational step is explored thoroughly. But, first we will start summarizing the final goal of these researches. A. Ideal system According to [3], an ideal face expression recognition system should have these general characteristics: 1. Automatic facial image acquisition. 2. Subjects of any age, ethnicity and appearance 3. Robust to variation in lightning. 4. Robust to partially occluded faces 5. No special markers/make-up required 6. Deals with rigid head motions 7. Automatic face detection. 8. Automatic facial expression data extraction. 9. Deals with inaccurate facial expression data. 10. Automatic facial expression classification. 11. Distinguishes all possible expressions. 12. Deals with unilateral facial changes. 13. Obeys anatomical rules. Basically, it should be a robust system able to cope with different environmental conditions, subjects, partial facial occlusions (beards, glasses, hair ). It should be able to deal with subjects at different positions, and orientations from the capturing devices view. 332

346 6 Moreover, it should be a precise and completely automatic process, able to recognize every facial expression that a human being can produce. Another desirable characteristic would be to have and adequate response time, which means a real-time behaviour for most of the applications. A final characteristic, that would also be very useful, would be to develop systems that could be incorporated to more complex systems, like multimodal emotion recognition systems, as it is described in [23], [4], [7]. After giving a global view of the desirable characteristics, the next step is to describe which of them have been satisfied, and which of them haven t by the systems found in the literature B. Face Localization The face localization task involves detecting every face in the scene, obtaining its position and delimiting its area in some way. The proposed methods should be independent of the position, size, rotation angle, partial occlusions, and illumination of the face. In some cases the result of the process is the bounding rectangle of the face, like in [24], while in others a silhouette or a blob representing the face is obtained, like in [8], [25]. There are also 3D approaches which obtain not only the tri-dimensional position of the face, but also its 3D orientation in the scene, like [26], [27]. In some implementations, face localization is simplified or even omitted, assuming the existence of a face in the image, with a specific position and orientation. It must be taken into account that the available computer power is one of the limitations when developing this kind of systems. That forces researchers to make simplifications under some circ*mstances, even when more sophisticated methods would produce better results. In any case, facial expression recognition can not be understood without the localization of the faces in the scene, and the use of robust procedures for that purpose. Otherwise the rest of the procedure is affected negatively by the lack of that information. Some face localization algorithms take into account colour information [28, 29]. Others are focused on locating eyes and other face specific characteristics [24, 30]. There are also methods that use motion information. A very popular system uses Haar wavelets and Adaboost [24] which offer good performance at a reasonable computational cost. Anyway, face detection is itself a research area, with partial solutions, although due to the difficulty of the task, the problem has not been solved yet at a feasible computational cost. There are still difficulties due to different lighting conditions, occlusions, picture size and robustness. For a complete review on face detection look at [31, 32]. These web sites also offer recent information about face localization and tracking [33], [34] y [35]. C. Facial Feature Vector Extraction and Representation. Facial feature extraction is usually the most difficult step in the facial expression recognition process, and most computationally demanding in some approaches. It consists on obtaining the most significant information of a face to recognize the facial expression shown. The procedures implemented can roughly be categorized into feature-based, imagebased, and model-based methods. In the feature-based methods, the shapes and locations of some facial features (e.g. eyebrows, eyes, nose, and mouth) are extracted to form the expression feature vectors. Usually the feature vector is a set of 2D or 3D points describing 333

347 7 each detected facial feature. In the image-based methods, some holistic and local spatial analyses are applied to recognize the facial expression. In the model-based methods, a statistical model is constructed from training images and used to recognize the facial expressions. Another classification is proposed in this paper, more suitable to discriminate between real applications, since different procedures are focused on specific end purposes. On one hand we distinguish still image based methods and in the other hand video sequence based methods. Holistic Still image -PCA [36, 37] -Edges -Colour [38] -Gabor wavelet [39-42] Video based -PCA [51] -2D Discrete Cosine Transform (DCT)[52] -Optical Flow [30, 53-55] -Image difference [56] Table 1: Common computational techniques for feature extraction Local -Active Contours [43-45] -Blobs [46] -Colour [44, 47] -Edges [44] -Gabor wavelet [48] -Local PCA [48] -Template [40, 49, 50] -Local PCA [57] -Local Optical Flow -Active Contours [47] a. Still image based methods Still image methods work on single images. If applied to a video sequence, each frame is treated independently. In general, they are less computationally demanding than video sequence methods which process several images to obtain temporal information. These methods use the spatial localization of some facial features and the existence of furrows to recognize a facial expression [36, 37, 40, 58]. In most of cases the eyebrows and the mouth are tracked. In order to recognize a facial expression using feature-based methods there are two different approaches. On one hand some researchers try to recognize a facial expression taking into account the absolute position of the facial features. This approach is neither very robust nor precise, because different people have different face proportions. On the other hand, most of the researchers try to obtain the position of facial features relative to a reference expressionless face image. They take a neutral expression picture of a person and obtain the position of the facial features. Each new picture is compared with the reference one by checking the difference in the position of the facial features in both pictures. In most of the cases, facial appearance changes due to facial expressions produce strong gradients in the spatial domain, furrows. Therefore, edge detection algorithms have been broadly used in the literature, and image-based methods to try to recognize them [11]. Colour information can also be useful to recognize certain facial features, as well as shape information. 334

348 8 However, edge detection algorithms show poor performance when trying to segment some facial features. The mouth, and more precisely the lower lip, and the chin don t contain easily detectable edges. These are the most common techniques used by the still image based methods: Colour information analysis: Suitable to recognize most of the facial features, but usually highly illumination sensitive. Nonetheless, it is one of the best choices for facial features like the mouth. Usually employed in conjunction with machine learning algorithms, to obtain colour models. [44, 47, 59] Edges: Edge information is also suitable for most of the facial features. Unfortunately, skin furrows are present in most of people s faces. And they are also more prominent in some people than others, making more difficult to distinguish between facial feature edges and those furrows. Usually employed with machine learning algorithms. [58]. Snakes offer good results like in [43] and [60]. Snakes are deformable curves, which are fitted to specific features, like borders with strong gradient (e.g. eyelids). Snake fitting is performed minimizing an energy function that models the attraction of the snake to the strong gradient regions of the image. 2D and 3D face models: Facilitate facial feature detection adding constrainsts. They also help to avoid non feasible facial feature localizations. On the other side, they are difficult to develop and in most of cases they are also too rigid. The Candide 3D face model [61] and the Active Appearance Models (AAM) [10, 62, 63] are examples of these models. b. Video sequence based methods Video based methods use motion information to recognize facial expressions [55]. It is necessary to distinguish between facial feature motion and head motion, which is a noise source. Therefore a filtering process is required to isolate facial feature motion from the whole face motion. Many Computer Vision techniques have been used to recognize the motion produced by facial expressions. In some works image substraction, the simplest way of motion detection, is used, but it offers poor results. Consequently most works in the literature apply more sophisticated methods of motion detection and modelling like computing the Optical Flow [53, 55] or tracking algorithms like the Kalman Filter, Particle Filtering [59], and others [64]. The use of the Optical Flow offers potential for a significant improvement, besides of obtaining the motion intensity, it is also possible to obtain the motion direction for each image point. This can be useful, for example, to isolate head motion from facial feature motion, or to filter unfeasible motions, taking into account only anatomically possible motions. Unfortunately Optical Flow requires a lot of computing process. Therefore, it is only used locally, around the facial features which are more significant for facial expression analysis. 335

349 9 Motion Templates proposed in [65] doesn t provide promising results. Motion models offer better results as in can be seen in [55] and [66]. These kinds of models try to recognize a temporal representation of a facial expression, from a neutral facial expression to the peak of the new facial expression and back to the neutral state. This method deals with the motion generated around facial features during a facial expression. Another kind of algorithms, which consider motion and try to predict the position of a point in the next time instant, are tracking algorithms. This algorithms focus on a set of facial feature points, which concentrate the information of the most important facial features for facial expression recognition. There are several algorithms of this kind, like the Kalman filter, which has been used in [57, 67], and the Condensation algorithm [68]. Video based algorithms usually have high computational requirements, thus simplifications are imposed in many cases. Local approaches try to reduce to the minimum the regions of interest by means of still image based methods. And holistic methods try to use the smallest image size and minimum number of color channels that maintain the recognition performace sought. A simplification of the recognition and processing problem, which has been widely used as a first approach to the problem, consists on employing markers directly on subjects faces, to facilitate facial feature tracking. These markers are dots or lines, drawn on the subject s face, using specific colours and in specific localizations, to make it easier to track facial features. The main critics on the mentioned computational methods are the following: Optical Flow: This technique requires a high computer cost, but it offers a lot information, the direction and intensity of motion. It also requires filtering between rigid facial movements and facial feature motion. And it can be analyzed both locally or holistically, but it is usually locally done. Kalman filter: This point tracking algorithm can obtain good results, but it has problems with rapid motion, and requires the tracked points to be easily distinguishable from the surrounding points. They require a correction procedure to be performed periodically, to recover from the accumulated tracking error. Motion templates: Require less computer power than Optical flow and consider specific motions, like opening of the mouth as a whole, in contrast to Optical Flow. Unfortunately, those templates are usually person specific, and quite rigid. c. Local versus Holistic Approaches When analyzing facial expressions, there are two different approaches: Holistic and local. On one hand the holistic approaches process the face as a whole, and on the other hand the local approaches process it locally, focusing on each element of the facial features set. 336

350 10 The former facilitates the recognition of the dominant facial expression, while the the local ones are able to recognize subtle changes in small areas of the face. Some authors [69] come to the conclusion that there is not any significant improvement of the holistic approach over the the local approach. In both cases, two kind of facial features can be distinguished: Stationary facial features: those facial features which are allways visible in the face, but can show deformations due to facial expressions. Among them, eyelids, eyebrows, eyes and mouth are closely related to facial expressions. Skin furrows and the facial skin texture are also considered stationary facial features. Transient facial features: the wrinkles and lumps which appear in the face when showing a facial expression but disappear as soon as the face turns into its neutral facial expression. Most of them are shown in the forehead and around eyes and mouth. d. Image versus Model-based Approaches Image based methods don t make many assumptions on the a priori knowledge about the object of interest. Even when these kinds of methods are usually fast and simple, they are neither very reliable nor robust, especially when dealing with more than one different views of the same object of interest, because of the matching difficulties between the different views of the same object. However, the most appropiate approach would consist on the use of 2D and 3D face models, to represent them [62, 70-73]. The former are simpler and faster in general, but they neither provide as much precision as the 3D models nor are able to cope with out of the plane motion and rotations. Unfortunately, 2D and 3D models require a lot of computing power, due to their complexity. There are two important factors to consider defining a 3D model: The complexity of the model, given by the vertex number, and the flexibility of each vertex. More vertex points create better models but, having into account that 3D models are usually hand crafted, and that more vertices imply more computational cost, choosing the best vertex number requires a compromise between precision and efficiency. An excessive flexibility for each vertex increases the computational cost and lets bigger deformations, and too low flexibility doesn t permit to achieve an ideal adaptation of the model to the face. The Active Appearance Models (AAM) [74] and Active Shape Models (ASM) [75] have been used by many researchers. These are well known 2D or 3D parametric models, and can represent both the shape and the appearance of non-rigid objects, such as a face. There are extensions to the AAM s like the stereo Active Appearance Model (STAAM) [10], which uses a geometric relationship between two tightly coupled views to speed up the model fitting process. A last consideration to be made is that dealing with facial movements in a higher level than the vertex level, like defining muscles in the model makes the facial expression recognition task easier, since it is easier to define restrictions on anatomically possible facial motions. 337

351 11 D. Facial expression features for classification The facial expression recognition process is a classification process. Usually classifiers are built to accept as input a feature vector computed from the raw input data (the images or the video sequence). Whether the facial expression recognition is performed based on the image or on the encoding of facial features, in both cases classifiers can be based in either spatial or spatiotemporal features a. Spatiotemporal Classification Features Among the different spatiotemporal classifiers, Hidden Markov Models (HMM) are widely used, since they permit to model the facial expression dynamics along time. There are many examples of HMM applied to facial expression recognition in the literature [46, 54, 76, 77]. And in general they have been used with motion analysis methods. Recurrent Neural Networks have also been used as an alternative to HMM, for facial expression classification [78, 79]. Another way to consider the temporal evolution of facial expressions consists on using motion-energy templates. In this approach the Euclidean distance can be used to determine the prominent facial expression [80]. b. Spatial Classification Features The use of Neural Networks is broadly documented in the literature, using the original pictures as input like in [21] and [74, 81], or using techniques like Principal Component Analysis (PCA) [82], Independent Component Analysis (ICA) and Gabor filters [41, 83], as a pre-processing step to reduce the data dimensionality, improve efficiency and accuracy [84]. Although Neural Networks have been used both in holistic and local approaches, most of the authors point out that local approaches obtain better results. Neural Networks also have their drawbacks. They are difficult to tune, due to the big number of parameters. They require a long training period too, especially when using a Sign Approach, because it implies developing a Neural Network able to recognize all the Action Unit combinations defined in FACS, or all the Action Parameters combinations defined in FAPS. That implies a combinatorial explosion of classifiers, while the straight classification of the image into emotions (message approach) needs only to perform the classification into the 6 universal emotion categories. Support Vector Machines (SVM) are being used widely, and they achieve good results [53, 61]. According to [85], the combination of AdaBoost with SVM improves the results obtained with other classifiers. And more recently, a variation of the SVM called Relevance Vector Machines (RVM) has shown promising results, since it produces similar results to SVM but with less computational and memory requirements [86]. E. Facial Expression Recognition 338

352 12 In the beginnings of facial expression recognition researches, each research group developed the rules and conditions to recognize each of the facial expressions separately. That added another task to the research process, and the works from different research groups were made incomparable. Since the creation of facial expression coding systems, by psychology and standardisation associations, and thanks to its acceptation by most of the research community, there are some de facto standards to decompose, analyse and recognise facial expressions. There are two coding systems, which are used usually, FACS (Facial Action Coding System) and FAPS (Facial Animation Parameters). Facial Action Coding System (FACS) [87, 88] is a facial expression coding system, based on facial muscles. FACS originally defined by Paul Ekman and W. Friesen as a tool to study facial expressions objectively, in a psychological context. FACS decomposes a facial expression into a set of Action Units (AU), each of them representing a unique and specific movement of a muscle or a muscle group together. FACS defines more than 40 of these Action Units. There is a FACS coder certificate which proves that a person is able to manually code facial expressions objectively according to FACS. Those official FACS coders perform manual and offline FACS coding of different subject sessions, related to different studies on emotions. And it is a procedure that requires a lot of time. Alternatively, Facial Animation Parameters (FAPS) [89, 90] is a coding system focused in describing the different kinds of movements that each facial feature can have. It is part of the MPEG-4 standard, and its main purpose is to describe facial animations for animated characters. FAPS splits a facial expression into a set of facial feature movements, or Facial Animation Parameter (FAP). FAPS defines more than 60 different actions. A relevant difference with FACS is that FAPS defines the normalized movement of the facial features in a defined direction. All FAPs involving translational movement are expressed in terms of FAP Units (FAPUs). FAPUs correspond to fractions of distances between key facial features. For instance [91] or more recently [45, 92] use this coding system. F. Facial Expression Interpretation, Emotion Recognition There are some examples in the literature which try to map the recognized facial expressions directly into Ekman s basic or universal emotions. But in most of the researches a facial expression coding and decomposing system (e.g. FACS or FAPS) is used as a previous step in emotion recognition [45]. This previous step permits a more precise and objective facial expression analysis and, therefore, better emotion recognition. Ekman also defined which Action Units from FACS form each of his 6 basic emotions, and how they are added. Therefore, it is enough to have an expert system given by a set of rules to recognize each of the 6 universal emotions, when using FACS. Nevertheless, many researches using FACS have developed classifiers which classify a set of Action Units into one of the universal emotions or a neutral face. In the case of FAPS, there are some expert systems too. Even though, most of the researches use classifiers. And the rest of the coding systems based researches also make use of them. 339

353 13 III. REPRESENTATIVE FACIAL EXPRESSION RECOGNITION SYSTEMS In this section we present some facial expression and emotion recognition systems that we consider interesting and representative of each category explained previously in this document. At this moment we don t know about any system able to achieve the ideal and desirable characteristic mentioned in the beginning of this article, for a facial expression recognition system. Fortunately there are several researchers working in the right direction. A. Still image based Systems The article in [93] has been selected as an example of a still image based approach. This article was presented in 2005, on the Special Issue of the Neural Networks journal. The article reports a 78 % of recognition rate. In contrast to most of the literature, this paper doesn t use the typical classification within Ekman s 6 basic emotions. Instead, it uses a quadrant of emotion s wheel, an activation-emotion classification space. The activation parameter is added to the 6 basic emotion set. Figure 2. Quadrant of emotion s wheel. Face localization is performed using non-parametric discriminant analysis with a Support Vector Machine (SVM), obtaining the bounding rectangle of the face. SVM provide satisfactory results with less computational cost than other solutions. Then, the rectangle is segmented roughly using static anthropometric rules into three overlapping rectangle regions of interest which include both facial features and facial background; these three feature-candidate areas include the left eye/eyebrow, the right eye/eyebrow and the mouth. Then, the feature extraction procedure is initiated on each region, increasing the efficiency. First of all eyes are located using a feed-forward back propagation neural network with a sigmoidal activation function. The localization of the detected eyes is used to restore the roll rotation of the face to an upright position, so the rest of feature recognition can be performed. Most of systems don t have feature extraction problems related to roll rotation, at least when it is less than 30º, but we consider that pitch rotation is usual as well, and its negative effects for feature extraction are worse. Posterior eye position detection refinements include a modified Canny algorithm and a region-growing technique, obtaining a robust procedure. 340

354 14 Eyebrows are detected using morphological edge detection. Nose detection is based on nostril localization. Nostrils are easy to detect due to their low intensity. Mouth detection is performed using three different procedures: a neural network, similar to the one used for eye detection, horizontal morphological gradient and thresholding. This paper uses a Sign Vehicle approach, and employs the MPEG-4 FAPS coding system. After obtaining the representative points for each facial feature, facial muscle movements are obtained and translated to FAPs. A neurofuzzy network is trained and employed for the classification among the quadrant of emotion s wheel. B. Video based Systems We have taken the article in [54] as an example of a video based system. This journal article has been published in 2006 in IEEE Transactions on Multimedia. In the research covered by this paper the main purpose is to recognize Ekman s 6 basic emotions. And they report 90.9 % of average recognition rate on Cohn-Kanade facial expressions database. Face localization is performed by means of a Neural Network based approach, combined with a tracking algorithm. Then, the face region image is pre-processed, to normalize its size and reduce environmental dependence. It is usually advisable to do a pre-processing to reduce lighting s negative effects. After that, Optical Flow is computed between consecutive frames of the sequence. After that, the dimensionality of the Optical Flow is reduced, so that only the most important information is kept, using PCA. It should be pointed out that the way the Optical Flow if processed for both noise reduction and feature vector size reduction in the same step is very clever. Next, the projected motion patterns are fed to a bank of linear classifiers to assign class labels from the set of universal expressions to each image of the sequence. The output of linear classifiers over sequence of images is coalesced together to form a temporal signature. Then, the temporal signature generated is used to learn the underlying model of six universal facial expressions. Discrete HMMs are used in learning the models for facial expressions. Finally, recognized facial expression is mapped to compute levels of interest based on 3-D affect spaces. This is a holistic approach; therefore it has difficulties on distinguishing the little nuances of certain facial features, and also with asymmetric facial changes and unilateral changes. In spite of it, the refinements introduced in the procedure produce a robust and precise system. It is also a Message Judgement based system; consequently it is harder to add more recognizable emotions, since it would require redoing all the training procedure. C. Multimodal Frameworks We have chosen the paper [1], published in 2006, which reports an average combined recognition rate of 90%. It uses voice and facial appearance as input information. In this paper the objective is not only to recognize Ekman s 6 universal emotions, but also to recognize some cognitive/motivational states. Those are interest, boredom, 341

355 15 confusion and frustration. The neutral state has been considered too, counting 11 different affective states. This is an interesting improvement since it increases the possible applications of the developed system. The audio feature extraction is based on three kinds of prosody features for recognition. The logarithm of energy, the syllable rate, and two pitch candidates together with their corresponding scores. Pitch extraction is performed using an autocorrelation based pitch detector, to extract two candidates of pitch frequency. The autocorrelation function is the correlation of a waveform with itself by delaying some time lag. The face tracker uses a model-based approach. A 3D wireframe model formed by 16 Bezier volumes is constructed. It is adapted to the face manually, by means of interactively selecting some landmark facial features such as the eye and mouth corners. After the manual fitting has been performed, the model is able to track the head motion and the local deformations of facial features like the eyebrows eyelids, and mouth, but the need of a completely manual calibration to start the face tracking is an important disadvantage. Moreover, the system doesn t really perform any face detection procedure. The tracking procedure employs 2D motion information obtained from the image to estimate the 3D motion of the facial features, by solving an over determined system of equations of the projective motions in the least squared sense. The recovered motions are represented in terms of magnitudes of some predefined motions of various facial features. Each feature motion corresponds to a simple deformation on the face, defined in terms of the Bezier volume control parameters. The obtained values represent the activation of a facial region, a direction and the intensity of the motion. In contrast, motion information is usually filtered to remove noise, so in the presence of a slow or fast enough facial expression change, it could not be recognized, the tracking algorithm would fail, and the system would not be able to recover. The features extracted from audio and visual inputs are used to feed the next classifying stage. The most innovative characteristic of this system is the way the information of both sources is combined, through this classifying stage. A Bayesian Network is used for that purpose, to merge the information from both sources at earlier steps than previous researches, which used to make the fusion after each channel s information had been classified into an emotion category. The top node of the topology is the class variable (recognized emotional expression). It is affected by the recognized facial expressions, the recognized vocal expressions, and by the context in which the system operates (if that is available). Vocal emotions are recognized from audio features extracted from the person s audio track. Facial expressions are recognized by facial features tracked using video, but the recognition is also affected by a variable that indicates whether the person is speaking or not. Recognizing whether a person is speaking uses both visual cues (mouth motion) and audio features. The parameters of the proposed network are learned from data. This approach is quite robust to noise and incomplete information. IV. CONCLUSION From our experience, and recent researches trend, we consider that the most suitable approach to deal with emotion recognition based on facial expression analysis should have these characteristics. 342

356 16 It should use a video based approach, because facial expressions always involve motion, and their subtle changes can not be recognized otherwise. This choice reduces the application areas, but it worths for the performance improvement obtained. It should use a 3D model of the face, and a feature based approach, where each facial feature is determined by a set of vertex in the 3D face model. The eyebrows, the eyes, the nose, the mouth and the chin should at least be tracked. The head silhouette or at least the face bounding itself should be modelled, and the orientation and position of the face should be tracked. This information can be used to improve the facial feature tracking procedure, and to be used as an additional information source to recognize emotions. Regardless of the facial feature tracking procedure followed, feature based tracking can not recognize every subtle facial expression change. Therefore, optical flow or any other motion recognition procedure should be used locally in the surroundings of each facial feature, in order to recognize them. Taking into account that facial expressions produce motion and they are finite and usually short in time, spatiotemporal classifiers are better fitted to them, like the Hidden Markov Models. Finally, a Sign Vehicle based approach has many advantages, such as being easier to grow in complexity, adding more emotions or mental states, or easier to improve, since they can be done locally for each recognizable facial action (AU or FAP, depending on if we use FACS or FAPS). In this article we have tried to illustrate the actual state of the research on emotion recognition based on facial expression analysis. We have first introduced the problem, the possible applications and the facial expression themselves. Then we have tried to show the different approaches followed by the research groups, and the partial solutions to the different steps of this procedure. And finally we have shown some examples of different systems. At this moment, the developed systems are able to meet these characteristics from those of an ideal system. Facial image acquisition is completely automatic. When dealing with every kind of people, most of the systems have recognition difficulties with particular ethnic groups (colour based techniques), babies (less texture), elder people (furrows). In spite of it, there are some systems able to couple with almost every kind of subject. Lighting is still a problem, but most of systems are able to perform well if there is enough ambient light, no matter its origin (fluorescent, daylight, incandescent, ). Occlusions have been successfully addressed by many researches, achieving good recognition results even under the presence of occlusions, unless they occlude necessary information, like the whole mouth or both eyes. Special markers or make-up are hardly employed now, except in very specific researches, as it is not feasible to use them on real environments. Rigid head motion is taken into account by the most of actual researches, especially those based on video with positive results. Actual face localization algorithms offer good results, although the precision and reliability of the recognized face can be improved. Facial expression data extraction must be automatic and it is one of the requirements for every developed system. Since the information extracted from the face usually has some kind of errors, it is compulsory to deal with inaccurate facial expression data. Facial expression classification if completely automatic for every system, but they are only able to classify them into a reduced set of them in the most of cases. Therefore, they are not able to recognize every anatomically feasible facial expression. In order to deal with occlusion problems, systems are usually able to recognize unilateral facial changes. And finally, the most 343

357 17 of researches following model based approaches are able to recognize and filter only anatomically possible facial expressions. To end with, there is still plenty of work to do, and much more computer power is required for a complete and reliable system, but the work done shows promising results. V.REFERENCES 1. Sebe, N., et al. Emotion Recognition Based on Joint Visual and Audio Cues. in 18th International Conference on Pattern Recognition McIntyre, G. and R. Göcke, Towards Affective Sensing, in 12th International Conference on Human-Computer Interaction. : China. 3. Maja Pantic, L.J.M.R., Automatic Analysis of Facial Expressions: The State of the Art. IEEE Transactions on Pattern Analysis and Machine Intelligence, (12): p Alejandro Jaimes, N.S., Multimodal Human Computer Interaction: A Survey, in IEEE International Workshop on Human Computer Interaction in conjunction with ICCV : Beijing, China. 5. Picard, R.W., Affective Computing. MIT Press Fadi Dornaika, F.D., Facial Expression Recognition using Auto-regressive Models, in Pattern Recognition, ICPR th International Conference on L.S. Chen, T.S.H., T. Miyasato, R. Nakatsu Multimodal human emotion / expression recognition. in Proceedings of The International Conference on Automatic Face and Gesture Recognition Nara, Japan: IEEE Computer Society. 8. Xiaozhou Wei, Z.Z., Lijun Yin, Qiang Ji. A Real Time Face Tracking And Animation System. in Proceedings of the 2004 Conference on Computer Vision and Pattern Recognition Workshop. 2004: IEEE Computer Society. 9. Trujillo, L., et al. Automatic Feature Localization in Thermal Images for Facial Expression Recognition. in Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Jaewon, S., L. Sangjae, and K. Daijin. A Real-Time Facial Expression Recognition using the STAAM. in 18th International Conference on Pattern Recognition B. Fasel, J.L., Automatic Facial Expression Analysis: A Survey. Pattern Recognition, (1): p Ekman, P., Emotions Revealed. 2004: Phoenix Press; New Ed edition (June 3, 2004) Ekman, P. and R. Davidson, The Nature of Emotion: Fundamental Questions. 1994, New York: Oxford University Press. 14. Ekman, P., Facial Expressions of Emotion: An Old Controversy and New Findings. Philosophical Transactions: Biological Sciences, (1273): p Ekman, P., Facial expression and emotion. American Psychologist, (4): p Ekman, P., Asymmetry in Facial Expression. Science, (4458): p Ekman, P., Emotions Inside Out: 130 Years after Darwin's The Expression of the Emotions in Man and Animals. Annals of the New York Academy of Sciences, : p P. Ekman, W.F., Constants Across Cultures in the Face and Emotion. Journal of Personality, (2): p Ekman, P., Emotions in the Human Face. Cambridge University Press, K. R. Scherer, P.E., Handbook of Methods in Non-Verbal Behavior Research. 1982, Cambridge, U.K.: Cambridge University Press. 344

358 C. L. Lisetti, D.E.R. Facial Expression Recognition using a Neural Network. in Proceedings of the 11th International Flairs Conference. 1998: American Association for Artificial Intelligence (AAI) Press. 22. W. A. Fellenz, J.G.T., N. Tsapatsoulis, S. Kollias. Comparing Template-based, Feature-based and Supervised Classifictation of Facial Expressions from Static Images. in Proceedings of Circuits, Systems, Communications and Computers Carlos Busso, Z.D., Serdar Yildirim, Murtaza Bulut, Chul Min Lee, Abe Kazemzadeh, Sungbok Lee, Ulrich Neumann, Shrikanth Narayanan. Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information. in Proceedings of the 6th international conference on Multimodal interfaces 2004: ACM Press. 24. Paul Viola, M.J.J., Robust Real-Time Face Detection. International Journal of Computer Vision, (2): p Seow M.J., G.R., Valaparla D., Asari K.V.. A Robust Skin Color Based Face Detection Algorithm. in International Conference on Information Technology: Coding and Computing, Proceedings. ITCC Zhiwei Zhu, Q.J. Real Time 3D Face Pose Tracking From an Uncalibrated Camera. in Proceedings of the 2004 Conference on Computer Vision and Pattern Recognition Workshop. 2004: IEEE Computer Society. 27. Dornaika, F. and F. Davoine On Appearance Based Face and Facial Action Tracking. IEEE Transactions on Circuits and Systems for Video Technology (9): p Tae-Woong Yoo and I.-S. Oh, A fast algorithm for tracking human faces based on chromatic histograms. Pattern Recognition. Letters., (10): p Stern, H. and B. Efros. Adaptive color space switching for face tracking in multicolored lighting environments. in Proceedings of the Fifth IEEE International Conference on Automatic Face and Gesture Recognition Guo, S.M., et al. A Key Frame Selection-Based Facial Expression Recognition System. in First International Conference on Innovative Computing, Information and Control Erik, H. and L.B. Kee, Face Detection: A Survey. Computer Vision and Image Understanding, (3): p Yang, M.-H., Detecting Faces in Images: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence (1): p Gorodnichy, D. (Vision-based) Face Tracking [cited /12/04]; Available from: Frischholz, D.R. The Face Detection Homepage [cited 01/08/]; Available from: Narendra Ahuja's, G. Resources for Face Detection /08/22 [cited /12/04]; Available from: Dubussion S., Devoine F., and M. M., A solution for facial expression representation and recognition. Signal Processing: Image Communication, (9): p Calder A.J., Burton A.M., and M. P., A principal component analysis of facial expressions. Vision Research, 2001(14): p Kakumanu, P. and N. Bourbakis. A Local-Global Graph Approach for Facial Expression Recognition. in 18th IEEE International Conference on Tools with Artificial Intelligence Marian Stewart Bartlett, G.L., Ian Fasel, Javier R. Movellan, Real Time Face Detection and Facial Expression Recognition: Development and Applications to Human Computer Interaction., in IEEE International Conference on Computer Vision and Pattern Recognition

359 Zhan, Y.-z., et al. Facial expression recognition based on Gabor wavelet transformation and elastic templates matching. in Proceedings of the Third International Conference on Image and Graphics Loh, M.-P., Y.-P. Wong, and C.-O. Wong. Facial Expression Recognition for E- learning Systems using Gabor Wavelet & Neural Network. in Proceedings of the Sixth IEEE International Conference on Advanced Learning Technologies WeiFeng, L. and W. ZengFu. Facial Expression Recognition Based on Fusion of Multiple Gabor Features. in Proceedings of the 18th International Conference on Pattern Recognition Shafik Huq, B.A., Ardeshir Goshtasby, and Mongi Abidi. Stereo Matching with Energy Minimizing Snake Grid for 3D Face Modeling. in Biometric Technology for Human Identification Wakasugi, T., M. Nishiura, and K. f*ckui. Robust lip contour extraction using separability of multi-dimensional distributions. in Sixth IEEE International Conference on Automatic Face and Gesture Recognition, Proceedings Aleksic, P.S. and A.K. Katsaggelos, Automatic facial expression recognition using facial animation parameters and multistream HMMs. IEEE Transactions on Information Forensics and Security (1): p N. Oliver, A.P., F. Berard, LAFTER: A Real-Time Lips and Face Tracker with Facial Expression Recognition. Pattern Recognition, : p Moghaddam, M.K. and R. Safabakhsh. TASOM-based lip tracking using the color and geometry of the face. in Proceedings of the Fourth International Conference on Machine Learning and Applications Neeharika, G. and A. Vijayan. Gabor Wavelet Based Modular PCA Approach for Expression and Illumination Invariant Face Recognition. in Proceedings of the 35th Applied Imagery and Pattern Recognition Workshop Denis Leimberg, M.V.-C., Eye Tracking, in LYNGBY. 2005, Technical University of Denmark. 50. Eamonn Boyle, B.U., Derek Molloy, Noel Murphy, Using Facial Features Extraction to Enhance the creation of 3D Human Models, in 6th International Workshop on Image Analysis for Multimedia Interactive Services. 2005: Montreux, Switzerland. 51. James Jenn-Jier Lien, T.K., Jeffrey F. Cohn, Ching-Chung Li. Subtly Different Facial Expression Recognition And Expression Intensity Estimation. in IEEE Conference on Computer Vison and Pattern Recogntion Wallhoff, F., et al. Efficient Recognition of Authentic Dynamic Facial Expressions on the Feedtum Database. in IEEE International Conference on Multimedia and Expo Anderson, K. and P.W. McOwan, A real-time automated system for the recognition of human facial expressions. IEEE Transactions on Systems, Man and Cybernetics, Part B (1): p Yeasin, M., B. Bullot, and R. Sharma, Recognition of facial expressions and measurement of levels of interest from video. Multimedia, IEEE Transactions on, (3): p Y. Yacoob, L.S.D., Recognizing Human Facial Expression from Long Image Sequences using Optical Flow. IEEE Transactions on Pattern Analysis and Machine Intelligence, (6): p Shinjiro Kawato, N.T., Detection and tracking of eyes for gaze-camera control, in Image and Vision Computing p D. Datcu, L.J.M.R., Automatic recognition of facial expressions using Bayesian Belief Networks, in Systems, Man and Cybernetics, 2004 IEEE International Conference on

360 Matsugu M., et al., Subject independent facial expression recognition with robust face detection using a convolutional neural network. Neural Networks, (5-6): p Patras, I. and M. Pantic, Particle Filtering with Factorized Likelihoods for Tracking Facial Features, in Automatic Face and Gesture Recognition, Proceedings. Sixth IEEE International Conference on D.Terzopoulos, K.W. Analysis of Facial Images using Physical and Anatomical Models. in Proceedings of the Third International Conference on Computer Vision Kotsia, I. and I. Pitas, Facial Expression Recognition in Image Sequences Using Geometric Deformation Features and Support Vector Machines. Image Processing, IEEE Transactions on,. 16(1): p R. Gross, I.M., S. Baker, Generic vs. person specific active appearance models. Image and Vision Computing, (11): p Gross R., M.I., Baker S., Constructing and Fitting Active Appearance Models With Occlusion, in Computer Vision and Pattern Recognition Workshop, 2004 Conference on F. Dornaika, F.D., On Appearance Based Face and Facial Action Tracking. Circuits and Systems for Video Technology, IEEE Transactions on, (9): p Marco La Cascia, L.V., Stan Sclaroff. Fully automatic, real-time detection of facial gestures from generic video. in IEEE 6th Workshop on Multimedia Signal Processing 2004: IEEE. 66. BLACK, M.J., Recognizing Facial Expressions in Image Sequences Using Local Parameterized Models of Image Motion. International Journal of Computer Vision, (1): p Abd-Almageed, W. A Non-intrusive Kalman Filter-Based Tracker for Pursuit Eye Movement. in American Control Conference, Proceedings of the Alaska. 68. Hamlaoui, S. and F. Davoine. Facial Action Tracking Using an AAM-Based Condensation Approach. in Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing Whitehill, J. and C.W. Omlin. Local versus global segmentation for facial expression recognition. in 7th International Conference on Automatic Face and Gesture Recognition Blanz Volker and V. Thomas. A morphable model for the synthesis of 3D faces. in SIGGRAPH '99: Proceedings of the 26th annual conference on Computer graphics and interactive techniques. 1999: ACM Press/Addison-Wesley Publishing Co. 71. Seth Koterba, S.B., Iain Matthews, Changbo Hu, Jing Xiao, Jeffrey Cohn, and Takeo Kanade, Multi-View AAM Fitting and Camera Calibration, in Computer Vision, ICCV Tenth IEEE International Conference on Essa, I.A. and A.P. Pentland, Coding, analysis, interpretation, and recognition of facial expressions. Pattern Analysis and Machine Intelligence, IEEE Transactions on, (7): p Gokturk, S.B., et al. Model-based face tracking for view-independent facial expression recognition Cootes, T.F., G.J. Edwards, and C.J. Taylor, Active appearance models. Pattern Analysis and Machine Intelligence, IEEE Transactions on, (6): p Cootes, T. and C. Taylor. Active Shape Models Smart Snakes. in British Machine Vision Conference J. Cohn, A.Z., J. J. Lien, Y. T. Wu, T. Kanade, Automated Face Coding: A Computer- Vision based Method of Facial Expression Analysis., in 7th European Conference on Facial Expression Measurement and Meaning

361 Takahiro Otsuka, J.O. Spotting Segments Displaying Facial Expression from Image Sequences Using HMM. in Proceedings of the 3rd. International Conference on Face & Gesture Recognition S. Kimura, M.Y. Facial expression recognition and its degree estimation. in Computer Vision and Pattern Recognition H. Kobayashi, F.H. Dynamic Recognition of Basic Facial Expressions by Discrete-time Recurrent Neural Network. in Proceedings of the International Joint Conference on Neural Network I.Essa, A.P., Coding, Analysis, Interpretation and Recognition of Facial Expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence, (7): p M. Yoneyama, Y.I., A. Ohtake, K. Shirai. Facial Expression Recognition using Discrete Hopfield Neural Networks. in Proceedings of the International Conference on Image Processing L. Franco, A.T. A Neural Network Facial Expression Recognition System using Unsupervised Local Processing. in Proceedings of the 2nd International Symposium on Image and Signal Processing and Analysis, ISPA Pula, Croatia. 83. L. WeiFeng, W.Z., Facial Expression Recognitnin Based on Fusion of Multiple Gabor Features, in 18th International Conference on Pattern Recognition Ma, L. and K. Khorasani, Facial expression recognition using constructive feedforward neural networks. Systems, Man and Cybernetics, Part B, IEEE Transactions on, (3): p Bartlett, M.S., et al. Recognizing facial expression: machine learning and application to spontaneous behavior. in IEEE Computer Society Conference on Computer Vision and Pattern Recognition Datcu, D. and L.J.M. Rothkrantz. Facial Expression Recognition with Relevance Vector Machines. in IEEE International Conference on Multimedia and Expo P. Ekman, W.F., Facial Action Coding System. CA: Consulting Psychologist Press, P. Ekman, W.V.F., J. C. Hager, Facial Action Coding System. UT: A Human Face, M. Tekalp, J.O., Face and 2-D mesh animation in MPEG-4. Image Communication, (4-5): p M. Pardas, A.B., J.L. Landabaso. Emotion Recognition Based on MPEG-4 Facial Animation Parameters. in Acoustics, Speech, and Signal Processing. Proceedings N. Tsapatsoulis, A.R., S Kollias, R. Cowie, E. Douglas-Cowie, Emotion Recognition and Synthesis based on MPEG-4 FAPs. MPEG-4 Facial Animation, Mufti, M. and A. Khanam. Fuzzy Rule Based Facial Expression Recognition. in Proceedings of the International Conference on Computational Inteligence for Modelling Control and Automation and International Conference on Intelligent Agents Web Technologies and International Commerce Ioannou, S., et al., Emotion recognition through facial expression analysis based on a neurofuzzy network. Neural Networks, (2005 Special Issue): p

362 First Experiments on Acoustic-Phonetic Decoding for Multilingual Speech Recognition in the Basque context Ariztimuño I 1, Barroso N 2, Ezeiza A 1, Gilisagasti N 1, López de Ipiña K 3. University of the Basque Country 1 Department of Systems Engineering and Automation (SEA). Ixa taldea. aitzol.ezeiza@ehu.es 2 SEA, Aiatek S. Coop. Enteprise. nora@d-teknologia.com 3 SEA, Gasteiz. Computational Intelligence Group. karmele.ipina@ehu.es Abstract: This paper describes the initial experiments on Acoustic Modelling carried out in order to create a robust Multilingual Speech Recognition system for the Basque context. Although there is much work to do with Basque Speech Recognition alone, the interest on Multilingual Systems arouses because there are three official languages in the Basque Country (Basque, Spanish, and French), and there is much cross-lingual interaction between them, even if Basque has very different roots than the other two languages. The main goal of this work is to develop a baseline Acoustic-Phonetic Decoder for each language so as to facilitate further experiments on Robust Speech Recognition. Keywords: Multilingual Systems, Acoustic-Phonetic Decoding, Continuous Speech Recognition Systems, Basque Language. 2. Introduction It is widely accepted that natural spoken messages are understood on the basis of an intermediate representation of the acoustic signal in terms of a small number of phonetic symbols. That is why the usual approach to Automatic Continuous Speech Recognition is the acoustic-phonetic modelling approach (see Fig. 1). In the one hand, acoustic information is represented by some kind of feature extraction out of the voice signal. In the other hand, the phonetic information is extracted from the vocabulary of the task by means of a Lexicon or other Language Modelling approaches. The main assumption is that it is possible to develop models that capture the correlation existing between both kinds of information. Therefore, it is very important to develop robust Acoustic and Language Models in order to achieve significant results in this field. Unfortunately, the models needed for Automatic Speech Recognition are extremely language-dependent, and the Machine Learning techniques that are used in these complex modelling tasks require high-quality Language Resources that are very difficult to obtain for any language others than powerful languages such as English. 349

363 Figure 1: Generic Automatic Speech Recognition process. Nevertheless, there is growing interest in minority languages such as Basque, even taking into account the challenge that has to be faced in these cases. Many respectable works have been done about Basque Speech Recognition [1], and nowadays there are some Language Resources developed for Basque [2] that encourage further research. And although there is much work to do with Basque Speech Recognition alone, the interest on Multilingual Systems arouses in the Basque Country because there are three official languages in use (Basque, Spanish, and French), and there is much crosslingual interaction between them, even if Basque has very different roots than the other two languages. Indeed, the speakers tend to mix words and sentences in the three languages in their discourse, and the acoustic interactions between the three languages and between the Basque dialects are fairly interesting from the researchers' point of view. 350

364 Basque is a Pre-Indo-European language of unknown origin and it has about speakers. It presents a wide dialectal distribution, including six main dialects in a very small extension. This dialectal variety entails phonetic, phonologic, and morphologic differences. In fact, sometimes the gaps between dialects are so wide that many efforts have been made in the last decades to develop a standard version of Basque called Batua, which is nowadays in use in almost all the mass media and in the public institutions. Moreover, non-native or novel Basque speakers also tend to use this standard form of Basque. One of the fields that has shown most interest in Automatic Speech Recognition is the Mass Media communication. Most of the mass media in Basque Country use Spanish, French, and/or Basque, and many of them have shown their interest in the development of Index Systems for their media. Thus, the three languages have to be taken into account to develop an efficient Speech Recognition system in this field. Many works have been developed with several European languages [3], and specifically French and Spanish have been thoroughly studied [4] [5], but the use of Basque language introduces a new concern: it requires specific Natural Language Processing tools and the resources available are few. In order to decrease the negative impact that the lack of resources has in this area, the alternative surges in the form of cross-lingual Acoustic Modelling [6]. Wheatley et al. [7] already suggested the idea to train phoneme models for a new language using other languages and they implemented a number of different metrics for measuring similarities among cross-language phonetic models. The idea behind cross-lingual speech recognition is to transfer existing resources of Acoustic Models to a target language without using a speech database in this target language [8]. In such a way the usage of a complete speech database in the target language can be avoided. Therefore, it seems am interesting alternative for Basque language, and this paper tackles this issue developing a baseline Acoustic-Phonetic decoder for each of the three languages in order to compare them and to facilitate further experiments on cross-lingual Acoustic Modelling. In fact, the next step of our ongoing efforts will be to employ these baseline systems in a new cross-lingual system for Basque. Nevertheless, the first step to get a good cross-lingual is to develop robust Acoustic Models for the source and target languages in order to evaluate the results of the new experiments. This is the goal of this paper, and it includes an analysis of the acousticphonetic features of the three languages as well. The next section details the phonetic features of the languages studied. Section 3 describes the database used in the experiments. Section 4 deals with the processing methodology and Section 5 presents the results of our experiments. Finally, the conclusions and our future work are summarized in Section 6 351

365 2. Analysis of phonetic features of the languages The analysis of the features of the languages chosen is a crucial issue because they have a clear influence on both the performance of the acoustic decoder and on the vocabulary size of the system. In order to develop the acoustic decoder, an inventory of the sounds of each language was necessary. Table 1 summarises the sound inventories for the three languages expressed in the SAMPA notation. Each sound would be taken into account in the phonetic transcription tools used in the training process. Table 1. Sound Inventories for Basque, French and Spanish in the SAMPA notation. Sound Type Basque French Spanish Plosives p b t d k g c p b t d k g p b t d k g Affricates ts ts ts ts Fricatives gj jj f B T D s s S x G Z v h f v s z S Z gj jj F B T D s x G Nasals m n J m n J N m n J Liquids l L r rr l R l L r rr Vowel glides w j w H j w j Vowels i e a o i e E a A O o u y 2 i e a o u e~ a~ o~ 9~, The standard Basque consonant system has 23 obstruents (7 plosives, 3 affricates, and 13 fricatives) and 10 sonorants (1 affricative, 3 nasals, 4 liquids, and 2 semivowel glides). The vowel system comprises 6 oral vowels. The standard French consonant system is consists of 12 obstruents (6 plosives and 6 fricatives) and 8 sonorants (3 nasals, 2 liquids, and 3 semivowel glides). The vowel system comprises 12 oral vowels, 4 nasal vowels and several indeterminations such as a-a. The standard Spanish consonant system consists of 15 obstruents (6 plosives, 1 africate, and 8 fricatives) and 11 sonorants (1 affricative, 3 nasals, 4 liquids, and 3 semivowel glides). The vowel system comprises 5 oral vowels. In order to get an insight of the phonemes system of these three languages, we would like to remark some of the features mentioned above. In the one hand, Basque and Spanish have very similar vowels if not the same. The Basque language itself has many odd occurrences of other vocals, but many of them have fallen into disuse or they are used only in very local environments. For example, only Basque speakers from the Northern side (bilingual Basque and French speakers) are used to pronouncing the (i.e. Sorrapürü). This vowel's pronounciation is between the Basque vocals u and i. 352

366 In comparison to Basque or Spanish, French has a very much richer vocal system, but it is fair to say that some of their older forms have fallen into disuse too. Anyway, they keep on being different to those in Basque or Spanish, specially in the case of nasal vowels. In the other hand, some of the consonants that are rare in French such as L (i.e. Feuille) are very common in Basque or Spanish. Therefore, a cross-lingual Acoustic Model could be very useful in these cases. Another special feature in this experiment is the richness of affricates and fricatives present in Basque. These sounds will be very difficult to differ and the cross-lingual approach won't work for them, but it has to be said that even native Basque speakers don't make differences between some affricates and fricatives. Consequently, the Acoustic decoder would have difficulties in these cases and further Language Modelling would be needed in order to get accurate results. Finally, some sounds that are differentiated theoretically are very difficult to model, and many state-of-the-art approaches cluster these cases as the same sound. This is the case of the plosives in the three languages; there is little acoustic difference between b, B, p, and P depending on the context, and the Language Model should be able to manage the ambiguity derived of not differing those phonemes in this first stage. 3. Speech Database used in the experiments The basic resources used in this work have been mainly provided from two Broadcast News sources [9]. On the one hand, the Basque Public Radio-Television group (EITB) has provided us with videos of their Broadcast News in Basque and Spanish. In the other hand, Infozazpi irratia, a new trilingual (Basque, French, and Spanish) digital radio station which currently emits only via Internet has provided audio and text data from their news bulletins. The inventory of the resources of the database are the following: About 6 hours of video in MPEG4 (WMV 9) format of Gaur Egun (Basque) and Teleberri (Spanish) programs, the daily broadcast news. Infozazpi irratia provides about 17 hours of broadcast news in the three languages, initially in MP3/96Kps format (this is the format used in their Internet Broadcasting system). Table 2. Inventory of the Resources: Broadcast News (EITB, Infozazpi) and Text databases. Language Text database EU 6: M FR - 2:58 2M ES 9:35 12:34 4M Total 16:12 33:12 14M 353

367 A preliminary evaluation of the Speech Database was carried out, taking into account the development of the system s key elements. The most significant aspect of the analysis is that the amount of valid spoken audio segments is very small. A brief extraction of the results of the evaluation of this speech database is summarized in Tables 3 and 4. Table 3. Evaluation of the audio resources: Total of Speakers (TS), Non Native Speakers (NNS), Native Speakers (NS), Size (SZ) in Mb, Number Files in WAV Format (NF-WAV), Timeframe in hours (TF-H) Media TS NNS NS SZ-Mb NF TF-H EU :23 ES :59 FR :58 EU :37 ES :35 Total Languages distribution and parallelism: Tables 3 and 4 show the distribution of the languages in the data provided by the two mass media: EITB and Infozazpi irratia. EITB provides parallel material for Basque and Spanish (about 6 hours each). Most of the material provided by Infozazpi irratia is in Basque but two very interesting parallel samples are also provided in French and Spanish. These parallel sections are not absolutely aligned because they are sometimes written by different reporters, but they have special interest for parallel processing tasks. Speaker segmentation. The Speaker segmentation in Table 3 shows a substantial difference between the two media. Infozazpi s bulletins are read by only one reporter, while EITB has a wider variety of speakers, being 6,6% of them Non Native Speaker (NNS). Speech-Non Speech automatic segmentation. Supervised Speech / Non Speech segmentation (Table 4) shows real differences between digital resources provided by EITB and Infozazpi. The average rate of the former is about 96,5% for both languages but in the latter this average falls to 72% for Basque and to about 45% for the other languages due to longer presence of music. Furthermore, for the EITB database, the speech signal containing background noise is in average of 45,49%: music (10,69%), background speakers (6,04%), white noise (3,59%) and undefined (25,17%). For Infozazpi the background noise is almost always music and it is present in nearly all of the bulletins in French and Spanish. This leads to poor results in recognition, but noisy environments are of great interest for researchers, because they reflect much better real-world applications than the usual laboratory-like experiments usually carried out in this area. 354

368 Table 4. Evaluation of the audio resources. Media %Speech %Non-Sp NW NDW EU W, 3445-M ES FR EU W, 4796-M ES Processing Methodology The speech database described in the previous section had to be transcribed orthographically, even when some scripting data existed for Infozazpi irratia files. Thus, the XML label files were created manually. The XML files include information of distinct speakers, noises, and sections of the speech files. The transcriptions for Basque also include morphological information such as each word s lemma and Part- Of-Speech tag (see Table 5). Table 5. Simplified sample of the XML transcription files enriched with morpho-syntactic information of Basque. <Sync time= /> +horretarako /hortarako/<word lemma= hori POS= ADB /> +denok /danok/<word lemma= dena POS= IZL /> lagundu<word lemma= lagundu POS= ADI /> behar<word lemma= behar POS= ADI /> dugu<word lemma= *ukan POS= ADL />.</Turn> <Turn mode="spontaneous" fidelity="high" starttime=" " endtime=" "> <Sync time=" "/> ^Batasunak<Word lemma= 9batasuna POS= IZB /> 355

369 These rich orthographic transcriptions were not used during the phonological transcription, since it had to be generated automatically from the orthographic one, making use of a simple phonological transcript tool based on rules for each language. These three transcript tools used a minimum set of phonemes as described in Table 1, but with some modifications for the sake of ease of processing. Obviously, such a simple transcription procedure does not allow to obtain absolutely correct transcriptions. However, we consider that the precision achieved is good enough to obtain significant acoustic-phonetic decoding results, and this problem will be addressed in future works which would include knowledge-based and statistical approaches. The next step in the experiments was the extraction of features for the training and test of the models. Features normally used can be grouped in two ways: spectral/energy features, and static/dynamic features. Spectral features are aimed at modelling the spectral envelope, where it is expected to be the maximum phonetic information. We wanted a simple approach in this step, because the audio data in use had many variations in noise, recording mode and even original format. Therefore, since the standard HTK [10] feature selection was used: Mel Frequency Cepstral Components using C0 as the energy component; the frame period was 10 miliseconds. The FFT uses a Hamming window and the signal had first order preemphasis applied using a coefficient of The filterbank had 26 channels and 12 MFCC coefficients. Thus, the result of the feature extraction process was a static vector like this: 12 (MFCC coefficients + Co) + Delta coefficients + the acceleration coefficients. It is worth mentioning that the Infozazpi irratia database was recorded in MP3 format. During these experiments the audio files were converted to our WAV standard format for the sake of uniformity. The experiments could have been carried out with this original format, but the results wouldn't be comparable to those from EITB database. Anyway we know that this is a tough decision to make, and one of our ongoing experiments is on trying to compare the results of our experiments in these two formats. Once the phonological transcriptions were ready and the features were extracted, we performed experiments on acoustic-phonetic recognition using Hidden Markov Model Toolkit (HTK) as we mentioned above. 5. Test Results and Discussion The tests we performed consisted in the evaluation of the accuracy of the acoustic phonetic decoding. In other words, we tried to determine the phonemic recognition accuracy using just the acoustic models, without any other kind of lexical or grammatical restriction. 356

370 In order to evaluate the results, we aligned the phonemic string obtained from the decoder and the reference phonemic string obtained from the phonological transcript tool. Using this alignment the percentage of phones correctly recognized (%C) was computed. The results are presented in Figure 2. Basque Spanish French %C (correct phonemes) Vocals Plosives Nasals Others TOTAL Figure 2: Results of the experiments clustered by sound types. The results presented above can be improved on in a number of ways. It is obvious that the phoneme recognition rate is much better for Spanish and Basque than for French. This can be explained with two main reasons: on the one hand, the simple vowel structure in Basque and Spanish eases the overall recognition of phonemes. On the other hand, the mean noise level in French is also higher and the training data amount is smaller. Therefore, in these first experiments the results won't be comparable, but even then they encourage further work. Table 1 summarizes the results of the experiments in terms of correct phonemes recognised and accuracy of the recognition. Table 6: Percentage of correct morphemes (%C) and accuracy (%A) of the three experiments. Language %C %A Basque 53,88 42,79 Spanish 58,11 46,98 French 36,21 19,17 357

371 6. Concluding Remarks In order to develop a real-life multi-purpose system that could be useful for difficult recognition tasks, we have chosen a Broadcast News Speech Database with many speakers, environments and noises. This characteristic drives the system to apparently poor results, and it has been detected that one of the most punishing effect is that of the background noise. The experiments carried out so far, using a very simplified version of the proposed framework, haven't thrown state-of-the art levels of accuracy, but given the difficulty of the task and the early stage of development of this system, however, we consider the results for Basque quite respectable. The present work also validates the Language Resources developed for Basque in recent years, and it settles a baseline for ongoing works. Yet, most of the work has to be done still. For instance, one of the topics we are working on in the University of the Basque Country is the development of new specific Language Resources for the dialects in the French side of the Basque Country, in order to get more variety of sounds for the realisations of the phonemes in Basque. The experiments carried out in this work in French could be very useful in the modelling of such dialects. Additionally, a new agreement has been arranged with a newspaper in French that also includes texts in Northern Dialectal Basque. Finally, there have been very encouraging works on noise reduction for Speech Recognition that might increase the accuracy of our Acoustic-Phonetic decoder. References 1. Lopez de Ipiña K., Graña M., Ezeiza N., Hernández M., Zulueta E., Ezeiza A., Tovar C.: "Selection of Lexical Units for Continuous Speech Recognition of Basque", Progress in Pattern Recognition, pp Speech and Image Analysis, Springer. Berlin Barroso, N. Ezeiza A., Gilisagasti, N., Lopez de Ipiña K.,López A, López JM.: "Development of Multimodal Resources for Multilingual Information Retrieval inthe Basque context", in proccedings of Interspeech, Antwerp, Belgium,. 3. Vandecatseye et al Vandecatseye, A., J.P. Martens, J. Neto, H. Meinedo, C. Garcia-Mateo, F.J. Dieguez, F. Mihelic, J. Zibert, J. Nouza, P. David, M. Pleva, A. Cizmar, H. Papageorgiou, C. Alexandris, The COST278 pan-european Broadcast News Database. In Proceedings of LREC 2004, Lisbon (Portugal). 4. C. García-Mateo, J. Dieguez-Tirado, L. Docío-Fernández, A. Cardenal-López. Transcrigal: A bilingual system for automatic indexing of broadcast news LREC Adda-Decker, M.; Adda, G.; Gauvain, J.; Lamel, L.: Large vocabulary speech recognition in French Acoustics, Speech, and Signal Processing, ICASSP apos;99. Proceedings., Volume 1, Schultz, T., Waibel, A. "Multilingual and Crosslingual Speech Recognition", Proceedings of the DARPA Broadcast News Workshop B. Wheatley, K. Kondo, W. Anderson, and Y. Muthusamy An Evaluation of Cross-Language Adaptation for Rapid HMM Development in a New Language. In International Conference on Acoustics, Speech, and Signal Processing, pages , Adelaine. 8. Toledano, D, Moreno, A, Colás, J, Garrido J Acoustic-phonetic decoding of different types of spontaneous speech in Spanish In procceedings of Disfluencies in Spontaneous Speech 2005, Aix-en- Provence, France. 9. Bordel G., Ezeiza A., López de Ipiña K., Mendez M., Peñagarikano M., Rico T., Tovar C., Zulueta E. Development of Resources for a Bilingual Automatic Index System of Broadcast News in Basque and Spanish LREC 2004, VOL III, p Young, S. Jansen, J. Odell, J. Ollason, D. Woodland, P The HTK Book Cambridge UPress. 358

372 INTELLIGENT TUTORING SYSTEM TO INTEGRATE PEOPLE WITH DISABILITIES INTO SOCIAL AND WORK ENVIRONMENTS * KARMELE LÓPEZ DE IPIÑA 1, ELOY IRIGOYEN 1, NESTOR GARAY 2, EKAITZ ZULUETA 1 1 Department of Automatica and Engineering Systems, University of the Basque Country, Alda. Urquijo, S/N - ETSI Bilbo, Bizkaia 48013,Spain Nowadays, the integration of people with disabilities in social and work environments, in our growing competitive society, is a problem. Current attempts to overcome it are based on the concurrent contribution of new and advanced technologies. At the moment, the number of available specific products and tools is limited. Moreover, this is worst in the area of assistances with understanding capability. Intelligent Tutoring Systems exhibits this capability. This kind of tutors is prepared to assist people who have problems in obtaining a wider autonomy and work integration. In this paper the TUTOR project is presented. The main aim of this project is to develop an Intelligent Tutoring System for people with disabilities. This tutor will integrate multimodal tools and human emotional feeling analysis to improve its usefulness. On the other hand, in order to assure the final product reliability in occupational frames, a set of essential ergonomic interfaces will be created. Furthermore, several basic clinical research activities will be carried out to validate those applications and to achieve the possibility of patenting them as medical products. This project emerges because of the lack of this kind of tools for people with disabilities which have been detected by GUREAK ARABA S.L. (GUREAK Group) company. It will be tackled by a multidisciplinary research team that will combine technology and health. 1. Introduction The integration problem of people with disabilities in the labour market can be faced up with the development of Intelligent Tutoring Systems (ITS) in portable platforms [18]. The main feature of this kind of tutors is the adaptation to the users need [10,11,12]. This becomes essential when working with people with special needs [2]. Moreover, they try to get positive effects for the user: (1) improving the individual performance, (2) increasing the worker capability, and (3) rising the health and safety levels in workplaces. On the other hand, * This work is supported by GRANT TSI C02-01 of the Ministry of Technology and Science of the Government of Spain. 359

373 complementary tools are integrated in these tutors, which are based on pattern matching (images and speech) [5,6,7,9] and human emotional feeling analysis. These capabilities improve the system reliability when working with handicapped people, sweeping away the frontiers. A critical aspect in the integration of this kind of products on work environments exists due to the specific ergonomic adaptability (hardware and software) which is necessary to meet the special needs of the people involved. The development is focused on achieving real industrial reliable and healthy product that fulfils standard approval criteria. The accessibility and adaptability to work environments of handicapped people are closely connected to the design and ergonomic development of devices, systems, products or services, to the architectonic and city-planning design and to the development of software as well as, in some cases, to these components redesign [8]. For the same tool or device the variability of the handicapped group requires the development of different applications to adapt their use to the different groups that could obtain benefits from using them. In this sense, the devices of access to terminals and communication devices try to solve different kind of problems as: Mobility, skill and coordination problems of people with physical disabilities; vision, hearing and language problems of the people with sensorial disabilities; and intellectual, language, understanding and memory problems of people with psychical disabilities. Intelligent Tutoring Systems apply Artificial Intelligent techniques and methodology to the development of computer based learning systems in order to construct adaptive systems [4]. An ITS focuses education as a process of cooperation between tutor and student in which the tutor tries to teach concepts to the student. In general, the process is guided by the tutor, who must analyse the behaviour, the knowledge and the satisfaction of the student. The tutor has to determine and apply the more appropriate teaching strategies at every moment [14,15]. These strategies must answer a series of questions to ensure that the learning process is carried out successfully [13]. These questions are: what to explain, what detail level is necessary, when and how to interrupt the student and how to detect and to correct errors. The four basic components that classically are identified in an ITS are: Domain Module, Pedagogic Module, Student Model and Dialogue Module [4,18]. The adaptation and integration of linguist engineering and intelligent tools in the system is necessary when cognitive disabilities appear. In these cases, the ergonomic directives as well as the specific necessities of these persons are fundamental in the development of appropriate tools. It is not possible to apply 360

374 a general approach due to the variability of needs that this collective exhibits. However, there are some physical and psychological common characteristics in people with Down Syndrome: heavy and fine mobility altered, smaller capacity to stay out, difficulty to anticipate or to understand consequences of their conduct, better visual perception and retention than auditory, longer response time, difficulty in understanding a number of instructions given in sequential form. In Spain the specifications related to Information and Communication Technologies take shape in the UNITE and UNITE norms that support the computer accessibility and the edition of computer programs. Mobile telephony is one of the platforms to consider in the present project for the integration of the intelligent tools. However it is necessary to improve certain aspects of this technology with appropriated software and hardware ergonomics. 2. TUTOR project: Objectives, scope and design The main objective of TUTOR project is the development of an ITS integrated on wireless portable devices (PDA, mobile phone, ). The mobile tutoring system will help in the tasks people with Down Syndrome (DS) perform when working and living in several environments. Due to the characteristics of the people who are going to use these devices, it is absolutely necessary to design an interface [1,3] that shows the following features: friendly, comfortable, flexible and ergonomically adapted to their cognitive characteristics. As first objective of this project is to provide to these users with a cognitive tool that contributes to the improvement of their autonomy, quality of life as well as help in the prevention of accidents in the workplace. Another objective tries to integrate into the portable device a task management. Intelligent technologies based on fuzzy systems will be used to improve this management. The figure 1 shows the different parts of the task management. 361

375 Figure 1 Different parts of the task management In this way, the performance of these workers would be enhanced and also their integration process to the work and daily life. In addition, we plan to register the designed system like a health product through a clinical research plan according to the current legislation. The architecture of the ITS will show a integrated structure, instead of the more classical one with separated levels. This architecture is composed of the following modules: 1. Domain Module: It contains the knowledge of the subject that is being taught. 2. Pedagogical module: This module adapts the teaching to the characteristics of the learner. 3. Student Model: It represents information about the student like domain knowledge, cognitive skills, motor abilities, etc. 4. Dialogue Module: It defines the communication interface of the system with the user. 5. Dialogue Toolkit: Set of communication tools that will provide the system with intelligent behaviour. This project is carried out in six phases: Phase 1: Analysis and definition of the Intelligent Tutoring System; Phase 2, Development of a tutor prototype; Phase 3: Evaluation of the prototype; Phase 4: Analysis and development of a mobile platform; Phase 5: Development and integration in the mobile platform; Phase 6: Final evaluation. 362

376 Figure 2 Task menu of in the ITS 3. Results In year 2004 a prototype of the ITS was developed and it is currently being evaluated in the laboratory as well as in the real setting. Throughout year 2005 was performed its integration on mobile platforms. Finally, during 2006 a prototype for a task in a real enterprise has been developed (Figure 2 and 3) and evaluated by a unique user because the task was oriented and adapted to his specific work. An analysis of the support necessities for the people that suffers DS in their work activities was made [13,16]. The results of this analysis are: their own and distinguishing characteristics (cognitive skills, motor functions, attention, perception, intelligence, memory, language, behaviour, sociability, etc). This analysis has been the base for defining the specifications of the ITS to a great extent as well as for identifying the work scopes where this collective is present in. This study has allowed to analyse: 1) HOW the people with DS are and 2) WHAT activities they carry out in the workplace. In this project, the tasks that have been selected for inclusion in the ITS are both office tasks and tasks performed in the factory. In this way it will be possible to evaluate the effectiveness of the ITS with very different tasks and work environments. This has allowed an open and modular design that will facilitate the insertion of new tasks in the ITS. The aim of this study was to identify the application requirements to the ITS considering the characteristics of the group of people with DS and the tasks to teach. The multidisciplinary composition of the project team (software/hardware developers, experts in ergonomics and people that work with people with DS) 363

377 has allowed to reach an ITS prototype that covers the necessities of workers with disabilities. It helps in the integration of this people in the work environment performing real tasks and attending the ergonomic requirements of accessibility. The prototype has the following characteristics: Configurable and flexible system that allows people without sound technical knowledge to define tasks for different people and work environments. Well-balanced system that allows the user to face important challenges: the completion of the task with a help level adapted to the characteristics of the user. Graphical system that allows by means of images to visualize the tasks and steps to perform. System that allows the user to initiate the work again at any moment, to ask for external help and to ask for a complete guide. Figure 3 Task sub-menu of in the ITS 4. Conclusions and future works The results of the activities developed during previous years are the following ones: Identification of the real necessities of the ITS to define the requirements of the tutor. Development of the core modules of the ITS. Development of the tools that provides the automatic tutor with intelligent capabilities. Identification and integration of the ergonomic requirements in the ITS design process. Integration of intelligent tools and implementation of the identified ergonomic requirements. 364

378 Development and preliminary evaluation of the ITS prototype. The immediate challenges in future works are the following ones: System evaluation in a greater number of jobs extending the project to GUREAK company. Generation and organization of new contents for the tutor obtained from the patterns study. Orders codification and information transmission from the central computer to the tutor. Tests in different mobile terminals and PDAs. References 1. Edwards a. D. N., extra-ordinary human-computer interaction. Interfaces for users with disabilities, cambridge university press, cambridge, González j., gardeazabal l. & arruabarrena a., providing telecommunications access to people with special needs, ieee journal on selected areas in communication, ieee, piscataway, nj, may 1991, vol. 9, no. 4, pp Schneider-hufschmidt, m. Kühme t. & malinowski u., adaptive user interfaces: principles and practice, north-holland, amsterdam, Wenger, e., artificial intelligence and tutoring system, morgan kaufmann, los altos, ca, Chen b., wang h-m, lee l-s., "improved spoken document retrieval by exploring extra acoustic an linguistic cues", proceedings of eurospeech 2001, aalborg, denmark, september 2001, vol 1. Pp De jong, f., gauvain, j.-l., hiemstra, d., netter, k., "language-based multimedia information retrieval", proceedings of the 6th riao conference, paris, france, april Foote j., "an overview of audio information retrieval", national university of singapore press, singapore, Gauvain, j.l., lamel l., de kercadio y., & adda g., "transcription and indexation of broadcast data, proceeding of icaspp, istanbul, june 2000, pp Witbrock m.j., & hauptmann a. G., speech recognition and information retrieval, proceedings of the darpa speech recognition workshop, chantilly, va, february Gunderson j. R., ada: human computer interaction for persons with disabilities, tutorial of chi'94, boston (ma),

379 11. Myers, b. A. Human computer interaction: toward the year State of the art in user interfaces software tools, baecker r. M. Et al. (eds.), morgan kaufmann, san francisco, Candela a., lobato m., garcía e., guía de acceso al ordenador para personas con discapacidad, instituto de migraciones y servicios sociales (imserso), madrid, Chia-fen chi (1999). A study on job placement for handicapped workers using job analysis data, department of industrial management, national taiwan university of science and technology press, taipei, taiwan, Case k., porter m., gyi d., marshall r., & oliver r., virtual fitting trials in design for all, department of manufacturing engineering, department of design and technology, loughborough university press, loughborough, leicestershire, uk, Nowak e., the role of anthropometry in design of work and life environments of the disabled population. Department of ergonomics research, institute of industrial design press, poland, Zajicek m., successful and available: interface design exemplars for older users, interacting with computers, june 2004, volume 16, issue 3, pp Sung heum lee, usability testing for developing effective interactive multimedia software: concepts, dimensions and procedures, educational technology & society, 1999, vol. 2, issue Yazdani, m. (1987). Intelligent tutoring systems: an overview. An artificial intelligence and education. Volume one. Learning environments & tutoring systems, lawler, r. W. Y yazdani, m. (eds.), ablex, norwood, pp

380 DESARROLLO DE UN SISTEMA DE MEDIDA DE EMOCIONES HUMANAS NO PERCEPTIBLES A TRAVÉS DEL MODELADO MEDIANTE ORDENADORES DE LA CONDUCTA HUMANA BASADA EN EL APRENDIZAJE DE EMOCIONES * ELOY IRIGOYEN 1, KARMELE LÓPEZ DE IPIÑA 1, CARMEN HERNÁNDEZ 2 1 Department of Automatica and Engineering Systems, University of the Basque Country, Alda. Urquijo, S/N - ETSI Bilbo, Bizkaia 48013,Spain El principal objetivo de este proyecto es el desarrollo de un sistema apropiado de medida de emociones humanas no perceptibles, a través del modelado mediante ordenadores de la conducta humana basada en el aprendizaje de sus emociones. El sistema que se va a desarrollar en este proyecto, presenta varias innovaciones técnicas, además de contribuciones, con respecto a las arquitecturas de sistemas clásicos. Va a estar compuesto de dos sistemas de medida de emociones, uno clásico y otro de nuevo desarrollo. El sistema nuevo que se desea presentar consta de: un módulo de aprendizaje automático, información de percepción sencilla, Control Predictivo Emocional, un subsistema basado en emociones conocidas y un sistema evolucionable. Por todo ello, las principales innovaciones del presente proyecto son: el análisis de emociones humanas no perceptibles; un novedoso modelado de las emociones humanas basado en experiencias emocionales; automatización de las emociones humanas bajo la teoría de Control Predictivo; medida y simulación basada en experiencias emocionales humanas y aprendizaje automático. 1. Introducción Las emociones surgen de la necesidad de enfrentarse a un mundo cambiante y parcialmente impredecible que hace necesario que cualquier sistema inteligente (natural o artificial) con motivos múltiples y capacidades limitadas requiera el desarrollo de emociones para sobrevivir. Las emociones se constituyen mediante los mismos componentes subjetivos, culturales, fisiológicos y conductuales que expresan la percepción del individuo respecto a su estado mental, su cuerpo y la forma en que interactúa con el entorno. Siendo así, qué ventajas podría tener un sistema artificial muy complejo que fuera diseñado para que sus sistemas de control reaccionaran de forma emotiva teniendo en cuenta las emociones del * This work is supported by GRANT TSI C02-01 of the Ministry of Technology and Science of the Government of Spain. 367

381 individuo? Sería prudente que el sistema de control previese las emociones de los operarios? Las emociones lejos de ser un obstáculo en la comprensión del universo lo describen con claridad. Las emociones son mecanismos que permiten a la mente describir un universo que no necesariamente puede ser representado simbólicamente. La introducción en los sistemas automáticos de un sistema emocional artificial que genere y procese emociones no solo en base a reacciones fisiológicas sino que sea capaz de predecirlas en base a la experiencia (memoria emocional, emoción socializada) puede dotar a estos de una mayor robustez al interaccionar con el entorno. El principal objetivo de este proyecto es el desarrollo de un sistema de medida apropiado para identificar emociones humanas no perceptibles, por medio de una emulación de la conducta humana basada aprendizaje emocional automatizado. 2. Situación actual Tal y como se presenta en el artículo Emotion understanding: From the perspective of autonomous robots research [1], se puede considerar que las emociones de los humanos suponen formas diferenciadas de percibir y sentir situaciones, procesar información, y modelar y priorizar acciones. En este sentido, las emociones se pueden ver como diferentes modelos cognitivos los cuales tienen una influencia sincronizada y global en nuestras formas perceptuales, cognitivas, expresivas y de comportamiento, de relacionarnos con el mundo. Alcanzar esto mediante arquitecturas computacionales de emociones implica una gran variedad de problemáticas, muchas de las cuales no se han estudiado en profundidad y que podrían enunciar las siguientes cuestiones: Qué aspectos de la cognición se deben implantar en dichas arquitecturas para poder hablar de un modelo cognitivo? Qué mecanismos pueden ser utilizados para modelar diferentes aspectos de percepción y cognición? Qué mecanismos se requieren para implantar los diferentes efectos de un conjunto de emociones? De qué forma los modelos robóticas y computacionales pueden tener en cuenta diferencias culturales e individuales en la síntesis de emociones como modelos cognitivos? La emoción pueden ser entendida como un impulso que induce a la acción, causando conductas de reacción automática ante estímulos del entorno. Desde el punto de vista de la Psicología, la emoción es un sentimiento expresado mediante una función psicológica como pueden ser los gestos faciales, el pulso cardiaco, y reacciones de conducta como pueden ser la agresión, el llanto, ocultar la cara, etc. Sin embargo, muchas veces el individuo enmascara sus emociones como resultado de un proceso de aprendizaje cultural 368

382 ( emociones socializadas ). En estos casos, la respuesta emocional socializada no corresponde con la respuesta puramente emocional porque el individuo predice la situaciones (tanto en entornos predecibles como no predecibles). La introducción de características emocionales artificiales en los sistemas de control automático los mejoran claramente, proporcionando mayor robustez cuando interactúan con el entorno. Figura 1. Sistema de control automático donde se considera la medida y desarrollo de nuevas estrategias de control en base a las emociones humanas. 3. Análisis de emociones En el nivel más básico, las emociones implican indudablemente acciones inconscientes en el cerebro, las cuales son parte de la respuesta a estímulos no neutros. Al mismo tiempo hay ciertos valores asociados de memoria que vienen unidos a estos estímulos, o a sus representaciones en el cerebro. Estos valores de memoria, de igual modo que la realimentación de la respuesta corporal, conducen futuras respuestas a los estímulos u otros aspectos del entorno, aunque esta influencia no necesariamente alcance un nivel consciente [2]. Si estas señales de valor emocional inconsciente caen en la consciencia, entonces pueden dar pié a un proceso denominado de valoración por muchos investigadores [3]. Las emociones emergen de la necesidad de afrontar un mundo cambiante y parcialmente impredecible, el cual hace necesario que cualquier sistema inteligente (natural o artificial) con múltiples razones y capacidades limitadas requiera el desarrollo de emociones para sobrevivir. Las emociones se constituyen a través de componentes subjetivos, culturales, psicológicos y relacionados con la conducta, que expresan la percepción del individuo con respecto a sus estados mentales, su cuerpo y el modo en el cual él 369

383 interactúa con su alrededor. Teniendo esto en cuenta, qué ventajas puede tener un sistema artificial muy complejo, por ejemplo una planta nuclear o eléctrica, diseñado de tal modo que sus sistemas de control reaccionen considerando las emociones del individuo? Sería prudente que el sistema de control anticipase las emociones del trabajador? Las emociones, lejos de ser un obstáculo para entender el universo, lo describen claramente. Las emociones son motivo de estudio de la Psicología, de las ciencias Neuronales, y más recientemente de la Inteligencia Artificial. Unido a esto, las emociones son la frontera entre los procesos de aprendizaje y el entendimiento. Las emociones son procesos cognitivos relacionados con la estructura de la mente humana (toma de decisiones, memoria, atención, etc.) y de las reacciones instintivas (agresión, aflicción, tristeza, etc.). En lo concerniente a las emociones humanas, la interacción directa con el exterior, tiene influencia. Pero también la memoria emocional nace de la experiencia del individuo y de su entorno cultural, la cual se denomina emoción socializada. La respuesta emocional, a menudo socializada, no corresponde con la respuesta puramente emocional y puede enmascarar el estado del organismo. De cualquier modo, el individuo puede predecir situaciones, y esto da lugar a definir entornos predecibles y no predecibles. Decir que una persona está en un estado emocional particular trae implicaciones acerca de cómo percibe e interpreta las cosas, personas y eventos, los cuales pueden ser presente, pasado, futuro o incluso imaginados; acerca de sus propios sentimientos; acerca de su capacidad para sopesar diferentes opciones sin tener en cuenta cuestiones pasionales; acerca de las acciones que está dispuesto o preparado a tomar; acerca del estado moral de sus pensamientos y acciones; y al menos en algunos casos acerca de la realidad de su situación [4]. En sistemas artificiales equipados con inteligencia, se podría decir que son capaces de detectar eventos externos y decidir respuestas dirigidas a alcanzar un objetivo. Que son capaces de determinar los estados emocionales de un individuo mediante una expresión y que lo pueden preservar de la conducta que podría tomar. Cuando un individuo goza de un excelente estado induce también una respuesta emocional, cuya intensidad, calidad y persistencia van a condicionar el ajuste de la interacción entre los dos sistemas, biológico y artificial. 4. Modelado de emociones La emoción propiamente dicha, es un tópico interdisciplinar, el cual puede ser estudiado en campos como la Filosofía, Psicología, Neurociencia, u otros campos como la Neurociencia Computacional, el Aprendizaje Automatizado y 370

384 la Robótica [5]. Al mismo tiempo aparece una cuestión crucial en base a los datos tomados y las bases de datos creadas para ser utilizadas en la investigación de emociones. El diseño de robots basados en emociones a menudo toma como base la teoría de las emociones humanas, y en algunos casos colaborando estrechamente teóricos e ingenieros. Los robots autónomos constituyen una excelente herramienta no solo para testar planteamientos teóricos, sino también para investigar problemas que podrían dificultar el estudio sobre humanos, debido por ejemplo a implicaciones éticas, la dificultad de aislar elementos relevantes o la repetición natural de ciertas tareas. En este aspecto, estos dispositivos pueden servir como laboratorios virtuales para el estudio de emociones [1] Modelando emociones psicológicamente perceptibles Pero, cómo modelar emociones psicológicamente perceptibles? Cómo puede detectar uno de estos dispositivos el humor de un individuo? Lang planteo la existencia de 3 sistemas que podrían estar implicados en las expresiones de las emociones y que podrían servir como indicadores para detectar emociones del individuo: 1. Información verbal: Informe generado por el propio individuo basado en sus emociones percibidas. 2. Conducta: Registro de cara y expresiones gestuales, junto a parámetros paralingúísticos de la voz. 3. Respuesta psico-fisiológicas: Lectura de ritmo cardíaco, conductividad de la piel, respuestas eléctricas del cerebro, etc. Remontándose a tiempos de Descartes y Darwin se argumentó la existencia de un pequeño conjunto compacto de emociones básicas. Silvan Tomkins propuso en 1962 que existen 9 estados afectivos básicos (2 positivos, 1 neutral y 6 negativos), cada uno de los cuales identificado por una configuración específica de las características faciales. Esta suposición se ha mantenido por muchos investigadores, que a través de sus trabajos han producido su propia lista de emociones básicas, diferenciándose las unas de las otras en el número y el tipo de emociones. Esta disparidad indica una pequeña confusión en el intento de entender las características de la representación interna de varios estados emocionales, teniendo en cuenta que este punto es el más crucial para desarrollar sistemas automáticos de reconocimiento de emociones. Aún más, mientras se puede plantear un conjunto de emociones básicas para ser reconocidas consistentemente en diferentes culturas (carácter universal), ciertas evidencias sugieren que existe una mínima universalidad, al menos en el 371

385 reconocimiento de emociones a partir de expresiones faciales, punto este puesto en duda por Ekman [6] Modelando emociones psicológicamente no perceptibles Cuando una persona camufla sus emociones debido a un aprendizaje cultural (emociones socializadas), no se produce una respuesta fisiológica perceptible y los sistemas de medida de emociones clásicos (cámaras, micrófonos, información léxica, etc.) no pueden ser utilizados. Por tanto, un sistema de medida diferente debería ser desarrollado, el cual debe incorporar patrones emocionales artificiales del individuo (bases de datos de patrones emocionales humanos) y recuerdos emocionales (bases de datos de experiencias humanas). En estos patrones, la individualidad de las personas, así como los componentes culturales, deben ser considerados al máximo. Dado que el sistema de medida debe incorporar bases de datos de patrones emocionales humanos y bases de datos de experiencias humanas, tiene que ir equipado con dos componentes: 1. Patrones emocionales artificiales de los individuos 2. Recuerdos emocionales y la base de sus respuestas para medir las emociones en un aprendizaje automatizado basado en el cerebro humano. Quizás la característica más crucial de la codificación emocional automática sea que puede llevarse a cabo sin necesitar ninguna fuente de atención. La independencia de cualquier proceso del cerebro de diferentes fuentes de atención se estima como la condición definitiva para su automatización, especialmente entre los científicos del entorno cognitivo que focalizan sus estudios en la atención. Uno de los métodos tradicionales que delimitan el grado de independencia de cualquier proceso desde las fuentes de atención es el paradigma de búsqueda de imágenes, y la correspondiente relación entre el tiempo de encontrar un objetivo embebido en un conjunto ordenado de elementos de distracción y el número total de elementos de dicho conjunto. De modo particular, Treisman y Gelade (1980) propusieron que, para dichos objetivos que son procesados preatentivamente, saliesen del conjunto a pesar de su número de elementos, mientras que objetivos que requieren localización en serie, deslocalización y relocalización de atención, desde un elemento del conjunto a otro, produjesen una relación monótona creciente entre el tiempo empleado en buscar un objetivo y el número total de elementos del conjunto. Esto implica que tales objetivos no puedan ser procesados preatentivamente [2]. El nuevo modelo de emociones humanas se basará en: - Patrones emocionales humanos. - Bases de datos de recuerdos emocionales humanos. 372

386 - Bases de datos de experiencias emocionales humanas. El sistema de medida, a modo de cerebro humano, tiene que estar basado en técnicas de predicción, memorización aprendizaje automatizado de experiencias humanas. El dispositivo tiene que ser capaz de simular la conducta humana por medio de: - La automatización de emociones humanas mediante control predictivo. Los sistemas de regulación automática analizan clásicamente los componentes no humanos del sistema. Sin embargo, la influencia en el sistema de control de las emociones humanas no se consideran a pesar de ser una de sus partes importantes. - La simulación y la medida basada en las experiencias emocionales humanas y en las técnicas de aprendizaje automatizado. La emulación del cerebro humano se basará en técnica de aprendizaje automatizado como las Redes Neuronales, los Modelos Ocultos de Harkov y los Algoritmos Genéticos. El principal propósito es conseguir un sistema emocional de simulación y aprendizaje para una medida apropiada de las emociones. El sistema basado en patrones emocionales será capaz de manejar e identificar posibles emociones humanas a través de aprendizaje Aprendizaje automatizado Respecto al aprendizaje automatizado se podría hacer una descripción exacta acerca de, las actividades que se pueden desear que un dispositivo realice cuando se habla de aprendizaje, y por medio de la mejor toma de decisiones posible para el dispositivo, pudiéndose desarrollar dichas actividades. El aprendizaje automatizado, la teoría de aprendizaje computacional y términos similares son a menudo utilizados en el contexto de análisis de datos para denotar la aplicación de ajuste de modelos genéricos o de algoritmos de clasificación para análisis predictivo de datos. Una forma sencilla de explicar el aprendizaje automatizado podría darse a través de las tres fases dadas por Janet Finlay (1996). Estas son: 1. Entrenamiento: Se estudia un conjunto de ejemplos de conductas correctas y una representación del nuevo conocimiento adquirido es almacenada. Esto significa a menudo un conjunto de reglas. 2. Validación: Las reglas son testadas y, si es necesario, se les da un entrenamiento adicional. Algunas veces se utilizan datos adicionales, ante la posibilidad de poder validar las reglas, u otras veces se usa conocimiento automatizado basado en componentes. En estos casos, la forma de realizar el experimento puede ser crítica. 373

387 3. Aplicación: Las anteriores reglas son utilizadas en respuesta a nuevas situaciones Aplicación: Reglas empleadas en nuevas situaciones El campo de la Inteligencia Computacional aglutina diferentes técnicas y metodologías las cuales están inspiradas en bases biológicas o naturales. De entre ellas, las de mayor aceptación han sido las conocidas como Redes Neuronales, las cuales provienen de un modelo simplista de las interconexiones neuronales del cerebro. Este modelo combina simples neuronas y pesos que modelan las conexiones sinápticas, las cuales pueden ser sintonizadas a través de algoritmos de aprendizaje para desarrollar una variedad de tareas que pueden sewr caracterizadas como clasificaciones o regresiones. Las tareas de regresión intentan reconstruir predictores para variables, tanto discretas como continuas, de un conjunto de datos. Tales predictores pueden ser utilizados en aplicaciones de control a modo de cajas negras modelando un proceso o el comportamiento de un subsistema. Las tareas de clasificación son el núcleo de cualquier procesamiento de datos inteligente, sistema de toma de decisiones o agente inteligente. Otro conjunto de técnicas inspiradas en propuestas biológicas son los Algoritmos Evolutivos, los cuales son métodos de optimización global aleatoria. La optimización es parte fundamental de muchos procesos de aprendizaje, incluyendo los de las Redes Neuronales. Los Algoritmos Evolutivos se aplican a muchos procesos de minimización de funciones no lineales. La Percepción Artificial, incluyendo la visión artificial, es una amplia área dentro de la investigación en Inteligencia Computacional. Radica en el análisis inteligente de la información enviada por los sensores, que pueden ir desde sensores empleados en robótica (sonar, infrarrojos, láser, video), pasando por sensores de procesos químicos, hasta sensores táctiles. El mayor énfasis filosófico estriba en la idea de que la mayor parte del comportamiento inteligente es debido a apropiados procesamientos del conjunto de datos bastos llegados desde los sensores. Como técnicas de procesamiento de señal, son una parte fundamental del conocimiento. Las herramientas de inteligencia computacional pueden ser aplicadas a investigaciones de mercado, exploración de bases de datos de productos, procesamiento de información sensorizada, análisis de datos en registros con información proporcionada por sensores, etc. 5. Estrategia de Control Predictivo El teoría de Control Predictivo basado en Modelos (MPC) nació en la década de los 70 y se ha desarrollado considerablemente desde entonces. El término MPC no designa una estrategia de control específica, sino que va más allá abarcando 374

388 un amplio rango de métodos de control, los cuales hacen un uso explícito de un modelo del proceso para obtener la señal de control que minimice una función objetivo. Estos métodos de diseño gobiernan los controladores que tienen prácticamente la misma estructura y presentan un conjunto adecuado de parámetros sintonizables. El fundamento del MPC, apareciendo en mayor o menor medida en la familia de control predictivo, es básicamente la utilización explícita de un modelo para predecir la salida del proceso en un futuro temporal (horizonte). El cálculo de una secuencia de control se realiza mediante la minimización de una función objetivo y el uso de una estrategia de alejamiento. De este modo, en cada instante de tiempo (paso) se calcula un nuevo horizonte hacia el futuro, el cual está directamente relacionado con la primera señal de control extraída de la nueva secuencia calculada en cada paso [7]. Por otro lado, las Redes Neuronales actualmente son muy utilizadas para resolver problemas de control para sistemas no lineales. Recientemente se han desarrollado múltiples controladores neuronales, bajo estrategias de optimización, de entre los cuales se pueden encontrar controladores neuropredictivos propuestos con finalidades semejantes. Actualmente, en sus proceso de aprendizaje se emplean métodos de entrenamiento de primer orden, siendo el más representativo el algoritmo de Retropropagación (Backpropagation). Además, existen varios intentos en simplificar los procesos de sintonización de los controladores estudiando la influencia de las recursividades y su posible comportamiento cuando algunas de ellas son ignoradas [8]. 6. Desarrollo del proyecto de emociones humanas El sistema que se desarrollará en este proyecto presenta varias innovaciones y contribuciones técnicas con respecto a las estructuras clásicas utilizadas hoy en día. Los sistemas clásicos de medida de emociones están basados principalmente en información sobre gestos, habla o léxico, obtenida mediante una sensorización directa. El nuevo sistema de medida que se propone en este proyecto, está conformado por una estructura híbrida la cual integra los siguientes componentes: - Un módulo de Aprendizaje Automatizado. Este módulo está entrenado con conocimiento previamente adquirido a través de respuestas emocionales humanas. En él se manejarán varios submódulos basados en Redes Neuronales, Algoritmos Genéticos, Árboles de Decisión y Modelos Ocultos de Markov. 375

389 - Información obtenida a través de percepción simple mediante sensores no intrusivos. - Un módulo de Control Predictivo Emocional que afrontará la tarea de simular el comportamiento del cerebro humano. - Un sistema que recoja Conocimiento Emocional. Esto se realizará a través de tres bases de datos, las cuales almacenarán, organizarán e indicarán el conocimiento sobre: Experiencias emocionales humanas. Patrones emocionales humanos. Recuerdos emocionales. - Además, se le dotará al sistema de un carácter evolutivo, el cual se actualizará y mejorará a medida que se estudie la información en tiempo real que, proveniente de la plataforma de medida, se le vaya entregando. Todo esto puede compararse en la siguiente figura, donde se muestran ambos sistemas. Figura 2. (a) Sistema clásico para la medida de emociones humanas, (b) Nuevo sistema de medida híbrido. Por todo ello, las principales innovaciones del sistema serán: 1. El análisis de emociones humanas no perceptibles. 2. Un nuevo enfoque en el modelado de emociones humanas basado en experiencias emocionales. 3. Automatización de las emociones humanas mediante estrategias de control predictivo. 376

390 4. Simulación y medida basada en experiencias emocionales humanas y técnicas de aprendizaje automatizado. El nuevo sistema proporcionará una medida fiable de emociones humanas no perceptibles, permitiendo así la introducción de patrones emocionales en el diseño de un nuevo sistema de control automático robusto y amigable. Esta nueva generación de sistemas de control podrían ser aplicados a aquellos entornos que requieren capacidades de interacción humana (interfaces, sistemas de regulación, etc.), en sectores tan dispares como en seguridad industrial, inteligencia medioambiental, sistemas desarrollados para tratar con discapacitados, ancianos, niños o bebés, etc. References 1. Cañamero, L.. Emotion understanding: From the perspective of autonomous robots research. Neural Networks, Vol (2005). 2. Taylor, J. G., & Fragopanagos, N. The interaction of attention and emotion. Neural Networks, Vol (2005). 3. Sander, D., Grandjean, D., & Scherer, K. R. A systems approach to appraisal mechanisms in emotion. Neural Networks, Vol (2005). 4. Cowie, R., Douglas-Cowie, E., & Cox, C. Beyond emotion archetypes: Databases for emotion modelling using neural networks. Neural Networks, Vol (2005). 5. Taylor, J. G., Scherer, K., & Cowie, R. Emotion and brain: Understanding emotions and modelling their recognition. Neural Networks, Vol (2005). 6. Fragopanagos, N., & Taylor, J. G. Emotion recognition in human computer interaction. Neural Networks, Vol (2005). 7. Camacho, E. F., & Bordons C. Model Predictive Control. Edit. Springer- Verlag, Great Britain, (2000). 8. Narendra K. S., & Parthasarathy K., Identification and Control of Dynamical Systems Using Neural Networks, IEEE Trans. Neural Networks, vol. 1, pp. 4-27, Mar. (1990). 377

391 G. Tecnologías emergentes No Author Given No Institute Given G1 Aplicaciones de RFID. Israel Rebollo (Grupo de Inteligencia Computacional). G2 Knowledge based industrial maintenance using portable devices and augmented reality. Carlos Toro (VICOMtech), César Sanín (Faculty of Engineering and Built Environment, University of Newcastle), Javier Vaquero, Jorge Posada (VICOMtech), Edward Szczerbicki (Faculty of Engineering and Built Environment, University of Newcastle). G3 Inteligencia ambiental, sistemas ubícuos y visión por computador en telefonía móvil. Ramón Moreno (Grupo de Inteligencia Computacional). 378

392 APLICACIONES DE RFID ISRAEL REBOLLO Informatica 68 Investigación y Desarrollo S.L. Zuatzu, 4-1º San Sebastián, Gipuzkoa, España Grupo Inteligencia Computacional, Dept. CCIA, UPV/EHU Facultad de Informatica San Sebastián, Gipuzkoa, España MANUEL GRAÑA Grupo Inteligencia Computacional, Dept. CCIA, UPV/EHU Facultad de Informatica San Sebastián, Gipuzkoa, España En este trabajo se revisa el estado actual de desarrollo de aplicaciones de la tecnología de identificación mediante radiofrecuencia (RFID). Estos sistemas consisten en marcadores (tags) que emiten señales de radiofrecuencia (RF) codificando la información de identificación en respuesta a la interrogación realizada por dispositivos de lectura también por medio de señales de RF. Damos una descripción somera de estos sistemas, introducimos algunos de los temas objeto de desarrollo, estudio y discusión actualmente. Finalmente, damos un recorrido por las aplicaciones de estos sistemas, que abarcan desde los controles de inventario hasta el seguimiento de pacientes y personal en ambientes hospitalarios. 1. Introducción El crecimiento actual de las aplicaciones de los sistemas RFID es tan vertiginoso que una descripción exhaustiva merecería una monografía y probablemente resultaría obsoleta en gran parte al tiempo de llegar al público. El objetivo del presente artículo es trazar las líneas maestras de una categorización de las aplicaciones de estos sistemas, introduciendo también algunas de las polémicas, la historia y el futuro de estos sistemas. Un RFID es un sistema de identificación por radio frecuencia [1] [2] [3] [4] [5]. Está compuesto de tres partes. Un lector de señales de RF, un marcador que emite su información mediante señales de RF y una aplicación que procesa la información contenida en estas señales. El funcionamiento es sencillo, los emisores o marcadores, son pequeños chips eprom que envían señales de RF como respuesta a señales de interrogación enviadas por los lectores RIFD. Los lectores envían la información recogida a 379

393 un sistema de gestión. Tanto los lectores como los marcadores tienen una antena de recepción y emisión de señales de RF. Figura 1. Esquema de funcionamiento de un sistema completo de RFID. Los marcadores pueden ser activos o pasivos: Los marcadores activos, son unos dispositivos con una batería interna que le permite emitir señales de RF en cualquier momento. Estas señales abarcan básicamente 4 bandas de frecuencias: baja frecuencia (entre 125 y 134 Khz.), alta frecuencia (13,56 Mhz), UHF (entre 868 y 956) y microondas (2,45 Ghz). Su alcance va desde unos centímetros hasta varios metros, o centenares de metros si se utiliza tecnología wifi. Debido a su batería, estos marcadores son relativamente grandes y caros comparados con los marcadores pasivos, y su uso está restringido a aplicaciones muy concretas. Los marcadores pasivos sólo emiten como respuesta a una señal de RF emitida por un dispositivo de lectura, que lo activa y escucha su respuesta. Los marcadores pasivos no disponen de batería interna, se componen de un pequeño circuito, un condensador para almacenar energía que reciben de la señal del lector, y una antena para poder emitir y recibir la señal. Esto implica que la señal del emisor debe ser de alta potencia para cargar el marcador pasivo, y que dado que la señal emitida por el lector posee una cantidad de energía limitada, la intensidad de señal es mucho menor que la de los marcadores activos, reduciendo su alcance a unos pocos centímetros. Los marcadores pasivos tienen un bajo costo de fabricación, son ligeros y de pequeño tamaño. La idea de los sistemas RFID surge durante la segunda guerra mundial. Tras la invención del RADAR, se definió un sistema para poder identificar si los 380

394 aviones que regresaban a la base eran amigos o enemigos (Friend or Foe). La tecnología fue desarrollándose poco a poco a la par que mejoraban los sistemas de RADAR y los sistemas de antenas para la captación y emisión de RF. En los años 60, se empezó a usar la RF como sistema antirrobo. El gran boom del RFID se produjo en 1999, cuando los profesores del MIT David Brock y Sanjay Sarma investigaron la posibilidad de producir marcadores de bajo coste que posibilitaran su uso masivo. [ Inicialmente, las propuestas de utilización de sistemas RFID se referían a sistemas de inventario [7] [8] y facturación inteligentes sustituyendo a los códigos de barras. La cadena de supermercados Wall-Mart [9] fue pionera en el estudio de la implantación de estos sistemas. En la actualidad se ha llegado a que es posible realizar sistemas de identificación personal con microchips injertados bajo la piel domésticos [10]. El uso de RFID posee grandes ventajas respecto al sistema de identificación más extendido hasta la fecha: los códigos de barras [11]: 1. Admiten lectura múltiple, se pueden leer varios marcadores simultáneamente. 2. Se pueden establecer protocolos de seguridad (encriptación) para evitar el acceso a los mismos por terceros [6]. 3. No necesitan estar en el campo visual del lector para poder leerse, por lo que puede efectuarse la identificación sin necesidad de desembalar el producto. 4. Algunos marcadores pueden ser reescritos. El presente articulo, esta estructurado de la siguiente forma. El apartado 2 describe los elementos de la tecnología RFID. El apartado 3 esta dedicado a la seguridad. El apartado 4 hace una revisión del estado del arte en las aplicaciones de estos sistemas. Por ultimo en el apartado 5, se muestran las conclusiones del presente artículo. 2. Introducción La tecnología RFID está basada en microchips de dos tipos, un microchip lector que es el que se encarga de recibir la señal e interpretarla, y un microchip emisor o marcador que es el que emite la señal. En la figura 2 se muestran dos ejemplos de marcadores, un marcador pasivo (figura 2a) y un marcador subcutáneo (figura 2b). La figura 3 ilustra un sistema con varios tipos de marcadores y antenas lectoras. 381

395 (a) Figura 2. Ejemplos de marcadores (a) circuito de un marcador pasivo donde se aprecia la antena como una bobina alrededor del circuito EPROM. (b) un marcador subcutáneo. El alcance de los marcadores depende de la frecuencia las antenas usadas y de los propios marcadores [12], [13], [14]. Los marcadores pasivos poseen una antena que se dispone alrededor del marcador para reducir así su tamaño (figura 2a). (b) Figura 3. Marcadores, antenas y sistema de gestión Electronic Product Code (EPC) El AutoID Centre (centro de identificación automática) del MIT, desarrolló un marcador denominado EPC (código de producto electrónico), que une los códigos de identificación EAN (European Article Number) y UCC (Uniform Code Council) y que se ha propuesto como sustituto de los códigos de barras. Los marcadores EPC no constituyen un estándar, pero están próximos a las 382

396 especificaciones de la norma ISO 18000, lo que apunta hacia una pronta estandarización. Los marcadores EPC poseen siempre un código de identificación único de 96 bits imborrable, y espacio para almacenar otro tipo de información. Pueden traer una codificación fija de fabricación, EPC Clase 0, o se pueden reprogramar, EPC Clase Materiales Los marcadores RFID son microchips fabricados de metal y que están encapsulados en un cuerpo de metal, plástico o papel. Esto permite la fabricación de marcadores pequeños y de bajo coste. La aparición de baterías extraplanas ha reducido el coste y el tamaño de los marcadores activos haciéndolos mas accesibles. Las nuevas técnicas de fabricación, desarrolladas gracias a la aparición de elementos como los anisotropically conductive adhesives (ACAs) [15] que posibilitan la fabricación de marcadores de papel, o el anisotropically conductive film (ACF) [16], una variante de ACA, que facilita la fabricación de marcadores de plástico, van a permitir bajar los costes aún mas de forma que la barrera económica que durante años ha paralizado el desarrollo del RFID desaparecerá. Estos materiales deben ser robustos para soportar condiciones ambientales adversas, como temperaturas muy bajas en bancos de células [17]. El problema de la recuperación de los residuos se acentúa ya que los marcadores no se reutilizan [18]. En la actualidad, la empresa Hitachi ha conseguido la fabricación de marcadores RFID de unas dimensiones de 0.05mm X 0.05mm, que lo asemejan al polvo, y que es un paso más en el desarrollo de RFID [ Protocolos anticolisión La emisión de muchas señales de forma simultánea provoca que colisionen, siendo necesarios protocolos anticolisión que no limiten el uso de esta tecnología. El problema se puede afrontar desde varios puntos de vista [19], que se corresponden con los siguientes protocolos estándar de comunicación: SDMA (División del espacio para accesos múltiples). FDMA (División de frecuencias para accesos múltiples) 383

397 CDMA (División de los códigos para accesos múltiples) TDMA (División del tiempo de acceso para accesos múltiples) Otra línea de investigación de protocolos anticolisión consiste en soluciones híbridas [20], que combinan protocolos anticolisión con estudios sobre la colocación espacial óptima de las antenas RFID en humanos La frontera actual se sitúa posiblemente en la necesidad de desarrollar estándares de comunicación, implantación y uso para la implantación de marcadores RFID en humanos. Las bases de estos estándares son los estándares desarrollados a finales del siglo XX [21] [22] [23] para animales. Las normas ISO y del 1996, y posteriormente la norma ISO del 2003 establecen el uso de RFID en animales, estableciendo la banda de frecuencia de uso por debajo de los 135 Khz. y un identificador único de 64 bits. Normas más actuales, amplían el tamaño de la información almacenada y dan luz verde a poder escribir en los marcadores y otros usos. En la sección 4.5 se describen ejemplos de uso de RFID en seres humanos. 3. Seguridad Entendemos que Seguridad abarca tanto la protección de la información almacenada en los marcadores, así como el uso que se le da a esta por personal autorizado o no autorizado y los aspectos legales de la misma. La tecnología RFID plantea problemas específicos de seguridad[24], [25]. Distinguimos entre seguridad tecnológica y privacidad Seguridad tecnológica Los marcadores RFID, emiten de forma arbitraria siendo muy difícil controlar quien lee la señal enviada por un marcador. Es importante disponer de un protocolo de autentificación, que nos asegure que la lectura de un marcador sea posible solo para el destinatario autorizado [26]. Por ejemplo puede exigirse que los marcadores realicen algún tipo de autentificación antes de emitir la información que poseen. Existen varios métodos [27] que sirven para este propósito. Estos métodos, deben poseer la robustez necesaria para evitar accesos no deseados, ya que a pesar de limitar el acceso a los marcadores mediante un proceso de verificación, este proceso en si mismo no esta carente de riesgo [28]. 384

398 Un ejemplo ya clásico de falta de seguridad de la tecnología RFID es el chip, Verichip [29], usado para la identificación de seres humanos. Este chip va injertado bajo la piel y facilita la identificación del portador del mismo. Sin embargo, este chip no aporta ningún mecanismo de seguridad para evitar lecturas no permitidas. En [29], se indican los problemas de seguridad, poniendo de relieve que este chip debe ser usado para autentificar la identidad, y nunca como medio de identificación. En [30] se presenta el ejemplo contrario, un sistema para uso de telefonía móvil, que posee un alto grado de seguridad y privacidad. Aunque todavía la tecnología RFID es muy joven, ya empiezan a aparecer virus, capaces de atacar marcadores RFID [31], lo cual plantea nuevos retos de seguridad a nivel de integridad del sistema Privacidad La privacidad de la información almacenada en los marcadores es un problema que surge cuando los dispositivos RFID pueden asociarse unívocamente con un individuo y llegan a mantener información sobre sus actividades o sus gustos [32] [33]. Cuando se compra un producto que posee un chip RFID, este puede permanecer activo, y seguir enviando información, que podría llevar a identificar y seguir al propietario del producto, violando la intimidad de este. Los aspectos sobre los que deberá existir legislación van desde la obligatoriedad de informar de la existencia de marcadores en productos comerciales hasta las capacidades de almacenamiento y reproducción de la información permisibles en marcadores asociados a productos de consumo masivo [34]. 4. Aplicaciones El abanico de aplicaciones que cubre la tecnología RFID, es muy grande, y crece cada día con nuevos usos. Para ver aplicaciones reales de la tecnología RFID, se va a subdividir esta sección en 6 grandes apartados: alimentación, localización, logística, medicina, identificación y monitorización. Autentificación consiste en confirmar que el sujeto es quien dice ser. Identificación consiste en obtener la identidad del sujeto sin su necesaria participación. La diferencia ética y legal consiste en que la identificación permite el control de los individuos, mientras que la autentificación tan sólo permite asegurar contra falsificación de identidades. 385

399 Figura 4. Diagrama de aplicación de un sistema RFID en logística y control de inventario Alimentación El uso de RFID en la alimentación, proporciona grandes ventajas, en temas relativos a control de stock y trazabilidad de productos perecederos [35], además los marcadores RFID permiten una gestión higiénico / sanitaria mucho más avanzada. En concreto, en [36] y [37], se muestran ejemplos de seguridad en los alimentos para evitar que productos en mal estado lleguen al usuario final. Otro ejemplo es el de la manipulación y empaquetamiento de carne [38]. Pero falta conocer los efectos de la señal de RF de los marcadores sobre los alimentos [42]. El uso de RFID en agricultura, supone una mejora en la producción, al poder monitorizar el entorno de cultivo de forma permanente [39]. Además, la trazabilidad aumenta la seguridad en los envíos y reducen las perdidas de productos [40]. Diversos estudios, han analizado el impacto de la tecnología RFID en algunos sectores concretos, como las tiendas de ultramarinos [41], para evaluar las virtudes y defectos de RFID Localización Se entiende por localización, la capacidad para ubicar un objeto en un lugar donde no sea trivial encontrarlo. La localización puede ser un problema difícil 386

400 en lugares como un almacén, una obra civil, un aeropuerto [43] y, en general, cualquier lugar grande donde haya muchos objetos. Con sistemas RFID, se pueden optimizar los recursos para gestionar un almacén [44], colocando marcadores a los objetos almacenados. Estos objetos se encontrarán colocados de forma activa en el almacén, emitiendo señales que al ser recogida por un lector, permitirá reducir el tiempo para localizar un artículo, impidiendo además que se pierda dentro del almacén. La figura 4 ilustra esta idea. Se puede tener localizadas mediante RFID las piezas que componen un objeto [45], en cadenas de montaje [46], o las herramientas [47]. También se ha propuesto para localizar la ropa en tiendas [48] reduciendo el tiempo de búsqueda, dado que la ropa se organiza por tallas difíciles de distinguir a simple vista. Se han utilizados marcadores RFID colocados en los carros de la compra de un supermercado, para realizar un mapa de rutas habituales de los compradores por el supermercado, y así colocar los productos de una forma mas eficiente mejorando las ventas [49] Logística, trazabilidad e inventario Hoy en día con marcadores RFID se puede realizar un seguimiento de los objetos desde que salen de la fábrica, hasta que llegan al usuario final, asegurándonos que en cada almacén intermedio llegan los objetos esperados. Se colocan marcadores RFID en los artículos, que pueden ser fácilmente identificados de forma automática [51] en tiempo real al entrar y salir de los almacenes [50], detectando de forma temprana la perdida de un objeto. Estos sistemas tienen aplicación inmediata evitando el contrabando en las aduanas [52] o gestionando containeres en los grandes puertos [53]. En [54] se presenta un ejemplo de trazabilidad para ropa y en [55] se proponen sistemas para el seguimiento de guijarros y pedruscos en una playa con olas de alta energía para hacer un estudio dinámico de su fisonomía y evolución. Los sistemas RFID permiten recuentos periódicos rápidos y precisos. En las obras civiles, el material de construcción en muchas ocasiones se almacena con escaso control. Los sistemas RFID posibilita tener correctamente inventariado todo el material [56]. En [57], hay un ejemplo mas especifico, sobre tuberías que se almacenan de forma desordenada. 387

401 En una biblioteca [58], que puede considerarse un particular almacén de libros, la tecnología RFID ayuda a el control de stock, localizar libros, gestionar las reservar y como sistema anti-hurto. Hoy en día, ya se utilizan disruptores, marcadores especiales que solo almacenan un bit de información: activado o desactivado y que se usa como antirrobo. Antes de utilizar la tecnología RFID hay que evaluar los beneficios de su uso en inventarios [8] y otras aplicaciones. Hay estudios sobre el impacto del RFID es la industria de impresión [59], que pueden servir de referencia para evaluar la conveniencia o no de implantar un sistema RFID Medicina La tecnología RFID todavía no esta fuertemente implantada en los hospitales y centros sanitarias, y solo se encuentran vagas referencias en la bibliografía. Un posible uso es el suministro medicamentos [60] para evitar un olvido o facilitar la programación de la administración de medicamentos en horas concretas del día. Otra utilidad de RFID en medicina se describe en [61] para identificar bolsas de sangre en hospitales Identificación de Humanos El uso de RFID en humanos se plantea en su vertiente más optimista y positiva como una nueva forma de comunicarse con el mundo. Permitirá a las personas poder identificarse sin tener que portar ningún tipo de documentación o pagar sin llevar dinero encima. Pero, donde colocar el marcador RFID?. Habitualmente se injerta bajo la piel pero también puede ser colocado en un diente [62] para que afecte lo menor posible a su portador [63]. La identificación de personas es muy útil en desastres naturales donde los cadáveres de personas se agolpan para poder ser identificados, como ocurrió en el tsunami de Indonesia del 2004 [64] Identificación de entornos por humanos Hasta ahora se asume que los marcadores RFID, deben de estar injertados dentro de las personas, pero como vemos en [65] sobre mapeo de lugares para invidentes, podemos llevar un marcador incrustado en nuestra ropa, cuando la finalidad del marcador es que una persona reconozca el entorno. En este caso, se ha diseñado una malla de marcadores RFID que indican a la persona su ubicación y obstáculos cercanos. 388

402 Localización de humanos Otro problema es la localización de personas, y / o robots móviles dentro de un entorno acotado [66]. Se pueden localizar niños en centros comerciales o parques de atracciones. Bastará con colocar una pulsera u otro objeto en la persona a monitorizar. La nueva creación de pasaportes con RFID [67] nos ofrece las ventajas de la identificación RFID con la comodidad de poder usar el chip solo cuando el propietario del mismo quiera Seguimiento y monitorización Se define seguimiento y monitorización como el registro de las actividades, desplazamientos y pautas de comportamiento de objetos, procesos o seres vivos. Se puede llegar al extremo de colocar marcadores RFID en insectos para hacer un seguimiento de su comportamiento [68] [69]. El seguimiento de salmones que transita por una presa [70] es otro ejemplo de posibles usos de RFID que hasta la fecha eran impensables. Estos estudios abren las puertas de descubrimientos científicos que han permanecido ocultos por la falta de una tecnología de observación y monitorización adecuada. 5. Conclusiones En el presente artículo, se ha bosquejado la gran cantidad de aplicaciones que van surgiendo de los sistemas RFID, y como cada vez se da más relevancia a esta tecnología en el mundo empresarial e incluso institucional. Sin embargo, la aplicación de esta tecnología, esta todavía en una fase muy inmadura, se carecen de estándares y de formas comunes de actuación. Para cada problema se buscan soluciones muy particulares que carecen de valor fuera de su ámbito particular. Además existen diversas áreas donde a pesar de estar usándose ya esta tecnología, no se le esta sacando todo el partido que las características de la identificación por radio frecuencia ofrece, usando los marcadores como códigos de barras y deteniéndose ahí. Hace falta un impulso de la comunidad científica, que permita crear estándares de aplicación y uso de RFID para un mayor abanico de aplicaciones. Estos estándares posibilitarán la aparición de productos que simplifiquen la adopción de esta tecnología tanto en facilidad de uso como en reducción de costes, ya que si bien el coste de los marcadores ha caído en picado, las aplicaciones son todavía muy costosas. 389

403 References 1. Roberts, C.M., Radio frequency identification (RFID). Computers & Security, (1): p Gunasekaran, A., E.W.T. Ngai, and R.E. McGaughey, Information technology and systems justification: A review for research and applications. European Journal of Operational Research, (3): p Ranky, P.G., An introduction to radio frecuency identification (RFID) methods and solutions. Assembly Automation, (1): p Weinstein, R., RFID: A Technical Overview nad Its Aplication o the Enterprise. IT Professional, (3): p Smith, A.D., Exploring radio frequency identification technology and its impact on business systems. Information Management & Computer Security, (1): p Robshaw, M.J.B., An overview of RFID tags and new cryptographic developments. Information Security Technical Report, (2): p Young M. Lee, F.C., Ying Tat Leung, Exploring the impact of RFID on supply chain dynamics. Procedings of the 2004 winter simulation conference, Doerr, K.H., W.R. Gates, and J.E. Mutty, A hybrid approach to the valuation of RFID/MEMS technology applied to ordnance inventory. International Journal of Production Economics, (2): p Wu, N.C., et al., Challenges to global RFID adoption. Technovation, (12): p Masters, A. and K. Michael, Lend me your arms: The use and implications of humancentric RFID. Electronic Commerce Research and Applications. In Press, Corrected Proof. 11. Frederic Thiesse, F.M., An Overview of EPC technology. Sensor Review, (2): p De Vita, G., F. Bellatalla, and G. Iannaccone, Ultra-low power PSK backscatter modulator for UHF and microwave RFID transponders. Microelectronics Journal, (7): p Biebl, E.M., RF Systems Based on Active Integrated Antennas. AEU - International Journal of Electronics and Communications, (3): p Jones, A.K., et al., An automated, FPGA-based reconfigurable, low-power RFID tag. Microprocessors and Microsystems. In Press, Uncorrected Proof. 15. Rasul, J.S., Chip on paper technology utilizing anisotropically conductive adhesive for smart label applications. Microelectronics Reliability, (1): p

404 16. Frisk, L., J. Jarvinen, and R. Ristolainen, Chip on flex attachment with thermoplastic ACF for RFID applications. Microelectronics Reliability, (9-11): p Ihmig, F.R., et al., Cryogenic electronic memory infrastructure for physically related "continuity of care records" of frozen cells. Cryogenics, (4): p Wager, P.A., et al., Smart labels in municipal solid waste -- a case for the Precautionary Principle? Environmental Impact Assessment Review, (5): p Shih, D.-H., et al., Taxonomy and survey of RFID anti-collision protocols. Computer Communications, (11): p Simplot-Ryl, D., A hybrid randomized protocol for RFID tag identification. Sensor Review, (26): p Kampers, F.W.H., W. Rossing, and W.J. Eradus, The ISO standard for radiofrequency identification of animals. Computers and Electronics in Agriculture, (1-2): p Wismans, W.M.G., Identification and registration of animals in the EuropeanUnion. Computers and Electronics in Agriculture, (1-2): p Jansen, M.B. and W. Eradus, Future developments on devices for animal radiofrequency identification. Computers and Electronics in Agriculture, (1-2): p Flint, D., RFID tags, security and the individual. Computer Law & Security Report, (2): p Knospe, H. and H. Pohl, RFID security. Information Security Technical Report, (4): p Chien, H.-Y. and C.-H. Chen, Mutual authentication protocol for RFID conforming to EPC Class 1 Generation 2 standards. Computer Standards & Interfaces,. 29(2): p Dantu, R., G. Clothier, and A. Atri, EAP methods for wireless networks. Computer Standards & Interfaces. In Press, Corrected Proof. 28. Ayoade, J., Security implications in RFID and authentication processing framework. Computers & Security, (3): p Halamka, J., et al., The Security Implications of VeriChip Cloning. Journal of the American Medical Informatics Association, (6): p Mayrhofer, R., et al., Securing Passive Objects in Mobile Ad-Hoc Peer-to- Peer Networks. Electronic Notes in Theoretical Computer Science, (3): p Rieback, M.R., et al., RFID malware: Design principles and examples. Pervasive and Mobile Computing, (4): p Little, J. and A. Brown, Someone to watch over you. Computer Law & Security Report, (2): p

405 33. Potter, B., RFID: misunderstood or untrustworthy? Network Security, (4): p Dobson, T. and E. Todd, Radio frequency identification technology. Computer Law & Security Report, (4): p Karkkainen, M., Increasing efficiency in the supply chain for short life goods using RFID tagging. International Journal of Retail & Distribution Management, (10): p McMeekin, T.A., et al., Information systems in food safety management. International Journal of Food Microbiology, (3): p Kumar, S. and E.M. Budin, Prevention and management of product recalls in the processed food industry: a case study based on an exporter's perspective. Technovation, (5-6): p Kerry, J.P., M.N. O'Grady, and S.A. Hogan, Past, current and potential utilisation of active and intelligent packaging systems for meat and musclebased products: A review. Meat Science, (1): p Wang, N., N. Zhang, and M. Wang, Wireless sensors in agriculture and food industry--recent development and future perspective. Computers and Electronics in Agriculture, (1): p Jedermann, R., et al., Applying autonomous sensor systems in logistics-- Combining sensor networks, RFIDs and software agents. Sensors and Actuators A: Physical, (1): p Edmund Prater, G.V.F., Pedro M. Reyes Future impacts of RFID on e- supply chains in grocery retailing Supply Chain Management: An International Journal, (2): p Vorst, K.L., et al., A research note on radio frequency transponder effects on bloom of beef muscle. Meat Science, (1): p David C. Wyld, M.A.J.a.J.W.T., Where is my suitcase? RFID and airline customer service. Marketing Intelligence & Planning, (4): p Chow, H.K.H., et al., Design of a RFID case-based resource management system for warehouse operations. Expert Systems with Applications, (4): p Umetani, T., et al., Construction automation based on parts and packets unification. Automation in Construction, (6): p Huang, G.Q., Y.F. Zhang, and P.Y. Jiang, RFID-based wireless manufacturing for walking-worker assembly islands with fixed-position layouts. Robotics and Computer-Integrated Manufacturing. In Press, Corrected Proof. 47. Goodrum, P.M., M.A. McLaren, and A. Durfee, The application of active radio frequency identification technology for tool tracking on construction job sites. Automation in Construction, (3): p

406 48. Hum, A.P.J., Fabric area network - a new wireless communications infrastructure to enable ubiquitous networking and sensing on intelligent clothing. Computer Networks, (4): p Larson, J.S., E.T. Bradlow, and P.S. Fader, An exploratory look at supermarket shopping paths. International Journal of Research in Marketing, (4): p Chow, H.K.H., K.L. Choy, and W.B. Lee, A dynamic logistics process knowledge-based system - An RFID multi-agent approach. Knowledge- Based Systems. In Press, Corrected Proof. 51. Osyk, B.S.V.a.B.A., An Empiric study of RFID implementation in the warehousing industry. The international journal of logistics management, (1): p Li, Y., et al., Inspection-oriented coding service based on machine learning and semantics mining. Expert Systems with Applications, (4): p Ngai, E.W.T., et al., Mobile commerce integrated with RFID technology in a container depot. Decision Support Systems. In Press, Corrected Proof. 54. Wong, K.H.M., P.C.L. Hui, and A.C.K. Chan, Cryptography and authentication on RFID passive tags for apparel products. Computers in Industry, (4): p Allan, J.C., R. Hart, and J.V. Tranquili, The use of Passive Integrated Transponder (PIT) tags to trace cobble transport in a mixed sand-and-gravel beach on the high-energy Oregon coast, USA. Marine Geology, (1-2): p Yagi, J., E. Arai, and T. Arai, Parts and packets unification radio frequency identification (RFID) application for construction. Automation in Construction, (4): p Song, J., et al., Automating the task of tracking the delivery and receipt of fabricated pipe spools in industrial projects. Automation in Construction, (2): p Coyle, K., Management of RFID in Libraries. The Journal of Academic Librarianship, (5): p Jiang-Liang Hou, C.-H.H., Quantitative performance evaluation of RFID applications in the supply chain of the printing industry. Industrial Management & Data Systems, (1): p Santoso, A., A. Kaiser, and Y. Winter, Individually dosed oral drug administration to socially-living transponder-tagged mice by a water dispenser under RFID control. Journal of Neuroscience Methods, (2): p Ahrens, N., et al., Failure of bedside ABO testing is still the most common cause of incorrect blood transfusion in the Barcode era. Transfusion and Apheresis Science, (1): p

407 62. Thevissen, P.W., et al., Implantation of an RFID-tag into human molars to reduce hard forensic identification labor. Part I: Working principle. Forensic Science International, (Supplement 1): p. S33-S Thevissen, P.W., et al., Implantation of an RFID-tag into human molars to reduce hard forensic identification labor. Part 2: Physical properties. Forensic Science International, (Supplement 1): p. S40-S Meyer, H.J., N. Chansue, and F. Monticelli, Implantation of radio frequency identification device (RFID) microchip in disaster victim identification (DVI). Forensic Science International, (2-3): p Scooter Willis, S.H., A passive RFID Information Grid for Location and Proximity Sensing for the Blid User. University of Florida Technical Report, 2004(TR04-009). 66. Matthai Philipose, K.P.F., Mapping and Localization with RFID Technology. Intel Reseach, IRS-TR Hunter, P., London terrorist attacks heat up identity card debate and highlight uncertainties over their efficacy. Computer Fraud & Security, (7): p Streit, S., et al., Automatic life-long monitoring of individual insect behaviour now possible. Zoology, (3): p Reynolds, D.R. and J.R. Riley, Remote-sensing, telemetric and computerbased technologies for investigating insect movement: a survey of existing and potential techniques. Computers and Electronics in Agriculture, (2-3): p Nunnallee, E.P., et al., Evaluation of a flat-plate PIT tag interrogation system at Bonneville Dam. Aquacultural Engineering, (4): p

408 Knowledge based Industrial Maintenance using portable devices and Augmented Reality Carlos Toro 1, Cesar Sanín 2, Javier Vaquero 1, Jorge Posada 1, Edward Szczerbicki 2 1 VICOMTech Research Centre, Mikeletegi Pasealekua Donostia, Spain {ctoro, jvaquero, 2 Faculty of Engineering and Built Environment, University of Newcastle University Drive, Callaghan, NSW 2308, Australia Abstract. In this paper we present a framework and a system implementation for the exploitation of embedded knowledge in the domain of industrial maintenance in a mobile context, using Augmented Reality techniques. We base our approach in the SOUPA group of ontologies (Standard Ontology for Ubiquitous and Pervasive Applications). Our approach extends SOUPA with two new ontologies (i) the Set of Experience Knowledge Structure, used to model the user s experience and (ii) the AR ontology which models an Augmented Reality environment that is used to enhance the maintenance experience through virtual elements. As test case, we implemented our approach in different portable devices with video input capabilities such as UMPCs, PDAs and Tablet PCs. Keywords. Ontologies, Industrial Maintenance, Knowledge Based Systems. 1 Introduction Nowadays, engineering systems are based on evolving paradigms; the knowledge and the user experience take a big role in today s applications as we have now the computational capability of modeling such paradigms. From an industrial point of view, there are several processes involved in the product life cycle, being one of extreme interest the maintenance of the product itself; a set of actions which is known as Industrial Maintenance (IM). IM can be defined as the combination of all technical and administrative actions, including supervision actions, intended to retain an entity in, or restore it to, a state in which it can perform a required function [6]. According to Honkanen [5], machines have to be maintained in order to increase reliability and thereby avoid production disturbances. It is, therefore, assumed that the purpose of a single maintenance action is to increase reliability. There are several techniques and theories that can be applied to the Industrial Maintenance field. The explanation of those techniques is outside the scope of this paper, but an interested reader is referred to the work of Honkanen [5]. From an application point of view, different research 395

409 projects have been presented by the scientific community involving the implementation of Virtual and Augmented Reality (VR/AR) to extend the user s understanding and, in general, his experience during the maintenance work ([3],[7]). To our acquaintance, most of these approaches however, miss the potential of using knowledge based theories in the domain that might enhance the user s experience. This user, in our case, is the maintenance worker in a typical industrial facility whose special needs include mobility, fast response and immediate access to the relevant data, like specifications, historical records, etc. We show in this paper that the use of semantics and augmented reality techniques provide additional support to the maintenance tasks, by improving the user understanding of the elements being maintained. The enhancement comes when the knowledge and the user experience related to the maintenance system is embedded in the AR environment as an important aid for the user, giving him a sense of immersion. This paper is organized as follows: In chapter 2, an overview of the conceptual basis is presented. In chapter 3, we introduce our knowledge based industrial maintenance system. In chapter 4, we show an application scenario, explaining briefly some highlights, and in chapter 5, we present our conclusions and future work. 2 Conceptual basis and background In this chapter we introduce some concepts relevant to this paper. Our intention is not to give a wide description of the topics involved, but to give a short overview in order to offer a self-contained paper. 2.1 Knowledge modeling using ontologies Following is Tom Gruber s widespread accepted definition of what ontology is in the Computer Science domain: ontology is the explicit specification of a conceptualization; a description of the concepts and relationships in a domain [4]. In the context of Artificial Intelligence (AI), we can describe the ontology of a program by defining a set of representational terms. In such ontology, definitions associate names of entities in the universe of discourse with human-readable text describing what the names mean, and formal axioms that constrain the interpretation and wellformed use of these terms. Computer programs can use ontologies for a variety of purposes including inductive reasoning, classification, and problem solving techniques, as well as communication and sharing of information among different systems. In addition, emerging semantic web systems use ontologies for a better interaction and understanding between different agent web-based systems. Ontologies can be modelled using several languages, being the most widely used RDF and recently OWL (Ontology Web Language) [11]. Ontology modelling can deliver interesting benefits as it allows inferring semantically new derived queries. These queries relate concepts that are not explicitly specified by the user, but nevertheless relevant to the query. Modern inference engines and reasoners like Pellet and Racer deliver a highly specialized, yet efficient way to perform such queries via a JAVA 396

410 compliant API [11]. In the literature, data handling by Ontology-based technology is reported by researchers in different fields [11]. Furthermore, user modelling, task and experience are also possible scenarios for the exploitation of semantic data by Ontology based technology as it was addressed for example in the European IST- Project WIDE [10]. 2.2 SOUPA (Standard Ontology for Ubiquitous and Pervasive Applications) SOUPA is a shared ontology expressed using OWL [2], designed to model and support pervasive computing applications (ambient intelligence). It consists of two distinctive but related set of ontologies, called SOUPA Core and SOUPA Extension as can be seen on figure 1. Fig. 1. The SOUPA group of ontologies (Core + Extension) [2] The set of the SOUPA Core ontologies attempts to define generic vocabularies that are universal for different pervasive computing applications, vocabularies for expressing concepts associated with person, agent, belief-desire-intention (BDI), action, policy, time, space and event. The set of SOUPA Extension ontologies define additional vocabularies for supporting specific types of applications and provide examples for future ontology extensions. The Core and Extension of SOUPA have been applied in several research projects like the Context Broker Architecture (CoBrA) [2] which is agent based architecture for supporting context-aware systems in smart spaces. Central to this architecture is an intelligent agent called context broker (majordomo) that maintains a shared model of context on behalf of a community of agents, services, and devices in the space while providing privacy protections for the users. We intend to show in this paper that by extending SOUPA and using the CoBrA architecture is possible to implement a context aware (ubiquitous) system that helps a user in an Industrial Maintenance environment. 397

411 2.3 Virtual Reality and Augmented Reality in the Industrial Maintenance Environment Virtual Reality (VR) is a virtual environment where the user is immersed in a virtual world in which the elements hold the physical resemblance to possible objects belonging to the real world. Milgram and Kishino created a Virtuality Continuum [8] to classify mixed worlds, in where we find Augmented Reality (AR) as a system that, according to Azuma [1], combines real and virtual objects in a real environment enhanced with computer generated graphics, running interactively, in real time, and aligns real and virtual objects with each other. In this work we use Augmented Reality in order to enhance the user s experience (maintenance engineer) by giving him contextualized information extracted from an ontology reasoning kernel. Augmented Reality in an industrial maintenance environment provides, for example, user experience enhancements like the viewing of information related to the object in sight that has been matched with the marker; this information can be extracted from a knowledge system or web page and is contained or handled by the ontologies. Moreover, the handling, in a graphical manner, of the contained information in manuals and operation guides. 2.4 The Set of Experience Knowledge Structure Set of Experience Knowledge Structure (SOE) is an experience tool able to collect and manage explicit knowledge of different forms of formal decision events [9]. The SOE has been developed as part of a platform for transforming information into knowledge named Knowledge Supply Chain System. In the SOE, there are four basic components (see figure 2): variables, functions, constraints and rules associated and stored in a combined dynamic structure. Fig. 2. The Set of Experience Knowledge Structure The combination of the four components of the SOE offers distinctiveness due to the elements of the structure that are connected among themselves, imitating part of a long strand of DNA. A SOE produces a value of decision, called efficiency. Besides, it is possible to group sets of experience by category, that is, by objectives. These groups could store a strategy for such category of decisions. Furthermore, an OWL ontology modelling the SOE was presented by Sanín et al. [9], and it was added to SOUPA with the purpose of extending its functionality in a way that formal decision events can be suggested to the Maintenance User during his/her work. Those stored 398

412 sets of experience are produced by past decisions made by maintainers with the same or similar elements. E.g. the user is checking during her/his duties a butterfly valve. Since it is a fluid restringing element, possible decisions taken in the past on such valve, or a similar element (ball valve), could be suggested by the system. 3 The UDKE System In this chapter, we introduce our Knowledge based Industrial Maintenance system using portable devices and Augmented Reality. We call our architecture UDKE (User, Device, Knowledge and Experience). UDKE provides a possible conceptual model of a maintenance system that combines knowledge, user experience and AR techniques. The schema is divided in layers which are depicted in figure 3. Fig. 3. The UDKE System The User layer contains only the user, handling the particular profile, session, etc. The Device layer contains the modeling of the different devices used to capture the environment (a camera, a PDA, a pocket PC or a Tablet PC, etc) introduced as an extension to SOUPA that we call the UDKE AR ontology. In the figure 4, such extension is depicted (extending from the SOUPA class dev:device) Fig. 4. The UDKE AR extension to SOUPA The Knowledge layer contains the agent platform whose main objective is to interact via majordomo messages with the Semantic abstraction engine. It contains the 399

413 SOUPA Core and the SOUPA Extension ontologies as well as a reasoner system that is in charge of performing the semantic queries. The Ontologies feed their instances from different repositories relevant to the maintenance domain (historical data, programmed stops, cycles, etc). In the Experience Layer, the SOE is enclosed as an OWL ontology with different data bases that feed the reasoning system with functions, rules, constrains and variables used to specify new decisional events or even to contain past decisional events taken over similar elements (where similar refers to the object in sight element or in other words the element in which the maintenance engineer is considering at a given moment). In the next figure, we show the extension place of the SOUPA set of Ontologies in which we derived the Set of Experience Knowledge Structure ontology that was presented by Sanin et al. [9], the extension class is know:knowledge. Fig. 5. Extension of the SOUPA set of Ontologies with the SOE 4 Application scenario At present time, the system is being tested in a real maintenance environment. Rather than describing the actual experiments being held, we would like to present in this article a possible application scenario leaving the experiment results to be exposed in a future publication. In our scenario, the user during his maintenance patrol uses a portable device (PDA, UMPC or Tablet PC) with a camera connected. For every object to be maintained there exist a VR marker (following the sensor concept in ambient intelligence). Every marker is an unequivocal grayscale pattern that can be easily printed in white paper by a regular PC printer. When the camera recognizes a marker, a matching element to be maintained is identified according to the context (user, task, priority) and a set of information is extracted from the repositories. The output video stream of the camera is mixed with 3D objects and other relevant information and is displayed to the user in his portable device screen. As can be seen in figure 6, the user is in front of an element (in this case a fire extinguisher) and when the system recognizes the matching marker, the user receives in the screen information such as the name of the element, the next programmed change, the maintenance procedure etc. All information is obtained from the repositories in the Knowledge layer and is maintained by the Experience layer. 400

414 Fig. 6. AR Enhanced user view using the UDKE Platform 4.1 Implementation issues The system was tested using different portable devices, our implementation uses JAVA as the core language for the prototype implementation. The graphic library and the AR engine used were GL4Java and JARToolkit library respectively. All the ontology modeling was done in Protégé and the API used was the Protégé OWL API. The agent platform used in our implementation was JADE, and for reasoning purposes over the ontologies we chose RACER. When a marker is detected, the system calculates the matrices necessary to place the augmented information via JARToolkit calls. Following the application flow, the Agent platform begin its work starting a majordomo service whose main function is to serve as an intermediary between the user and the rest of the architecture. The majordomo handles the events in the knowledge layer data bases through reasoning over the SOUPA ontologies. The majordomo also handles the Experience layer through reasoning over the SOE ontology in order to obtain knowledge from past experiences or similar devices being maintained. Once that all that information is obtained/inferred and possible experience are acquired from the SOE using the reasoning system, a last step is performed by returning such information to the device (UMPC, Pocket PC, etc) and displayed (streamed) it in its graphical output. 5 Conclusions and Acknowledgements In this paper, we presented a framework and a system implementation for the exploitation of embedded knowledge in the domain of industrial maintenance in a 401

415 mobile context, using AR techniques. An extension to SOUPA was presented with two ontologies: the Set of Experience Knowledge Structure (presented by Sanin et al. [9]) and a new ontology for handling AR objects. The framework was implemented in different portable devices. For our future work, we plan to test the system in a real facility in where a maintenance system is already implemented in order to test the system s feasibility. Also, we plan to extend the SOE ontology from a decisional point of view by including Genetic Algorithms. We want to thank the Basque Government for the partial financing of the project under the SAIOTEK call (SEMTEK project). A special mention is given to the Faculty of Engineering and Built Environment of the University of Newcastle (NSW Australia) for the priceless ideas they shared with us related to the use of the Set of Experience Knowledge Structure in our domain. References 1. Azuma, R.T.: A Survey of Augmented Reality. Presence: Teleoperators and Virtual Environment, Vol. 6 N Chen, H., H., Perich, F., Finin, T., Joshi, A.: SOUPA: Standard Ontology for Ubiquitous and Pervasive Applications. - MOBIQUITOUS Cambridge, USA. 3. Friedich, W: ARVIKA Augmented Reality for Development, Production and Service. Proc. of International Symposium on Mixed and Augmented Reality (ISMAR 2002). Pages: ISBN: Gruber, T.R.: Toward principles for the design of ontologies used for knowledge sharing. International Journal of Human-Computer Studies Volume 43, Issue 5-6 Nov./Dec Pages: ISSN Honkanen, T: Modelling Industrial Maintenance Systems and the Effects of Automatic Condition Monitoring. PhD Thesis, Helsinki University of Technology - Finland IEC : International Electrotechnical Vocabulary Chapter 191: Dependability and quality of service International Electrotechnical Commission. 7. Makri, A., Weidenhausen, J., Eschler, P., Stricker, D., Machui, O., Fernandes, C., Maria, S., Voss, G., Ioannidis, N.: ULTRA Light Augmented Reality Mobile System. 4th IEEE and ACM International Symposium on Mixed and Augmented Reality, Austria, Milgram, P., Kishino, F.: A Taxonomy of Mixed Reality Visual Displays. IEICE Transactions Information Systems, vol. E77-D, pp , Sanín, C., Szczerbicki, E., Toro, C.: An OWL Ontology of Set of Experience Knowledge Structure. In Journal of Universal Computer Science.. February (In press). 10. Sevilmis, N., Stork, A., Smithers, T., Posada, J., Pianciamore, M., Castro R., Jimenez, I., Marcos, G. et al: Knowledge Sharing by Information Retrieval in the Semantic Web. In Lecture Notes of Computer Science (Vol. 32/2005, p. 471). ISBN: Springer Verlag, Germany 11. Toro, C., Posada, J., Termenón, M., Oyarzun, J., Falcón, J.: Knowledge Based Tools to Support the Structural Design Process. In Bob Howlett, Bogdan Gabrys and Lakhmi Jain (Ed.) - 10th International Conference on Knowledge-Based Intelligent Information & Engineering Systems (KES06). Berlin, Heidelberg, New York - Springer Verlag, 2006, (Lecture Notes in Artificial Inteligence) 402

416 Inteligencia Ambiental, Sistemas Ubícuos y Visión por Computador en Telefonía Móvil. Estado del Arte Ramón Moreno Jiménez, ramon.moreno.jimenez@gmail.com Grupo de Inteligencia Computacional Universidad del Pais Vasco 18 de octubre de Resumen Los dispositivos de telefonía móvil de última generación se caracterizan especialmente porque son capaces de actuar simultáneamente en diferentes redes y varios protocolos. La llamada 3G y 4G soportan UMTS y GPRS. Lo que actualmente se traduce en acceso a Televisión, a Internet y videoconferencia. Además de estas virtudes que proporcionan el acceso a redes WLAN, también se utiliza acceso a redes de corto alcance, como son Bluetooth y Wi-Fi. Estas características hacen que los móviles se presenten tecnológicamente como punta de lanza en lo que se entiende como Sistemas Ubicuos e Inteligencia Ambiental. Además de estas características proporcionadas por la calidad de la conexión a distintas redes, la mayor parte de los nuevos móviles ya vienen equipados con cámara digital. La rápida evolución tecnológica en el sector, hace que se abran multitud de nuevas posibilidades comerciales. En este trabajo, se hace un repaso de los proyectos europeos que se han llevado en esta materia. Así mismo, mostramos algunos elementos de Robot Vision que se están portando a la telefonía móvil. 1. Introducción La telefonía móvil, es uno de los sectores tecnológicos de más rápida evolución. En lo que a posibilidades comerciales se reere, las estimaciones de futuro son inmejorables. Paises como India o China se presentan como autenticas factorías de consumidores. En estos paises las cotas de mercado crecen a una velocidad del 30 % anual. Están surgiendo multitud de nuevas empresas como proveedoras de servicios en esta materia, y en otros casos, empresas no propias de las telecomunicaciones están haciendo grandes esfuerzos por buscar aqui su cuota de mercado, como es el caso de Google

417 En lo que se reere a Dónde está el mercado, las perspectivas son que el negocio va a estar más en los contenidos que se ofrecen, que en el tráco de datos. Justo al revés de lo que ocure a día de hoy. Respecto a tecnología. Las investigaciones más futuristas nos hablan de Inteligencia Ambiental, cuyo principio básico es que nuestra idea de ordenador como contenedor de información al que podemos acceder para visualizar o manipular la misma desaparece. En este caso, dejamos de saber donde está la información. La primera aproximación en este caso la podemos ver en los servidores de correo electrónico, pues cuando accedemos a esta información, en realidad no sabemos donde se encuentra físicamente. En segundo lugar, la Inteligencia Ambiental se basa en multitud de diferentes dispositivos capaces de conectarse entre si, y de intermabiar información. Es por ello que podemos decir que la Inteligencia Ambiental es una capa superior apoyada en otra capa formada por Sistemas Ubicuos. Desde el punto de vista de la domótica, se cuenta con multitud de dispositivos y sensores que pueden compartir información, solo que a día de hoy estos, en su caso general están controlados por un sistema de información centralizado (cuando se quiere compartir la información entre todos los elementos del sistema). En contextos domóticos tenemos un claro ejemplo en fa*gor, que ya fabrica sus productos con Bluetooth. El objetivo, es que los productos de esta marca se pueden conectar entre si, y así poder conseguir un consumo equilibrado de recursos como agua o electricidad. Sin embargo, el sistema más innovador y con mayores posibilidades de mercado es el teléfono móvil, o mini-pc del futuro (estimaciones tecnológicas). Los teléfonos móviles de última generación son capaces de comunicarse con multitud de dispositivos, de acceder a multutud de redes (WLAN, GPRS, EG- PRS,PRMA, UMTS, GERAN ) es por ello, que los podemos ver como la punta de lanza de los Sistemas Ubícuos y al mismo tiempo, como lo que será el primer caso palpable de Inteligencia Ambiental. A día de hoy podemos acceder a zonas 3G y podemos hacer videoconferencia, podemos acceder a redes Wi-Fi y consultar el correo, subir al coche y conectarnos al mismo via bluetooth. En lo que concierne a redes, existen multitud de investigaciones para sistemas de localización [3, 4, 5, 13, 15, 25, 27]. El objeto de estas es solucionar el problema de los sistemas GPS, que no son válidos en contextos interiores. Por medio de la detección de las IP de los routers y por la detección de la fuerza de la señal, ya hay sistemas que nos permiten localizarnos dentro de los edicios. A este respecto, comentaremos el estado del arte, o al menos comentaremos algunas de las últimas investaciones es esta materia. También hemos de decir que ya hay empresas que han fabricado sistemas de navegación en exteriores basandose solo en la detección mac de los routers. Este caso es viable en ciudades que estan invadidas por routers Wi-Fi, como es el caso de San Francisco. En estos casos se provee de un servicio, a dispositivos que no tengan GPS. Lo que comentaremos en el segundo apartado. Sin embargo, a pesar de todo el soporte tecnológico del que goza la telefonía móvil existen multitud de casos en los que no es suciente tener una buena conexión para obtener una adecuada información. Pongamos algunos casos. En 404

418 un museo, un usuario quiere saber, frente a qué obra se encuentra. En este caso los sistemas de localización Wi-Fi son insucientes, pues en una sala puede haber multitud de obras. O por ejemplo un turista pasa frente a un escudo y quiere obtener información al respecto. En este caso, puede que ni tan siquiera exista una red Wi-Fi. Es en estos casos donde entra la Visión por Computador. Existen multitud de investigaciones a este respecto [6, 11, 19, 21, 22]. En especial por parte de los italianos que han visto aqui, una forma de explotar su patrimonio histórico. España, a pesar de poseer un patrimonio histórico superior al de Italia, o ha iniciado aun ningún proyecto en esta materia. Además de contextos turísticos, existen otros contextos donde es imprescindible el uso de la visión por computador para ofrecer una información adecuada. Es el caso de sistemas de ayuda a invidentes [12] o guias de la naturaleza con búsquedas indexadas por imágenes [29]. Es de especial relevancia, el uso de algoritmos basados en la búsqueda de puntos de interés. Sistemas invariantes a rotación [16, 17, 18, 23, 24, 31, 2]. Estos algoritmos fueron introducidos por Harris y actualmente existen diversas variantes, entre los que cabe destacar SIFT. Las técnicas de visión por computador aplicada a sistemas móviles es lo que está denominando Mobile Vision. En esta nueva área de investigación no se está inventando nada nuevo, sino que se está adaptando parte de lo que ya existe en Robot Vision. En síntesis, se están optimizando los algoritmos para que seán computables en los procesadores de los actuales dispositivos móviles. En algunos casos también se plantea la implementación hardware. Lo que comentaremos en el tercer apartado. Como cuarto apartado resumimos los proyectos más interesantes del ámbito europeo realizados hasta Redes El desarrollo de las redes inalámbricas ha sido espectacular en los últimos años. Han surgido nuevos estándares capaces de trabajar a mayor velocidad. Wi-max, Wi-Fi, UMTS. El ancho de banda ha crecido enormemente, ahora cualquier router proporciona acceso a 54Mbps, pero en breve se llegará al Gbps. Su rápida evolución es gracias a que su instalación es de un coste muy barato, en contraposición con la bra óptica. Esto ha hecho que las redes inalámbricas estén implantandose con suma rapided, en especial en el continente asiático. En relación con los dispositivos móviles, estos se están adaptando también a esta tecnología, tanto para poder acceder a internet, como para poder instalar programas de acceso telefónico (VoIP) que compiten con unas tarifas mucho más baratas que los proveedores tradicionales (0.01 euros min.). Además de estas ventajas se están llevando a cabo multitud de intestigaciones en materia de redes inalámbricas, en las que son de especial interés los que proporcionan sistemas de localización. La mayor parte de los sistemas de localización se basan en la detección de las direcciones MAC de los los routers más cercanos, asi como la detección de la intensidad de la señal recibida. El objeto de estas investigaciones es poder 405

419 localizar a un usuario en un contexto, y poder facilitar la información adecuada. El modelo bayesiano de jerarquía de sensores [15, 27] está siendo usado con exito para sistemas de localización tanto en exteriores como en interiores. En otros casos se siguen diferentes perspectivas, en las que el usuario va navegando por un espacio, y en función de donde se encuentre, puede acceder a uno u otro tipo de información [4], donde se utilizan varias tecnologías (Wi-Fi, GPS, Bluetooth..). En general es suciente con llegar a proximaciones, en las que podemos determinar con un margen de error de pocos metros donde se encuentra el sujeto. Desde este punto de vista se son interesntes las aproximaciones semanticas en el diseño de ambientes para acceso a servicios [3]. Además del estándar existen multitud de tecnologías de comunicación que pueden ser usadas para la localización (GPS, Active Badges, Active Bats, MotionStart, VHF Omnidirectional Ranging, MSR Radar, E911,...) Jeffrey Hightower y Gaetano Borriello [13] hacer un buen repaso de las técnicas y tecnologías de localización. Desde el punto de Sistemas de Información, están apareciendo nuevas perspectivas de la gestión de la información, ya que hoy en día se puede acceder a la misma información desde diferentes dispositivos y desde diferentes lugares. Incluso la información se ha de ltrar en función del tipo de usuario. Task- Technology Fit (TTF) para sistemas de información móviles [14] es una primera aproximación a estos nuevos y complejos sistemas. La movilidad y la forma de acceder a la información está cambiando tanto, que resulta difícil preveer como será la iteracción Persona Computador en el futuro [10]. Rajeev Shorey y A. Ananda[28] hacen un fenomenal repaso del estado del arte de las redes inalámbricas, de su estado actual y previsiones de futuro. Alex Brand y Hamid Aghvami [1] hacen una descripción de los protocolos desde 1G hasta 4G, GPRS y UMTS. 3. Mobile Vision Además de los conocidos sistemas de localización para dispositivos móviles, en muchas ocasiones es necesario el uso de la Visión por Computador. La explotación de estas tecnicas en celulares o PDAs abre nuevas posibilidades para nuevas herramientas. La mayor limitación actual en esta materia es el execesivo coste computacional de estas técnicas. Aunque se prevée que en breve serán resueltas Algoritmos Relevantes La mayor parte de las investigaciones en esta materia se basan en la localización de puntos de interés que sean invariantes a la rotación. Estas técnicas han sido heredadas de Robot Visión, donde se obtienen grandes resultados con visión trinocular[2]. No obstante, en Mobile Visión solo contamos con una cámara por lo que podemos utilizar técnicas de visión monocular. 406

420 Figura 1: Diferencia de gaussianas El estudio de los puntos de interés de una imagen fue aplicado por primera vez por Moravec (1981) en visión estéreo buscando esquinas. Después fue mejorado por Harris y Stephens (1988) que buscaban una mejora respecto al anterior por la poca repetibilidad en función a la iluminación. Los descriptores de Harris han sido ampliamente usados, pero son muy sensibles a pequeños cambios en el tamaño de la imagen SIFT Este algortimo busca los puntos de interés de una imagen y mejora a los descriptores de Harris en que son invariantes al tamaño además de a la rotación. Scale Invariant Feature Transform desarrollado por David Lowe [20] es invariante a la translación, escala, rotación y parcialmente a la iluminación. El algoritmo SIFT se divide fundamentalmente en cuatro fases. 1. Detección de puntos extremos: se buscan puntos de interés, basándose en la diferencia de gausianas (DoG). a) L(x, y, σ)= G(x,y,σ) * I(x,y) = (G(x, y, kσ) G(x, y, σ)) I(x, y) b) D(x,y,σ) Donde k = 2 y σ= = L(x, y, kσ) L(x, y, σ) 1,6 c) Se hallan unas nuevas imágenes aplicando un ltro gaussiano de parámetro σ y a una distancia k entre las mismas. Tal y como se muestra en la Figura1 2. Localización de puntos clave: se recorre una capa intermedia de las DoF y se compara cada pixel con sus 8 vecinos de la misma capa y con los 9 de la capa superior y los 9 de la inferior. Si es mayor o menor que todos, es un punto de interés. Véase la Figura 2. Uno de los problemas que se presenta en esta fase es que se detectan demasidos puntos de interés. Para descartar los de poca relevancia se aplica la siguiente función. D(x) = D D T x x 407

421 Figura 2: Búsqueda de puntos de interés donde x = 2 D 1 x 2 Si D(x) 0.03 el punto es descartado. Por estabilidad no es suciente eliminar los keypoints de bajo contraste. La DoG tiene un gran efecto en los bordes, por ello usamos la matriz Hessiana para hacer un nuevo ltrado. [ ] Dxx D H = xy D xy D x D yy T r = D xx + D yy Dt(H) = D xx D yy 2D xy Aplicamos el siguiente chequeo con r = 10 T r(h) (r + 1)2 < Dt(H) r 3. Asignación de orientación: a los puntos seleccionados se les asigna una magnitud gradiente m(x,y) y una orientación θ(x, y) m(x, y) = (Lx + 1) L(x 1, y)) 2 + (L(x, y + 1) L(x, y 1)) 2 ( ) L(x, y + 1) L(x, y 1) θ(x, y) = tan 1 L(x + 1, y) L(x 1, y) El histograma de orientación se forma con la orientación de los gradientes de los puntos que rodean al punto de interés, 36 y 360º 4. Descriptor del punto clave: se asigna un vector descriptor a cada keypoint. Para ello se suman los cuadrantes obteniendo un vector de características de 2 x 2 x 8 que posteriormente es normalizado para obtener invarianza a la iluminación. Vease Figura 3 408

422 Figura 3: Descriptor de punto clave Otros N-SIFT es la aplicación de SIFT a imágenes 3D. Ha sido aplicado en medicina [31]. SIFT sigue siendo caro computacionalmente, a pesar de que se aplique en Mobile Vision. EMD (Earth Mover's Distance) [16] se presenta como un detector de características invariantes que minimiza el coste computacional. Este se basa en la distribución discreta de las características locales invariantes, sin necesidad de desciptores de clustering. Hashem Tamimi[30] mejora el algoritmo de Lowe haciendo una busqueda aleatoria. En SIFT se hallan los puntos de interés en primer lugar, hallando los máximos y los mínimos. Para ello, se estudiaban las diferencias entre gaussianas. Es decir para un punto (x,y) se le compara con sus vecinos de la capa superior y de la capa inferior. Si es mayor que todos, o menor que todos, el punto (x,y) es un punto de interés. Esta es la parte que optimiza Tamimi haciendo una comparación no exhaustiva y suciente. Charles Bibby y Ian Reid [6] han desarrollado GPU (Graphics Processing Unit) que está especialmente indicado para su implantación en dispositivos móviles ya que es sencillo y rápido. Para su desarrollo hacen uso de PDAF (Probabilistic Data Association Filter). Unos de los problemas de SIFT, es que detecta gran cantidad de puntos de interés y después los tiene que ltar para decidir cuales son los adecuados. GPU usa como detector de puntos de interés FRBD (Fast Radial Blob Detector) que está diseñado para no detectar pobres descriptores y para no jarse en los bordes. FRBD está inspirado en la Laplaciana, cuya aproximación la hacen comparando un punto con sus 8 vecinos radiales a una distancia r, tal y como se puede ver en la Figura 4. SURF es un algoritmo elaborado por Herbert Bay [11] implementado en un tablet PC con webcam. Los resultados son similares a SIFT, solo que va más rápido. Las fundamentales diferencias en este caso, es que los puntos de interés, no se hallan aplicando la diferencia de gaussianas, sino que se aplican las máscaras de la Figura 5 por convolución. Después para obtener la dirección de los puntos de interés se aplica la wavelet de Haar, que es bastante rápida. 409

423 Figura 4: Fast Radial Blob Detector Figura 5: Las dos primeras son las segundas gaussianas, primero en la dirección Y y después en la dirección XY. Las dos matrices de la derecha, son las utilizadas en SURF como aproximación a la laplaciana. También hay estudios que persiguen el mismo objetivo (reconocer la escena) pero con diferentes técnicas. Es el caso de Norbert [25], que precisa de un modelado 3D del entorno para posteriormente ser capaz de identicar un escenario extrayendo su contorno 3D. En este caso los experimentos se realizan para el reconocimiento exterior de edicios. Son numerosos los trabajos de Lucas Paletta [26, 9, 19], basándose en SIFT como extractor de características de una escena, pero apoyándose en otras tecnologías para acotar las búsquedas. El procesamiento no se lleva a cabo en el dispositivo móvil, sino que se precisa de GPRS o UMTS para la conexión a un proveedor de servicios Aplicaciones Relevantes LOCUS [8] es un proyecto europeo que se basa en GPS, pero que recurre a la visión por computador para reconocer la orientación del usuario en un mapa. Se caracteriza porque quieren aplicar Realidad Aumentada en sistemas de guia, vease la Figura 6. AGAMEMNON[22], es un sistema de ayuda en centros turísticos. El sistema no se computa en el dispositivo móvil, si no que se trata de una aplicación cliente 410

424 Figura 6: Ejemplo de las pretensiones de LOCUS Figura 7: Estructura del sistema AGAMEMNON - servidor. La Figura 7 muestra la arquitectura del sistema. En principo, son varias sus virtudes; hace un histórico de las imágenes recibidas por los usuarios con el que poder hacer un buen seguimiento del estado de las obras. Es capaz de programar una ruta en función de donde haya pelotones, y evitarlos. Es especialmente innovador el sistema de ayuda a invidentes [12]. Este sistema esta completamente implementado en el móvil, de tal manera que no necesita de ningún tipo de red, ni de cobertura para su funcionamiento. El sistema esta implementado sobre Symbian. Se caracteriza, porque busca etiquetas de color y códigos de barras, con las que poder ayudar a un invidente a encontar elementos etiquetados (ascensor, servicios...). La aplicación se comunica con el usuario por medio de sonidos. 411

425 Figura 8: Waynding for the Visual Impaired 4. Proyectos Europeos Un sólido trabajo en el que se recogen multitud de proyectos europeos respecto a aplicaciones móviles es el realizado por European Centre for Digital Comunication [7]. En este se recogen las aplicaciones móviles para sistemas gubernamentales y para sistemas orientados al turísmo. El interés de hacer aplicaciones que comuniquen a la ciudadania con la administración y viceversa, es que a día de hoy hay más gente con móvil que con acceso a internet. Es por ello que se estén nanciando aplicaciones en este sentido. En segundo lugar la mayor parte de las investigaciones se enfocan sistemas de ayuda en guías y turismo. En este aspecto el enfoque comercial es claro, y el mercado amplio. A continuación comentamos algunos de los trabajos más relevantes, bien por su aceptación por la población o por su caracter innovador Aplicaciones Orientadas al Turismo y Servicios IM@GINE.IT Es un software instalable en móviles, PDA, o dispositivos de automoción. Es un sistema de ayuda en la navegación, que se caracteriza por su enfoque de Inteligencia Ambiental e Inteligencia de Usuario, ya que combina GPS y cell ID en sistemas de localización ASK-IT Combina Inteligencia Ambiental y Web Semántica. El obtetivo es crear una interfaz de acceso a internet, accesible para discapacitados físicos o mentales. Abarca materias como ayudas en turismo, negocios, pagos, transporte, domótica, ayuda en situaciones de emergencia, etc. PHENIX_SSA Es un sistema de televisión orientada a dispositivos móviles. Su objeto es la retransmisión de los eventos de los Juegos Olimpicos 2008 en un formato adecuado. El proyecto se está materializando entre China y Europa. MOBVIS Es un sistema de localización que utiliza Visión por Computador. Se basa en el reconocimiento de objetos y en la creación de mapas inteligentes 412

426 en función de las necesidades del usuario. Crupet Es un sistema de ayuda al turismo. Sus principales características son: recomendación de servicios, mapas iteractivos, información de atracciones turísticas y avisos cuando el usuario se acerca a un punto de interés. Loveus Se caracteriza por utilizar una nueva generación de mapas en 3D. PEPTRAN Es un sistema de ayuda al transporte público. Planica rutas. AGAMEMNON Personaliza visitas en museos y centros arqueológicos. TellMaris Proyecto desarrollado por Nokia, cuyo objetivo es la creación de mapas 3D. Lol@ Sistema de localización basado en GPRS/UMTS. Storyteller Guía digital para rutas en bicicleta. Basado en GPS. Hiking Basado en GPS, ofrece rutas forestales. Es un sistema de ayuda alquilable a bajo coste M-Government M-Government es un subconjunto de las aplicaciones E-Government. Las primeras son aplicaciones instalables en dispositivos móviles y las segundas las accesibles desde internet. Estas aplicaciones son las que conectan a los ciudadanos con las administraciones. USE-ME.GOV Plataforma aplicable en diferentes paises y regiones. No tiene restricciones de edad ni de intereses. Su objetivo en algunos casos es eliminar barreras burocráticas en asuntos nancieros. También facilita información pública. SAFIR El objetivo es que los usuarios puedad acceder a los servicios en igualdad de oportunidades. Elimina la barrera del acceso a internet. La aplicación tiene varios subdominios: Ciudadanos, empleados municipales, bomberos y policía. Pandora Provee servicios digitales en áreas rurales. Acceso a la información. Su objetivo es ser implantado en Lombardy, Basilicata, Limerick, Central Macedonia y Rhodope. M-Tartu Es un proyecto estonio. Las razones para su implantación son: hay más móviles que PC, los ciudadanos llevan siempre el móvil y la aceptación de la telefonía móvil por parte de los ciudadanos es mayor que el acceso a internet. Este proyecto se caracteriza por la multitud de servicios que ofrece. Pago en parking, pago del tiket de autobús, pagos en comercios. M-Teacher es un profesor de ayuda, M-library para la reserva de libros. El proyecto se aplica a contextos educativos, a contextos médicos y también 413

427 para noticaciones a los ciudadanos. M-democracy y M-elections han sido usadas para elecciones, como alternativa al voto por internet. MoBüD Trata de crear las infaestructuras de servicios móviles para los ciudadanos. Se distinguen dos tipos de comunicaciones G2C Govierno a Cudadanos y C2G Ciudadano a Gobierno. Se distingen cuatro aspectos diferentes: mcomunication: provee la comunicación entre ciudadanos y Goviernos (G2C y C2G). Los ciudadanos pueden dar su opinión el algunos casos. Los ciudadanos se pueden suscribir a canales de información. El sistema basa sus comunicaciones fundamentalmente en SMS. Tanto para comunicarse con el Govierno como en las comunicaciones del Gobierno con los Ciudadanos. mservices: mtransactions y mpayments. Son servicios basados en SMS con el envio de códigos. mdemocracy: mvoting. Los ciudadanos pueden votar y dar sus opiniones fácilmente. Los ciudadanos pueden ser informados de resultados de elecciones. Es un servicio que acerca a los ciudadanos a sus governates. La identicación de usuario se hace mediante el registro de código PIN. madministration: Servicios internos y públicos de M-Government. 5. Expectativas y Conclusiones La evolución que está viviendo la telefonía móvil proporcinona un nuevo mundo de aplicaciones y servicios. Hace pocos años, los primeros teléfonos móviles eran unas cajas que necesitaban la batería de un coche y solo servian para comunicaciones telefónicas. Actualmente, de manera estandarizada incorporan agenda, calendario y alarma. Los nuevos protocolos y nuevos canales ofrecen a los dispositivos móviles lo que actualmente proporciona el ADSL en las lineas domésticas. No obstante, en telefonía móvil se cuentan con unos factores, que hacen que sea muy diferente. Ha entrado en juego la movilidad y la posibilidad de conexión a multitud de redes, lo que nos acerca imperativamente a la Inteligencia Ambiental y Computación Ubicua. Los Sistemas de Información ya no son exclusivamente cliente - servidor, sino que se empienzan a parecerse a Sistemas Distribuidos. El hecho de que se esté estandarizando que todos los móviles tengan cámara, abre un nuevo mundo de posibilidades. A este respecto no se trata de descubrir nada nuevo, sino de adaptar lo que ya existe en Robot Vision. Aqui la principal limitación que se encuentra, es el elevado coste computacional de estas técnicas. No obstante, las previsiones indican que, en breve, los nuevos procesadores serán capaces de eliminar estas limitaciones. 414

428 6. Referencias [1] Hamid Aghvami Alex Brand, editor. Multiple Access Protocols for Mobile Communications GPRS, UMTS and Beyond. John Wiley and Sons, [2] Alaa E. Abdel-Hakim Aly A. Farag. Scale invariant features for cameraplanning in a mobile trinocular active vision system. In Proceedins of Acivs 2004, [3] Fabio Pittarello Augusto Calentano. Desingn of amient dependent multimodal services: a sematic approach. [4] Gaetano Borriello WilliamG. Grisworld David McDonald Edward Lazowska Anand Balachandran Jason Hong Vaughn Iverson Bill N. Schilit, Anthony LaMarca. Challenge: Ubiquitous location-aware computing and the "place lab"initiative. WMASH'03, [5] Shazia Sadiq Bo Yuan, Maria Orlowska. Finding the optimal path in 3d spaces using edas- the wireless sensor networks scenario. School of Information Technology and Electrical Engineering. University of Queensland., [6] Ian Reid Charles Bibby. Fast feature deection with a graphics processing unit implemantation. First International Conference on Mobile Vision, [7] MSc Clarie Huijnen, MTD. Mobile tourism and mobile government. an inventory of european proyects. European Centre for Digital Communication, [8] Vesna Brujic-Okretic Fotis Liarokapis, Jonathan Raper. Navigation withinn the urban envoronment using location and orientation-based services. In European Navigation Conference 2006, [9] Lucas Paletta Gerarld Fritz, Chistin Seifert. Urban objet recognition from infrmative local freatures. [10] Tapio Heikkinen Hannu Kallinen. Mobile information systems. University of Oulu, [11] Luc Van Gool Herbert Bay, Beat Fasel. Interactive museum guide: Fast and robust recognition of museum objects. First International Conference on Mobile Vision, [12] Huiying Shen James Coughlan, Roberto MAnduchi. Cell phone-based way- nding for the visual impaired. First International Conference on Mobile Vision, [13] Gaetano Borriello Jerey Hightower. Location systems for ubiquitous computing. Computer,

429 [14] Michele L. Gribbins Judith Gebauer, Michael J. Shaw. Task- technology t for mobile information systems University of Illinois at Urbana- Champaing College of Business Departament of Business Administration. [15] Anthony LaMarca Julia Letchner, Dieter Fox. Large-scale lacalization from wireless signal strength. National Conference on Articial Itelligence (AAAI), [16] Trevor Darell Kristen Grauman. Ecient image matching with distributions of local invariant features. In In Proceedings of the IEEE Conferece on Computer Vision and Pattern Recognition, [17] Cordelia Schmid Kristian Mikolajczyk. Scale & ane invariant interest point detectors. International Journal of Computer Vision, 60:6386, [18] Cordelia Schmid Krystian Mikolajczyk. Indexing based ond scale inavariant interest point. INRIA, [19] Alexander Almer Christin Seifert Lucas Paletta Linde Vande Velde, Patrick Luley. Intelligent maps for vision anhanced mobile interfaces in urban scenarios. [20] David G. Lowe. Distincive image features from scale-invariant keypoints. International Journal of Computer Vision, [21] Andrew Calway Mark Pupili. Particle ltering for robust single camera localisation. First International Conference on Mobile Vision, [22] Marco Casamassima Walter Cazzola Davide Conte Massimoliano Pittore Gianluca Quercini Naomi Scagliola Matteo Villa Massimo Ancona, Marco Capello. Mobile vision and cultural hiterage: tha agamemnon proyect. First International Conference on Mobile Vision, [23] David Lowe Matthew Brown. Invariant features from interest point groups. [24] K. Mikolajczyk and C. Schmid. A performance evaluation of local descriptors. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27(10): , Oct [25] Jan BÃ hm Norbert Haala. A multi-sensor system for positioning in urban environments. ISPRS Journal of Photogrammetry & Remote Sensing, 58:3142, [26] Christin Seifert Gerard Friz Lucas Paletta Patrick Luley, Alexander Almer. A multisensor system for mobile services with vision enhanced object and location awareness. In Proceedings of the 2005 Second IEEE International Workshop on Mobile Commerce and Services (WMCS'05), [27] Ted Kremenek Richard Muntz Paul Castro, Patrick Chiu. A probabilistic room location service for wireless networked environments. Procedins of Ubicom'01,

430 [28] Mun Choon Chan Rajeev Shorey, A. Ananda and Wei Tsang Ooi, editors. Mobile, Wireless, and sensor networks. Technology, Applications, and Future Directions. IEEE, [29] Miguel A. Veganzones Ramon Moreno, Manuel Grana. A remote mycological assistant. In IEEE International Workshop on, editor, Intelligent Data Adquisition and Advance Computing Systems: Techology and Applications. IDAACS,. [30] Hashem Tamimi and Andreas Zell. Global robot localization using iterative scatre invariant feature transform. [31] Ghassan Hamarnech Warren Cheung. N-sift: N-dimensional scale invariante feature trransform for matching medical images. In IEEE, editor, ISBI, pages ,. 417

431 Grupo de Inteligencia Computacional de la Universidad del País Vasco 24 y 25 de Octubre de Torres de Arbide Parque tecnológico de Miramón San Sebastián

Ramón Moreno Jiménez Miguel Ángel Veganzones Bodón María Teresa García Sebastián - PDF Free Download (2024)

References