Guillermo de Jorge Botana, Lingüística Computacional y Ciencia Cognitiva

28/04/2018 0 comentarios
Menear

En esta entrada del blog presentamos una entrevista que, amablemente, el profesor Guillermo de Jorge Botana, profesor del Dpto. de Psicología Evolutiva y de la Educación de la UNED nos ha concedido. Nos encontramos ante un gran exponente, a nivel internacional, de la aplicación de la Lingüística Computacional a la Ciencia Cognitiva y la Neurociencia. Este blog, que busca ilustrar la aplicación de herramientas informáticas a la Neurociencia, se siente muy complacido por poder acoger aquí sus valiosas opiniones. Doctor por la Universidad Autónoma de Madrid con una tesis sobre la técnica del Análisis de la Semántica Latente, no ha rehuido el ámbito de la empresa privada, ocupando diferentes puestos, desde programador hasta jefe de proyectos. Ha creado software propio que ha plasmado en patentes y registros que van desde asistentes virtuales para la evaluación y "feedback" de respuestas abiertas (www.grubric.com) a software de clasificación y categorización (www.gallitoapi.net), pero siempre con la vista puesta en los canales de comunicación entre Informática y Psicología.

    GUILLERMO DE JORGE BOTANA

-P. Estimado profesor, Ud. es un gran experto en lingüística computacional pero no descuida la aplicación de técnicas informáticas para simular procesos cognitivos. ¿Podría comentarnos brevemente cómo accedió a la técnica del Análisis de la Semántica Latente, sus fundamentos más básicos y sus posibles aplicaciones a la Ciencia Cognitiva?

   -R. Hacia el año 2003, acababa de presentar el Trabajo de Estudios Avanzados y estaba trabajando en una pequeña empresa que se dedicaba a desarrollar asistentes para aumentar la resiliencia en los trabajadores. Tenía un jefe, Santiago Barrero, que quería apostar, quizá sin acompañarnos el momento, por técnicas que pudiesen identificar sobre qué se hablaba en las conversaciones abiertas, y allí nos pusimos a trabajar. De esa manera, di con una incipiente técnica, el Análisis de la Semántica Latente (LSA).

   A partir de ahí, me introduje en la capacidad de la técnica para simular la representación del léxico, y con ella, simular también los mecanismos que tentativamente lleva a cabo el sistema cognitivo para conseguir hipótesis de significado. Esto lo desarrollé luego, en el marco de la Tesis, y ahora seguimos haciéndolo, en artículos creo que más profundos sobre este tema. En este sentido, tengo que decir que paradójicamente, me vino muy bien no haber tenido becas de posgrado en la Universidad y haber tenido que bregar con cosas distintas. No quiero decir que las becas sean una maldición, pero ese es mi caso.

-P. La técnica mencionada está también presente en el mundo educativo. De hecho, ha sido usada en Tutores Inteligentes de última generación como el "AutoTutor" de Graesser y colaboradores. Nos consta su implicación en esta materia, así como el de su colega Ricardo Olmos de la Universidad Autónoma de Madrid y su director de Tesis Doctoral, el profesor José Antonio León. ¿Cuál es, a su juicio, el futuro más inmediato que nos espera respecto a la evolución tecnológica de estas herramientas?

-R. Pienso que el futuro de los Tutores Inteligentes está en conjugar diversas capas de análisis (vectoriales, probabilísticas, reglas formales, gramáticas) y que los resultados de éstas puedan presentarse de forma coherente, dentro de un diseño instruccional, empleando, por ejemplo, técnicas que emplean también los chatbots, es decir, técnicas que permiten la gestión de una conversación según los estados de la misma. Creo que la propuesta es “la plataforma como conversación”, es decir, que toda una plataforma, sea cual sea, esté gobernada por los parámetros de una conversación al uso. De hecho, esta es la consigna que mi compañero del departamento José María Luzón y yo nos propusimos cuando hace dos años planteamos la evolución de nuestra plataforma de evaluación de respuestas abiertas G-RUBRIC (www.grubric.com). En argot ciclista, estamos intentando “coger la escapada buena” y creemos que va por ahí.

-P. En un reciente artículo, elaborado junto a los profesores Ricardo Olmos y Vicente Sanjosé, titulado “Predicting word maturity from frequency and semantic diversity: a computational study”, creemos detectar su creciente interés por aplicar las técnicas de procesamiento automático del lenguaje natural a la Psicología Evolutiva. ¿Podría indicarnos algo acerca de cómo la frecuencia y la diversidad semántica de las palabras usadas pueden predecir el paso desde la infancia a la edad adulta?

-R. Totalmente, de hecho en el Máster del Departamento instauré una línea de Trabajos Fin de Máster en la que se reflexionaba sobre las técnicas computacionales que podían ayudar a comprender los fenómenos evolutivos. Tuvimos trabajos de modelos vectoriales como Semántica Latente, de redes neuronales artificiales, de modelos probabilísticos basados en n-gramas, de modelación de sistemas complejos a partir de funciones en las que unas influyen en otras (inspirados por el profesor Van Geert) y algunos temas más. Los alumnos venían con miedo y se fueron con la confianza de haber domado a la bestia. Me gustaría pensar que esos alumnos tendrán un pensamiento más ordenado fruto de su “visita” a estos modelos.

Respecto a lo segundo, la variable frecuencia está muy estudiada en Psicolingüística y ocupa un rol muy importante en el acceso al léxico. La frecuencia tiene consecuencias sobre la recuperación, la producción y el procesamiento, pero en esta variable se puede estar escondiendo alguna otra covariable que explica mejor este tipo de efectos.  Este es el caso de la Diversidad Semántica (Hoffman, Ralph, & Rogers, 2013). Son diversas las palabras que ocurren en muchos contextos temáticos y esto, con un modelo vectorial de la representación léxica como LSA, se puede formalizar muy bien. Por abreviar, la conclusión de este estudio es que para que las personas adquieran una representación madura de una palabra no es necesaria una exposición masiva a esa palabra. En el modelo se observa que cuanto más texto se procesa (más edad se tiene), menos importante es la frecuencia con la que aparezca una nueva palabra para que se consiga tener una representación madura de ella. Aquí entran en juego mecanismos de inducción: adquirimos el significado de una nueva palabra, incluso apareciendo pocas veces, siempre que esté acompañada de palabras que ya tienen la representación madura. Por otro lado, una alta diversidad de significado de una palabra hace que esta palabra deba aparecer más veces para estar bien representada, produciéndose una interacción entre frecuencia y diversidad.

Una cosa que me parece muy útil de estos índices, basados en estos modelos vectoriales, es que tienen una aplicación relativamente directa. Por ejemplo, algunos estudios han encontrado que controlar en una batería de evaluación el índice de Diversidad Semántica es buen predictor de demencias cerebrales que cursan con problemas en las funciones ejecutivas (palabras diversas necesitan mayor movilización de mecanismos de inhibición/activación) mientras que la frecuencia lo es en demencias que cursan con deterioros en la Memoria a Largo Plazo (Hoffman, Rogers, & Ralph, 2011). Teniendo un modelo computacional capaz de procesar miles y miles de palabras y extraer índices, nos facilita mucho ese posible control en las posibles baterías de evaluación. Tal es la utilidad de los modelos, incluso con sus defectos; tienen poca ambigüedad y mucha productividad.

-P. Precisamente, y siguiendo con la cuestión del proceso evolutivo de adquisición del conocimiento, Ud. enfatiza en “The role of domain knowledge in cognitive modeling of information search” (publicado conjuntamente con los profesores Karanam, Olmos y van Oostendorp) cómo las diferencias individuales en el dominio del conocimiento por parte de los usuarios influyen en su búsqueda de información a través de bases de datos. ¿Podría explicarnos algo más acerca de esto y el porqué de la diferencia entre "expertos progresivos" y "abruptos"?

-R. Cómo tengamos representadas las palabras o los conceptos en la mente tiene consecuencias en cómo buscamos la información y cómo la procesamos. Las personas que tengan una representación madura de ciertos términos técnicos, los expertos, tendrán un estilo de búsqueda distinto, y quizá más productivo, que las personas que tienen una representación más vaga de los términos técnicos. De eso se trataba, de modelar esos tipos de conocimientos mediante un modelo vectorial y ponerlos a buscar información mediante un algoritmo que emulase la búsqueda humana. Es decir, una base de conocimiento experta o no experta, y un mecanismo automático de búsqueda y navegación.

La diferencia entre "expertos progresivos" y "abruptos" hace alusión simplemente a que un modelo de persona, el experto progresivo, puede tener un conocimiento intermedio entre el conocimiento técnico y el meramente coloquial, y el otro, el experto abrupto tiene sólo el técnico y el coloquial, sin esa pincelada de conocimiento intermedio entre ambos mundos. Pero insisto, se trata de proponer tentativas de “maniquíes” para confrontarlos con tareas mediante el mecanismo de búsqueda y después comprobar sus resultados. Algo así como los "dummies" en las pruebas de automóviles.

-P. Ud. nunca rehúye la aplicación práctica de su labor investigadora. De hecho, ha formado parte de compañías tecnológicas como Indra, Redknee o Prosodie y ha desarrollado numerosas aplicaciones tecnológicas desde “Semantia Lab”, una “spin-off” de la UNED. ¿En verdad es tan difícil en nuestro país crear “Spin-offs” desde la Universidad?

-R. Ciertamente sí. Se juntan varios problemas. El primero es que los profesores que las crean tienen una especie de desdoblamiento de la personalidad difícil de resolver, el rol de profesor o investigador y el de emprendedor. Esto se acrecienta con la sensación de que no puedes hablar de tu proyecto en el ámbito académico, pues te puede generar algunas suspicacias institucionales. Es difícil explicar que gastas parte del tiempo en un proyecto con “afán de lucro”,  aunque el lucro esté totalmente normalizado a través de la oficina de Transferencia de Resultados de la Universidad, al contrario que otros lucros menos evidentes. Además, los apoyos institucionales suelen ser escasos.

Hay otro problema, y es que las "Spin-off" tienen una hipertrofia hacia la I+D+I, descuidando, por no poder asumir los costes dinerarios y de tiempo, las cuestiones comerciales, de marketing y de dirección de proyectos. Este hueco sería llenado por agentes externos a la Universidad, es decir, otras empresas, pero la interlocución con el mundo empresarial es escasa y mal articulada y los postulantes no son muchos. Corolario, que al final las cosas suelen quedar en ideas plasmadas en un plan director de orientaciones estratégicas de la Universidad, pero no suelen sustanciarse. Con esto no quiero decir que el éxito o el fracaso sea consecuencia de otros. Eso no sería correcto. Los responsables en última instancia del éxito son los promotores, pero las circunstancias son las que son. A Dios lo que es de Dios, y al César lo que es del César.

-P. Desde su experiencia en el diseño de programas IVR (Interactive Voice Response), ¿seguimos todavía tan lejos de lograr sistemas de reconocimiento de voz y de conversación con los usuarios que se acerquen a la capacidad humana? ¿Por qué?

-R. Realmente ha habido grandes avances en el reconocimiento de voz. Creo que con la irrupción de nuevos agentes como Google, Microsoft e IBM, con sus servicios de reconocimiento de voz en la nube basado en muestras masivas de audios, los agentes tradicionales, como, por ejemplo, Nuance Inc., Verbio (otra Spin-Off universitaria), etc. se han visto un poco desplazados. Además, se han propuesto nuevas formas de programar sistemas de gestión del diálogo, que además de formalizar estados de la conversación, instigadores y respuestas, aúnan también la capacidad de tomar información (semántica entre otras) de otras fuentes, en concreto de APIs que funcionan de manera modular y que mandan su análisis al sistema que centraliza el diálogo. Estas fuentes pueden ser también diversas y sustantivas en tamaño, configurando las piezas de verdaderos sistemas predictivos.

En suma, que si tenemos sistemas que mejoran el reconocimiento, piezas que generan diálogo, y diversas fuentes de donde sacar la información de quién nos llama y qué significa lo que está diciendo, tenemos un sistema susceptible de ser bastante “humanoide”. La clave es unir todo de manera coherente y ordenada, y creo que en eso se está.

-P. Para finalizar, me gustaría que nos comentara brevemente qué es GallitoAPI y su valor para el procesamiento de grandes cantidades de información en empresas.

-R. GallitoAPI (www.gallitoapi.net) es un API que expone en forma de servicios las funcionalidades que vamos sacando en nuestro I+D. Al ser un API, estamos facilitando genéricamente que cualquier sistema pueda integrarse con nuestra I+D. Tiene funcionalidades basadas en distintas técnicas: modelos espacio-vectoriales, gramáticas, n-gramas, técnicas conversacionales, técnicas con reglas explícitas y, en general, con las evoluciones que nosotros mismos publicamos en nuestros artículos. Puede decirse que quien lea un artículo científico nuestro tiene la capacidad de ponerlo a trabajar de forma directa mediante este API. Es más, en muchas ocasiones tenemos más funcionalidad de la que nosotros mismos empleamos en nuestra operativa. De hecho, algunas colaboraciones con otros investigadores han sido a partir del uso conjunto de GallitoAPI para proyectos que no eran iniciativa nuestra pero que habían leído alguno de nuestros artículos y les interesaba la técnica. Además, hemos involucrado GallitoAPI en pilotos de empresas. También GallitoAPI es el principal motor de nuestra plataforma G-Rubric.

Muchas gracias por su amabilidad y ha sido un verdadero placer poder entrevistarle.

 

Referencias

Hoffman, P., Rogers, T. T., & Ralph, M. A. (2011). Semantic diversity accounts for the “missing” word frequency effect in stroke aphasia: insights using a novel method to quantify contextual variability in meaning. J. Cogn. Neurosci. 23, 2432–2446.

Hoffman, P., Ralph, M.A, & Rogers, T. T. (2013) Semantic diversity: a measure of semantic ambiguity based on variability in the contextual usage of words. Behavior Research Methods, 45 (3) (2013), pp. 718-730.

Jorge-Botana, G., Olmos, R., & Sanjosé, V. (2017). Predicting word maturity from frequency and semantic diversity: a computational study. Discourse Processes, 54, 682-694. DOI: 10.1080/0163853X.2016.1155876.

Karanam, S., Jorge-Botana, G., Olmos, R., & Van Oostendorp, H. (2017). The role of domain knowledge in cognitive modeling of information search. Inf  Retrieval  J, 20, 456-479. DOI: 10.1007/s10791-017-9308-8.

Olmos, R., León, J.A., Escudero, I., & Jorge-Botana, G. (2011). Using latent semantic analysis to grade brief summaries: some proposals. IJCEELL, 21 (2-3).  DOI: 10.1504/IJCEELL.2011.040198

Van Geert, P. (2014) Dynamic modeling for development and education: from concepts to numbers. Mind, Brain, and Education,  8 (2), 57-73.