Tons of IT: analógico

Los profesionales de TI vemos el mundo de forma diferente, hay que admitirlo. Esa rareza nos la han grabado a fuego durante años de estudio en los que una de las ideas fundamentales era la discretización de la realidad. La idea mágica era 'el mundo es demasiado complejo para ser metido en un ordenador, es preciso reducirlo a variables simples y discretas'.

Pensemos en el teclado de un ordenador y veremos que no es más que una forma bastante burda de convertir a variables discretas (102 teclas, más o menos) la variable continua que significa la escritura. Como no éramos capaces de reconocer la escritura manuscrita nos pusimos manos a la obra para convencer al mundo de que lo ideal no era eso (que es lo natural, lo innato) sino escribir con esas 102 teclas. Y lo hemos logrado porque son ya pocos los que se cuestionan por qué no pueden escribir a mano y que el ordenador se las ingenie para interpretarlo. Y del mismo modo, hemos repudiado la visión o la audición como métodos de entrada de los ordenadores, simplemente porque eran demasiado complejos.

Es más, a esos pocos usuarios de la resistencia civil que se han negado a aceptar nuestras premisas y siguen escribiendo de su puño y letra o dictando con complejos gadgets que leen e interpretan su escritura o su voz les consideramos usuarios 'raros'. Generan mucho trabajo de soporte por la simple razón de que no somos capaces de hacer las cosas como ellos quieren que, por otra parte, es lo natural.

Afortunadamente la ley de Moore, cierta desde su exposición en 1965, es implacable (Intel ha confirmado que el vaticinio de su cofundador Gordon Moore durará al menos hasta 2018). Con ello hemos llegado ya a una situación en la que podemos discretizar variables con un nivel de realismo muy cercano a lo que de verdad ocurre en la naturaleza. Es decir, el área que describe la versión discreta de la curva (la que generan los ordenadores) es ya muy similar a su área real.

A día de hoy, hay potencia de cálculo más que suficiente para disponer de bolígrafos con cámara de vídeo integrada que permiten grabar todo lo que se escribe para posteriormente, mediante un OCR, convertirlo en texto.

Tenemos también tecnología que permite convertir una señal de audio en texto identificando la voz y descartando los ruidos añadidos. Esto no es nada nuevo dado que lo tenemos accesible de serie en el sistema operativo desde hace varios años para utilizarlo como herramienta de dictado en ofimática o para dar órdenes al propio sistema operativo.

Del mismo modo, cualquier PC doméstico actual dispone de potencia de cálculo para realizar un procesamiento de imágenes en tiempo real suficiente para identificar caras, leer matrículas o identificar y seguir objetos en movimiento. Es realmente asombroso lo que se puede hacer con un software de identificación facial y una webcam de 15 euros o un software para la lectura de matrículas de vehículos en movimiento.

Incluso en la web están disponibles mecanismos de identificación facial que en menos de 5 segundos ponen nombre a cualquier rostro. Pruebe a enviar la foto de algún famoso a myheritage.es o incluso enviar una foto propia para que le sugiera a quien se parece. Cuidado, porque esto último puede tener resultados no previstos que afecten a la autoestima ;-).

Llega algo nuevo

En unos días estará en el mercado Kinect, la nueva versión de la consola XBox. La gran novedad de esta consola no es una mayor capacidad en la generación de polígonos ni un mejor procesamiento de audio (que supongo que tendrá). Lo realmente nuevo es que no precisa de mando a distancia porque el mando es el usuario. La máquina dispone de varias cámaras de vídeo que detectan la posición y el movimiento del usuario con un nivel de precisión y sutileza increíbles.

Quienes hemos tenido la oportunidad de probarla hemos sentido ya la libertad que da saber que es la máquina quien se adapta al usuario y no al revés. Esto es, en sí mismo, un punto de inflexión y seguro que Kinect y su tecnología de reconocimiento de audio y vídeo creará un antes y un después, no solo en el mercado del entretenimiento sino en la interface hombre-máquina en sentido amplio.

Pero aún falta algo

Toda esa potencia de cálculo no sirve de mucho si los sistemas no son inteligentes. De nada vale un potente sistema de reconocimiento de voz o movimientos si posteriormente solo se reconocen términos, palabras o acciones concretas. La gramática de las lenguas que usamos los humanos es realmente compleja y cuando quien está al otro lado de la conversación (el ordenador) no está al mismo nivel la frustración es inevitable. Es esta frustración la que sentimos cuando, por ejemplo, hablamos con una voz enlatada que no es capaz de poner contexto a lo que le estamos contando.

Pero resulta que también tenemos potencia de cálculo para entender y procesar esas gramáticas incluyendo el análisis semántico y el contexto de la conversación. Por ejemplo, es curioso lo que se puede sentir charlando con Ikerne en la web de IparKutxa. Ikerne no está programada en base a palabras o términos concretos sino que realmente entiende lo que le decimos. Podemos decirle 'quiero comprar una casa' o 'me gustaría tener un dinero extra cuando me jubile' y nos recomendará una hipoteca o un plan de pensiones respectivamente. Podemos hablarle del color de su chaqueta, preguntarle por algún personaje histórico, político o futbolista,... Y no seré yo quien sugiera que se le haga algún comentario soez pero es muy divertido ver la mano izquierda con la que responde.

Y ahora juntémoslo todo. Tenemos potentes sistemas de reconocimiento de voz y sistemas igualmente potentes de reconocimiento visual. Y tenemos también un potente sistema de reconocimiento de gramáticas que acerca a las máquinas al modo en que se comunican los humanos. Todo ello dará lugar a nuevos asistentes inteligentes que permitirán superar la frustración que supone tener que hablar con una voz enlatada en los centros de asistencia.

Sería increíble poder hablar en un sitio web de viajes diciéndole cosas como 'quiero un vuelo a la capital del mundo el próximo miércoles y volver dos días después y quiero que sea lo más barato posible'. La máquina nos propondría un viaje a Bilbao (siento el chiste) el miércoles siguiente en clase turista con viaje de vuelta para el viernes. Eso sería una experiencia radicalmente diferente a lo que hoy en día se hace en las webs de las compañías aéreas.
Esta capacidad para interpretar al usuario en su propio lenguaje y para poder mantener una conversación fluida serviría para, por fin, ser capaces de superar el Test de Turing, desierto desde su planteamiento en 1950.

Las aplicaciones prácticas de esta nueva forma de interactuar con las máquinas tiene un campo de actuación ilimitado. Por ejemplo, pensemos en un asistente personal para personas mayores que viven solas. Desde luego, no es un tema baladí en una sociedad que envejece a marchas forzadas. ¿Que puede parecer una locura? Tal vez, pero empresas como Intel llevan años preparándose para esta nueva realidad.

Toda la tecnología necesaria comienza a estar disponible; solo hace falta ponerse a integrar. Ya hay quien lo ha bautizado como Interfaces Naturales; yo prefiero pensar que por fin la tecnología devolverá algo que secuestró hace mucho tiempo...

El mundo vuelve a ser analógico