Watson la máquina que piensa

Por: Francisco Manrique.

Como volver millones datos en consejos que sean valiosos


El sábado pasado tuve la oportunidad de dirigirme a un grupo de estudiantes en la Universidad Central. El mensaje que les quería transmitir, estaba relacionado con el reto creciente que van a tener que enfrentar hacia adelante, producto de los cambios en la tecnología. Y les mostraba que, temas tan complejos como un eventual post conflicto en Colombia, podría beneficiarse de las innovaciones que se están dando cada vez más aceleradas en el mundo.

En este POST, quiero remitirme a uno de esos cambios que van a tener un profundo impacto en muchos sectores: la era de la computación cognitiva en la nube, para responder a las preguntas sobre los temas más complejos que enfrentan las empresas y la sociedad.

Desde finales de los años 30 en el siglo pasado, han habido dos eras que han marcado la aparición de los computadores. La primera de ellas fue la era de los tabuladores, que eran maquinas que podían contar muy rápidamente, y que fueron utilizados en los censos de esa época. Después vino la era de la programación, donde se le definía a la máquina lo que debería hacer, mediante instrucciones precisas o programas estructurados..

De acuerdo a Gini Romettry, CEO de IBM, en la era digital, la nueva frontera del desarrollo tecnológico va a estar relacionada con la capacidad de razonar y aprender, en tiempo real, que van a tener las plataformas diseñadas con estas habilidades. Son sistemas que entienden los datos no estructurados. Este cambio va mucho más allá de la computación en la nube, la analítica y la movilidad, que hoy son las tendencias que se han venido consolidando. Es la nueva era donde las máquinas tienen “capacidad de pensar”.

Hay que tener en cuenta que, el contexto en el cual se desarrolla el trabajo en la actualidad en la era digital, está cambiando exponencialmente. La cantidad de datos se están duplicando cada dos años, luego se necesitan nuevos mecanismos para enfrentar esta avalancha de información: cada día se producen en el mundo 2.5 millones de Gigabytes !!!. ( un gigabyte = 1000 millones de bytes).  El 80% de estos datos no son estructurados: fotos, twitts, blogs, etc. El reto es cómo darles sentido para poderlos usar más inteligentemente.

Como consecuencia de esta explosión de información, hay una tendencia a desarrollar las habilidades para manejar muchos datos, lo que significa un cambio en cómo se educa a las personas. Cada día oiremos más de  los científicos en el manejo de datos, que estarán encargados de soportar la velocidad y la agilidad en la toma de decisiones, con la que las organizaciones se deben de mover en la era digital.

Watson es el nombre de una plataforma tecnológica desarrollada por IBM, que utiliza el proceso de lenguaje natural, y el aprendizaje de las máquinas – Machine Learning -, para revelar nuevas perspectivas utilizando grandes cantidades de datos no estructurados. Hoy, después de cinco años de desarrollo, tiene 28 motores basados en 50 tecnologias. La inteligencia artificial es uno de los motores detrás de Watson

A partir del uso del proceso de lenguaje natural, que muy rápidamente  le da significado al texto, en términos de conceptos, relaciones y entidades, se generan hipótesis, que son respuestas potenciales a una pregunta.  Esto se hace a partir de alimentar respuestas a un número grande de preguntas. Estadísticamente, se le dan un escore a los resultados en función del nivel de confiabilidad. Esto se llama aprendizaje basado en la evidencia..

El propósito que se busca, es el de escalar la habilidad y la pericia de la gente en lo que hace, donde la combinación de la persona con la máquina, aumenta la capacidad de trabajar juntos de manera mucho más efectiva. Con el apoyo de la tecnología, que ayuda a manejar mucho mejor la avalancha de datos que hoy se producen en el mundo, se busca que la experiencia del trabajo individual sea más productiva, rica y gratificante.

Watson no es un súper motor de búsqueda, tampoco es Siri desarrollado por Apple. Es una plataforma que maneja relaciones, correlaciones, interactúando con los datos de una manera diferente. En esta plataforma se trabaja con el lenguaje natural, entiende las implicaciones de las preguntas que se le hacen, y tiene la posibilidad de hacer preguntas para clarificar las que recibe.

Con Watson, IBM quiere atacar grandes problemas que transformen de manera significativa la realidad de la gente. Iniciaron en el campo de la salud alrededor de la enfermedad del cáncer. Pero también, lo están utilizando en las empresas para ayudarlas a manejar problemas escalables y repetibles. Para lo anterior, están creando un ecosistema para invitar a investigadores, emprendedores y otros actores, a desarrollar aplicaciones, donde Watson esté detrás como soporte.

Para seguir adelante, se ha iniciado una nuevo grupo de negocio con el apoyo de 2.000 investigadores y una inversion de US$1.000 millones. Es la más grande apuesta de transformación que ha hecho IBM desde la crisis de 1993, y que pretende cambiar significativamente el rumbo de esta gran empresa, que hoy cuenta con 400.000 empleados en todo el mundo.

En los sistemas tradicionales de computación , solo se pueden utilizar datos estructurados, es decir con una estructura conocida. Watson es capaz de trabajar con datos no estructurados, provenientes de fuentes muy diferentes: trabajos de investigación, blogs, twitters, páginas de internet, redes sociales y noticias, actuando sobre el lenguaje y con las reglas de gramática, contexto y cultura. El 80% de los datos son de este tipo.

Es un proceso implícito, ambiguo y complejo y un gran desafío para procesar. Lo interesante es que esta plataforma, puede leer e interpretar un texto como lo haría una persona, rompiendo una frase de manera gramatical, estructural y relacional, para lograr una captura significativa del material semántico. Entiende el contexto, que es diferente del reconocimiento del lenguaje hablado de otros sistemas.

Watson busca comprender la verdadera intención detrás de las palabras, utilizando este proceso para extraer respuestas lógicas e inferencias a preguntas potenciales. Esto permite traer modelos lingüísticos y algoritmos para ponerlos al servicio de aumentar el conocimiento de las organizaciones. También, acelera el aprendizaje y la adquisición de experiencia, economizando tiempo valioso, al hacer visibles muchas otras posibilidades derivadas de una base muy grande de datos.  Watson aprende, se adapta y mejora continuamente, a medida que más se utiliza y recibe retroalimentación de los usuarios, incorporando nuevos datos y se documentan sus éxitos y sus fracasos.

Este nuevo tipo de plataformas, está creando una revolución que permite tomar mejores decisiones, y construir experiencia, en campos tan diversos como el legal, la medicina, y otras disciplinas. Un ejemplo es su utilización para el diagnóstico y tratamiento del cáncer. A partir de los síntomas registrados, los tratamientos realizados, y los efectos colaterales documentados, Watson evalúa miles de prácticas para el tratamiento de esta enfermedad, e identifica para el medico las mejores opciones disponibles.

Con la ayuda de expertos, Watson recoge su conocimiento, en lo que se llama el cuerpo, recolectando la información de la literatura disponible sobre el tema, descartando lo que no sirve, o es de mala calidad. Es un proceso de curado de la información. A continuación, los datos se pre-procesan construyendo los índices y meta data,  que puede ser útil en el contexto del tema seleccionado. Esto se llama la digestión. Se crea un ambiente gráfico para poder contestar preguntas de una manera sencilla. El siguiente paso es el entrenamiento por expertos para encontrar tendencias,  lo que se llama aprendizaje de la maquina.

Se alimentan los datos en pares de preguntas – respuestas, que no sirve para contestar todas las preguntas, pero si para identificar patrones de lingüística y significados. Una vez alimentada la información, se inicia un proceso de retroalimentación permanente entre Watson y los usuarios, y es revisado periódicamente por los expertos. A medida que aparece nueva información, Watson se actualiza para incorporar los cambios del conocimiento, e interpretación lingüística, en cada campo donde se usa la plataforma. A partir de este momento, Watson está listo para contestar preguntas acerca de temas complejos, e interpretaciones basadas en la evidencia, que permiten identificar nuevos patrones y perspectivas.

En todos los casos donde se utiliza, Watson opera de la misma forma. Identifica palabras y patrones en el lenguaje de los pares de preguntas y respuestas alimentados, para formular hipótesis. Después busca datos para respaldarlas o invalidarlas, utilizando métodos estadísticos y muchos algoritmos, generando una puntuación a la que se le asigna un peso a cada pieza de evidencia, para calificar su calidad. Después, se estima el nivel de confianza en función de, que tan alto han sido evaluadas las respuestas, basadas en la evidencia que las soporta. Es un proceso donde se utilizan métodos analíticos.

Hoy se ofrece un servicio cognocitivo que ayuda a liberar la carga de preparar datos y facilitar el análisis predictivo, utilizando el concepto de contar historias de manera visual, como mapas, gráficos e infografías para ilustrar un tema específico.

La historia de su desarrollo comenzó en el 2011, cuando IBM Watson le gano a dos de los campeones más importantes en el juego de Jeopardy en los USA, que colectivamente habían ganado más de US$5 millones en premios. Uno de ellos había tenido 74 apariciones sin perder. Este proyecto de innovación comenzó en el 2006 en un “Grand Challenge”, con 28 investigadores en Boston, separados de la Corporación IBM. Fue algo similar a lo que dio lugar al PC a principios de los 80, y al súper computador “BIG Blue”, que había vencido al Gran campeón de ajedrez Kasparov.

Al principio, había mucho escepticismo dentro del grupo de investigación, en los resultados de este proyecto experimental, y en su impacto económico. El programa de Jeopardy es diferente de otros similares porque el presentador propone una respuesta, que es una pista, para que los participantes hagan las preguntas adecuadas. Watson tenía que generar las preguntas, a partir de desmenuzar las respuestas y entender que era lo que se quería preguntar, antes de poner la respuesta adecuada.

Esta plataforma se construyó sobre la base de una arquitectura paralela masiva que permitió examinar el contenido del lenguaje natural, de los datos entregados por el presentador y los datos recopilados en 100 ensayos hechos con base a concursos anteriores. Un sistema construido con componentes para buscar y sopesar información, tomó 3 años y 28 investigadores para su desarrollo.

A partir de las preguntas que se hacían, se trabajó en posibles respuestas usando la información que se tenia a la mano, creando una conexión entre los diferentes datos. Para esto se utilizaron cientos de algoritmos para estudiar la evidencia, y también los factores que debian ser incluidos en la información, en función de su tipo, confiabilidad, y relevancia. Se le daba un peso en base de lo que Watson había aprendido anteriormente, y la probabilidad de que su supuesto pudiera ser correcto.  Con este proceso se generaban unas listas de respuestas relacionadas con la evidencia para cada opción.

Para preparar a la máquina, se le introdujeron 200 millones de páginas de información  almacenada localmente, ya que no se le permitió conectarse al Internet durante el concurso. La respuesta de Watson tenía que ser formulada en segundos para ser el primero en tocar el botón del concurso.

Después de haber ganado esta competencia, IBM comenzó a trabajar en la idea de darle una utilización comercial a Watson en áreas como la salud, bancos, seguros, y telecomunicaciones, donde hay un uso intensivo de información no estructurada en gran volumen, que pudiera ser digerida, entendida y procesada rápidamente.

En la actualidad, el sistema es 240% más rápido que en el 2011 y su tamaño se redujo considerablemente. Lo que antes ocupaba el espacio de una alcoba, hoy cabe en un cajón de un closet que pesa 100 lbs. Otro cambio fundamental, fue el de preparar a Watson para recibir cientos de preguntas, en formatos que no son estándares, generados por múltiples usuarios al mismo tiempo, en un lenguaje como el Inglés que es muy complejo.

Para hacer la transición, de la plataforma para un juego, hacia el tratamiento del cáncer, se necesitó hacer tres procesos: adaptación de contenido, entrenamiento, y adaptación funcional. En otras palabras se tenía que alimentar a la máquina con la información médica para que pudiera hacer el proceso de manera apropiada, probándolo con algunas preguntas prácticas Y después haciendo los ajustes correspondientes.

Con el Memorial Slone-Kettering Cancer Center de NY, en el 2012 la plataforma se utilizó inicialmente como asistente en el diagnóstico para poder digerir grandes cantidades de datos de diferentes orígenes, y así, poder hacer sugerencias a las opciones de tratamiento disponibles, y en función de su relevancia. La plataforma está conectada con el Internet y tiene acceso a millones de datos de información médica proveniente de 600,000 fuentes.

IBM reconoce que en la actualidad la plataforma tiene el conocimiento de un estudiante de medicina de primer año. Está trabajando para que esto mejore significativamente y puedan pasar los exámenes que se le hacen a los médicos cuando salen de la universidad. Se comenzó con el tema del cáncer, pero ya se está trabajando en la diabetes, la cardiología, la salud mental, y otras enfermedades crónicas.. También se está utilizando para facilitar el proceso de pagos entre los hospitales y las compañías de seguros.

Como yo le decía a los estudiantes de la U Central: inicié mi carrera como ingeniero utilizando la regla de cálculo, y en un espacio de cincuenta años, he tenido el privilegio de ver la explosión de la tecnología, donde algo inimaginable ya está sucediendo: máquinas y sistemas con capacidad de interpretar y pensar.

Me pregunto:¿qué más les tocará ver a mis nietos en las siguientes cinco décadas?


Imagen en página principal cortesía de Jscreationzs en FreeDigitalPhotos.net


 

Debes loguearte para poder agregar comentarios ingresa ahora