2006/10/30

"Dime dónde estás": Lenguaje natural y GIS

Los GIS (Geographic Information Systems, o Sistema de Información Geográfica) son sistemas que permiten la recolección, análisis, gestión e interpretación de datos espaciales. Como explica la Wikipedia, "El SIG funciona como una base de datos con información geográfica (datos alfanuméricos) que se encuentra asociada por un identificador común a los objetos gráficos de un mapa digital. De esta forma, señalando un objeto se conocen sus atributos e, inversamente, preguntando por un registro de la base de datos se puede saber su localización en la cartografía".

Algunos de los mayores fabricantes de la industria GIS han comenzado ya a explorar las facilidades que puede dar el lenguaje natural para la identificación de datos espaciales. Un ejemplo es la Geographic Text Search del grupo Metacarta, que analiza documentos y extrae las referencias a lugares geográficos contenidas en dichos documentos.

Se prevé que el uso de lenguaje natural para interrogar BBDD irá creciendo con el tiempo, pues, cuanto más complicado puede ser un interfaz de interrogación de bases de datos, más puede aportar el lenguaje natural a su empleo por usuarios inexpertos. Estaremos atentos.

2006/10/17

Agente virtual para Encarta y para casi todo

Aparece una nueva manera de usar lenguaje natural, en este caso se trata de facilitar el acceso a la mina de información que contienen enciclopedias como Encarta.

Se trata de un robot mediante el que es posible interrogar Encarta (en sus versiones en inglés) con consultas como

What's the capital of Venezuela?

Además, es posible hacerlo a través de Messenger, añadiendo un nuevo contacto (encarta@botmetro.net), que nos es más que un robot o agente virtual.

Lo hemos estado probando y obtenemos resultados dispares: por una lado, consultas como la anterior obtienen excelentes resultados; mientras que otras similares como

What's the average age of US citizens?

obtienen resultados pobres.

Además, este agente virtual no es más que un ejemplo: existen muchos otros agentes (http://gallery.live.com/default.aspx?l=6), como Billy Bones o Music Man. Microsoft ha hecho pública la API que permite crear este tipo de robots a cuaqluiera que esté interesado y su intención es que la idea se extienda para muy distintos entornos, desde atención al cliente o autoservicio web, hasta ayuda al usuario, pasando por recomendaciones, etc. Parece que el próximo candidato a incorporar un robot es XBox, una apuesta arriesgada en un mercado muy competitivo.

Si la idea funciona, es muy probable que acabemos encontrándonosla como interfaz para el sistema de ayuda de las aplicaciones Microsoft. Incluso como herramienta para guiar y asistir al usuario en las búsquedas con Live Search.

Nos queda por saber si sus competidores, desde Google o Yahoo a Sony o Nintendo, reaccionarán en la misma dirección. Estaremos atentos y os tendremos informados.

Google y su singular pluralidad

Una de las peculiaridades de Google es que sus resultados pueden variar de una máquina a otra, o de un día a otro, sin tener muy claro por qué. A veces son cambios en el orden de los resultados (la llamada Google Dance). Otras depende del idioma del sistema operativo de la máquina. Estos cambios pueden llegar a ser más que significativos.

Últimamente, Google ha comenzado a ofrecer, en determinados casos y sin una consistencia muy clara, formas singulares a partir del plural y formas plurales a partir del singular. Ésta es una de las características de lenguaje natural que Google parece que quiere empezar a incorporar, pero sin terminar de decidirse. De ahí que no sea posible encontrar menciones a esta posibilidad en su documentación online en español (En inglés sólo he podido encontrar referencias indirectas a su uso de stemming).

He realizado algunas pruebas sencillas para probar esta capacidad de Google. Partiendo de www.google.com, tenemos que:


  • Pharmacies devuelve Pharmacy (buscando "Pharmacies" aparece "Pharmacy" como resultado correcto)
  • Igualmente, Farmacias devuelve Farmacia
  • Farmacia también devuelve Farmacias, pero con muy poca relevancia (tengo que ir hasta la quinta página de resultados)
  • raza de perros devuelve resultados con razas y con perro

Pero algunas pruebas permiten sospechar que, realmente, no está habiendo un análisis lingüístico correcto. Por ejemplo:

  • Madrids devuelve Madrid, como si fuera el plural correcto de la ciudad
  • Montes Carlos devuelve Monte Carlo, como si "Carlos" fuera una forma plural y "Carlo" fuera el singular
  • Bicicletas estáticas reconoce el singular de bicicletas, pero, curiosamente, no el de estáticas
  • Buscando por flans de huevo, curiosamente, sí devuelve flan de huevo... pero buscando por el plural correcto, flanes de huevo, no lo hace.

En resumen: parece que Google, en determinadas circunstancias, elimina o añade una -s final; pero no parece que tenga ningún conocimiento real de lo que es un singular y lo que es un plural.

Veremos si estos resultados cambian con el tiempo.

2006/10/16

Microsoft se interesa por el lenguaje natural

Microsoft no quiere quedarse fuera de las investigaciones en lenguaje natural. Y como es frecuente en las grandes corporaciones, prefiere avanzar adquiriendo pequeñas empresas especializadas.

Ése ha sido el caso de esta semana. Microsoft ha adquirido Colloquis, una empresa que ha desarrollado herramientas de análisis lingüístico y conversacional. Estas herramientas permitirán a Microsoft ofrecer "Agentes de Servicios Windows Live" (Windows Live Service Agents) a terceras empresas: una forma fácil de que cada empresa pueda configurar su propio "asistente virtual".

Esta tecnología, por ahora, sólo estará disponible en inglés. Pero es un nuevo indicador de la importancia que el lenguaje natural está adquiriendo para las grandes corporaciones.

(Desde eChannel)