2007/09/26

Brecha digital y tecnología lingüística

Hemos publicado recientemente un artículo sobre cómo la tecnología de análisis de lenguaje natural puede resolver el problema de la brecha digital, en particular, el de la usabilidad y accesibilidad de de las fuentes de información. En resumen: si buscamos una Administración Electrónica próxima al ciudadano, necesitamos que las aplicaciones que emplee esta Administración Electrónica (portales, buscadores...) entiendan el lenguaje del ciudadano.

2007/09/25

Otra vez con Gartner

Acaba de ser publicado un nuevo "Gartner Magic Quadrant" relativo a las Tecnologías de Acceso a la Información (otro nombre para el "Information Retrieval" o el "Search Technologies" de antaño).

Gartner ofrece un resumen del Gartner Magic Quadrant for Information Access Technology, 2007. En él podemos encontrar cosas interesantes relacionadas con las búsquedas y el lenguaje natural.

Vemos que dtSearch, comparado con 2005, ha mejorado mucho sus posiciones en el eje "completeness of vision", situándose ya en la frontera entre "niche players" y "visionaries".

Sólo en unos pocos casos se menciona el lenguaje natural como clave para estos buscadores. Aparece como novedad Consona (antes M2M), y vuelve InQuira. En otras herramientas como Progress Software se mencionan las "plain language queries" (que parece un eufemismo para "natural language queries". En cualquier caso, parece que en 2007 aún no se ha dado el salto hacia estas tecnologías. El número de referencias de 2007 es el mismo que ya había en 2005, aunque han cambiado algunos protagonistas. Las espadas, pues, siguen en alto.

2007/09/24

Políticos que sudan en Sudán

Si queremos explorar un poco las áreas en las que los sistemas actuales de búsqueda pueden mejorar, probemos a buscar cosas como

"políticos Sudán"

para informarnos sobre los personajes políticos más destacados en ese país.

El buscador líder del mercado y preferido por los usuarios, nos da como segundo documento relevante

Los políticos no sudan - http://www.escolar.net/MT/archives/2005/08/los_politicos_n.html

¿La razón? La mayoría de los buscadores actuales ignora la valiosísima información que las mayúsculas o los acentos proporcionan a nuestro lenguaje. De ahí que "Sudán" y "sudan" sean lo mismo para un buscador.

Y no se trata de un hecho aislado, lo mismo sucede con la "n" y la "ñ", para los buscadores "cana" y "caña" son lo mismo (para Google, Yahoo y Live). Hemos preferido no hacer experimentos con "cono".

Dados los ingentes recursos que los buscadores dedican actualmente a indexar la web, no debe ser excesivamente costoso comenzar a tomar en consideración este tipo de información. Hecha queda la petición.

Más ejemplos de mejoras que pueden emprender los buscadores en “Pida tres deseos, me dijo el Genio del Buscador”, en http://www.baquia.com/noticias.php?id=10092.