2006/12/19

¿Pondrá Hakia en jaque a Google?

Hace unos días nos llegó esta noticia en BusinessWeek sobre las nuevas empresas que están surgiendo para arrebatar a Google el suculento mercado de las búsquedas. Destaca la empresa Hakia que está desarrollando un buscador que es "meaning-based", es decir, basado en el significado. Dicen poder hacer que este buscador entienda lo que significan las páginas webs y no sólo encontrar las palabras buscadas en las páginas webs. Hay que resaltar que están todavía en beta y esperan tener el gran lanzamiento en 2007.

Ni que decir tiene que antes de poder desarrollar un buscador que "entienda" el contenido, hay que desarrollar buscadores que empiecen por manejar la información morfosintáctica y léxica antes de dar el gran salto de la semántica. La tecnología de Hakia parece concentrarse en nuevas formas de indexación y algoritmos semánticos... pero echamos de menos lo obvio. ¿hay realmente conocimiento lingüístico, morfologías, analizadores sintácticos, correctores ortográficos, etc. detrás de la tecnología de Hakia?

Hicimos una pequeña prueba para ver si Hakia incluye un corrector ortográfico como el que contiene NaturalFinder de Bitext para el español, pero parece que no es el caso al buscar: information about diu diligence.

Estaremos atento al lanzamiento oficial de Hakia en el 2007, a tiempo para compararlo con el buscador NaturalFinder para inglés que estará listo en enero.

2006/12/15

Corecores hortográficos

Que la corrección ortográfica era algo necesario para cualquier buscador lo sabía ya mucha gente, antes de que Google lo popularizara entre el gran público bajo la forma de su "Quiso decir".

Y es que las cifras cantan. Según dice Yahoo en este artículo, "Entre el 10% el 15% de las consultas que recibe Yahoo tienen errores de ortografía". Son unas cuantas, como para no tenerlas en cuenta.

Yahoo pone ejemplos como "evanesescence", que el corrector de Word no corrige correctamente (mientras que el suyo sí). Por ir un paso más allá, he probado la versión en español, "evanesescencia", en Yahoo.es, y ellos tampoco la corrigen. (No he escogido el ejemplo a propósito, que conste... pero DataSpell la corrige sin problemas).

Y no vamos a entrar en temas como los "falsos positivos" a los que tan acostumbrados nos tiene Google: ¿han probado ya a buscar Eva se desnuca? (los ejemplos de "conejitos" y asociados los corrigieron a mano, porque se hicieron demasiado famosos)

En resumen: corregir es importante. ¡Que tu buscador no lo olvide!