2006/11/24

Gotas de naturalidad

Esto es lo que nos ofrece el buscador Searchmash: no "Nuevos conceptos en búsquedas", sino pequeños detalles que harían la vida un poquito más fácil a todos los usuarios de buscadores.

Un par de ejemplos:

-Si has realizado una búsqueda y quieres escribir una nueva consulta, normalmente tienes que asegurarte de que el "foco" esté en la caja de texto de las consultas (dicho de otro modo, tienes que pinchar con el ratón en la caja de texto). Con este buscador basta con empezar a escribir la consulta; ésta se sitúa automáticamente en la caja de texto.

-Si has visto ya los primeros resultados y das al enlace de "Más resultados", éstos se te cargan en el lugar más natural: justo debajo, para que puedas continuar llevando la página hacia abajo manteniendo los resultados anteriores arriba (mientras que todos los buscadores del mundo hasta ahora cargaban una nueva página de resultados, desapareciendo la anterior).

Parecen tonterías, pero podrían significar cambios realmente interesantes en la usabilidad de los buscadores. Ahora bien, es más sencillo probarlos que explicarlos.

Gotitas de naturalidad que seguramente se irán extendiendo con el tiempo.

¿Buscas código con GREP?

A la hora de clasificar los buscadores, un criterio, como cualquier otro, podría ser la base documental que manejan. Es decir, búsquedas en toda la procelosa internet (Google, Yahoo!), frente a búsquedas contra un entorno acotado.

Para este segundo caso no basta sólo con potentes máquinas indexando contenido; es imprescindible un buen conocimiento del entorno si queremos que el sistema devuelva resultados relevantes. Hay que hilar un poco más fino y crear una estructura competente para los datos y documentos, que refleje las relaciones reales que existen. En un ordenador, por ejemplo, hay mucha más información contenida en un documento guardado en C:\Documentos\Informes\Contabilidad\2006 que si lo tuviéramos desperdigado en el Escritorio.

Por el momento, los buscadores no son capaces de resolver esta organización por sí solos. Por eso es tan necesario saber en qué consiste el contenido; hace falta un experto en contabilidad, para organizar los documentos con un sentido “contable” y útil en lugar de alfabéticamente, ya que no aporta a dotar de más significado a los datos.

En este sentido, os presentamos el buscador KRUGLE. Es un proyecto libre dirigido a algo tan específico como la búsqueda de código fuente de proyectos libres (KDE, OpenOffice, GCC). Es una muestra de cómo el conocimiento del medio encauza el proyecto hacia una mayor eficacia.

La búsqueda se realiza con palabras clave y se organiza en un primer nivel por lenguajes de programación (más de 30 donde buscar) y en un segundo nivel por áreas (definición de clases, llamadas a funciones, comentarios).

Ofrece, además, opciones muy interesantes: se pueden añadir metacomentarios a las porciones de código (sólo para usuarios registrados), que quedan discretamente junto al código en cuestión y que mejoran el resultado (un poco al estilo wiki) para el siguiente usuario.

Ellos dicen en su página: “we’re creating the world’s ultimate search engine for developers”. El proyecto es bueno, desde luego, pero internet es una cruel amante.
No podemos pensar que estas soluciones son aplicables a cualquier ámbito; son realmente útiles a la hora de rastrear lenguaje artificial, unívoco, monosémico y sin ambigüedades, como son (deberían) los lenguajes de programación; aunque no sirven para la búsqueda en Internet, donde se usa lenguaje natural, con una complejidad muy distinta y mucho más profunda.

2006/11/14

¿Todos hablar "keywordese"?

Nueva palabra descubrir mundo buscadores. Nombre "keywordese", dar mucho hablar adelante.

...pero mejor continuemos hablando en español, y no en este nuevo idioma que está surgiendo gracias a los buscadores tradicionales: el "keywordese" (de "keyword", "palabra clave").

¿Quién no ha usado alguna vez el "keywordese"? ¿Quién, por ejemplo, no ha ido a Google y ha hecho una consulta del estilo de "ver película señor anillos madrid"? Los buscadores tradicionales nos han acostumbrado a utilizar en nuestras búsquedas sólo las palabras que suponemos que van a ser más relevantes, y que no van a generar ruido.

El término "keywordese" (que aún no está en la Wikipedia ni en el Wiktionary) fue, al parecer, creado por Barney Pell (cofundador de PowerSet, la empresa estadounidense que está poniendo de nuevo de moda el lenguaje natural en Estados Unidos), y designa a ese especial lenguaje que los usuarios de los buscadores tenemos que aprender (y que no es en absoluto tan sencillo como parece) para poder comunicarnos eficazmente con un buscador y extraer lo máximo posible de él.

Cada vez que se menciona el lenguaje natural en una charla sobre buscadores, aparece un fervoroso defensor del "keywordese", sosteniendo que los usuarios nunca hablarán de forma natural con un buscador; que ya se han acostumbrado a este casi-lenguaje; que nunca utilizarán más de una o dos palabras en sus búsquedas; etc.

A mi entender, este tipo de razonamientos son bastante peculiares. Los usuarios de los buscadores actuales usamos "keywordese" porque así logramos mejores resultados; no porque tengamos un afán especial por expresarnos mal. El día que se generalicen los buscadores que entiendan lenguaje natural, y el día en que expresarse correctamente suponga ventajas prácticas a la hora de hacer una búsqueda, la gente escribirá sus consultas en un español (o el idioma que sea) correcto.

Y ya comienza a serlo. En la demo de MSN con lenguaje natural realizada por Bitext (utilicen "blog" como usuario y "bitext" como contraseña, gracias) se pueden hacer pruebas sencillas a ese respecto: busquen "Resultado de las elecciones municipales de Alcalá de Henares en 2003" con NaturalFinder y su correlativo en "keywordese", "resultado elecciones municipales Alcalá Henares 2003", con MSN sólo, y comparen los primeros resultados. Sin ser espectaculares, el "keywordese" pierde por bastante en su empeño de que la mitad de las palabras de una frase no cuentan para nada.

Y es que, además, el "keywordese" es un idioma que hay que aprender. Pongan a una persona sin experiencia informática ante un buscador, y díganle que le escriba una pregunta: utilizará, de forma natural, su propio lenguaje. Si modifica en algo su forma de expresarse, quizás lo haga en que emplee con el buscador mayor cortesía que de habitual. Cuando le decimos "no, no, pon sólo las palabras que sean importantes para la búsqueda", probablemente quede perplejo. Y con razón. ¿No basta con que en muchos ámbitos técnicos nos veamos obligados a aprender inglés, que ahora tenemos que aprender incluso una variante empobrecida de nuestro propio idioma?

En Bitext, desde luego, creemos que no. La lucha contra el "keywordese" será larga, sin duda, pero en ella estaremos a favor del lenguaje correcto; del lenguaje natural.