2007/01/26

Thursday 73: Mesa redonda sobre buscadores

Ayer tuvo lugar una interesantísima Mesa redonda sobre buscadores, en la que participaron Bernardo Hernández de Google, Diego Díaz de Yahoo, Ismael el-Qudsi de MSN, Samuel Arenas de Ask, y el director de Bitext, Antonio Sánchez Valderrábanos.

Muchos han hablado de ello. Yo voy a dar simplemente unas notas sobre algunos aspectos que me parecieron curiosos, y animo a quien lo desee a complementarlas en los comentarios.

La intervención de Antonio se centró en un punto clave. Internet hizo fácil publicar contenidos. Sin embargo, la web no se ha convertido en un fenómeno social hasta que las nuevas tecnologías lo han hecho extremadamente fácil. Publicar fotos antes de Flickr, videos antes de YouTube, diarios antes de Blogger... eran cosas fáciles para un usuario con un perfil técnico. Ahora, todas esas cosas son fáciles para cualquier usuario.

Pero buscar contenido sigue teniendo limitaciones. Encontrar cosas que no sean obvias requiere aún de "búsquedas avanzadas", "operadores booleanos", "reescritura de la consulta", etc; habilidades que la gran mayoría de las personas ni tienen, ni quieren tener. El lenguaje natural es la clave para que realizar búsquedas avanzadas sea también extremadamente fácil.

La respuesta de los cuatro grandes a este reto fue dispar, y en algunos casos, para mí al menos, curiosa. Todos tenían claro que el lenguaje natural estará en las soluciones del futuro; nadie lo dudó. Pero nadie apostó decididamente por ello. Hubo quien aducía que "era muy complicado" (y es que si fuera fácil ya estaría resuelto), que "los usuarios realmente no buscan así" (obvio, si los buscadores actuales no entienden al usuario cuando habla de forma natural, ¿qué remedio le queda a éste que adaptarse? Pero denle una oportunidad y verán), que hubo intentos que ya fracasaron (sí, hace una década)...

Está claro que el lenguaje natural es un tema difícil, que requiere una tecnología muy preparada. Pero no es necesario pasar de no aplicarla en absoluto a convertir nuestros buscadores en HAL 9000 de golpe; se pueden ir dando pasos. Y, como recordó Antonio, ya hay demos que enseñan lo que se puede hacer actualmente. Pero hay que apostar. Y es curioso que las empresas más innovadoras del mundo se conviertan de repente en conservadoras en un asunto así.

Todo esto en teoría, claro. Porque Google lleva dos años experimentando detalles de lenguaje natural, por ejemplo. ¿Quizás es simplemente que nadie quiere levantar una liebre para que los demás no se le adelanten? Lo contrario sería pensar que todas dan la espalda al futuro, incluso aunque reconocen que el futuro es ése; parece raro, ¿no?

Pero hay otra explicación posible... y ésta fue, para mí, la conclusión más descorazonadora de la mesa redonda:

El inglés es fácil. Cada palabra tiene cuatro o cinco formas como máximo. Su sistema verbal es muy sencillo. Técnicas simples (como el truncamiento o stemming) dan relativamente buenos resultados en ese idioma.

Pero esto nos deja fuera a los hispanohablantes, que seguimos teniendo que utilizar signos abstrusos en nuestra consulta para que nuestra búsqueda por "cañas" no nos devuelva "canas", y para que "políticos Sudán" no nos devuelva "los políticos no sudan". No podemos esperar, obviamente, a que esta tecnología nos venga de fuera. Tenemos que hacerla aquí. Y lo hecho aquí no se valora. Una empresa española seguirá prefiriendo pagar el doble por un producto peor si viene de Estados Unidos. El Capital Riesgo sigue teniendo muy poco de riesgo, cuando de apoyar proyectos españoles se trata. Y así nos va.

Cuando Yahoogle o AskMSN saquen dentro de diez años el "plugin para español" de su solución de lenguaje natural, todos en España correremos a comprarlo, y les daremos las gracias por haber tardado sólo una década en permitirnos acceder a él. Y habrá aún quien se pregunte por qué España sigue a la cola de la tecnología, y se echará la culpa al Gobierno. Aún entonces.

Sabemos cómo será el futuro. Tenemos claro por dónde va. ¿Queremos, por una vez, empezar a construirlo nosotros?

3 comentarios:

icepper dijo...

Estando de acuerdo en que el lenguaje natural forma parte de la vida cotidiana de muchas personas mi duda radica en las nuevas generaciones, crecidas con el e-mail, el messanger y el sms, que han creado un lenguaje nuevo, que en nada se parece a lo que yo entiendo por lenguaje natural. ¿Merece la pena el esfuerzo en ese área, cuando los usuarios del mañana, hbln kn otro lengje? (intento de ser como ellos :-) )

Mario dijo...

Josu, encantado de verte a ti y a Antonio en el Thursday y en la cena ;-). Espero que no os tomarais mal lo de que entender el lenguaje natural lo veo una utopía, pero es que realmente lo veo así.

Seguramente se harán muchos avances, y lo que hay realmente ayuda, pero yo lo veo como pasar el test de turing, aún que sepa no se ha conseguido.

De todas formas, si veo que se puedan conseguir avances muy interesantes, como el ejemplo que puso Antonio, "quiero deseredar a mi hijo". Para el tema de las ambigüedades, yo creo que el sistema podría crear "clusters" de resultados y pedirte una desambigüación, tal y como hace la wikipedia.

jorgito dijo...

En mi caso estoy más con la gente de Bitext. Me ha pasado más de 2 años creando Noxtrum y maldiciendo a los grandes buscadores por haber "maleducado" a los usuarios. A nosotros nos toca menos pero sabéis cómo busca mi padre cuando quiere encontrar un viaje barato a Canarias: pone "viaje" en la caja de búsqueda ó en un día inspirado "viaje Canarias"...
No creo que sea justo decir que "como es muy difícil hacer que un buscador encuentre nuestros resultados deseados usando lenguaje natural, usemos la forma de buscar arcaica e instaurada por los actuales buscadores". Los clusters son un fantástico ejemplo de cómo se está invirtiendo en tecnología para resolver un problema que nosotros mismos hemos creado.
De verdad que deseo con todas mis fuerzas que Bitext tenga éxito sobre todo para que la gente, aunque cambie el lenguaje en el futuro y la forma de expresarnos, pueda usar uno único en todas sus comunicaciones...incluso con nuestras máquinas.