2007/01/26

Como en el cine

Situación: Pedro se acerca al cine del barrio. Pasa un tiempo en la cola, y por fin llega a la ventanilla.

-Hola, quería dos entradas para la sala cuatro para ahora, gracias.

La dependienta le mira, menea la cabeza y, con expresión de desaprobación, le señala un papel que está pegado al lado de la ventanilla.

Pedro, perplejo, se acerca al papel y lee que dice:

"NORMAS PARA SOLICITAR UNA ENTRADA EN ESTE CINE.

  1. Use pocas palabras para solicitar su entrada.

  2. No utilice palabras que no sean relevantes, como "quiero", "para" o "la".

  3. Si desea que el "dos" se refiera al número de entradas, diga "comillas" antes y después de la expresión.

  4. Si desea filtrar su entrada por "sala", utilice la expresión "Sala:" ("sala, dos puntos, número de la sala").

  5. Si desea filtrarla por otros criterios, vaya a la Ventanilla Avanzada, en la puerta trasera del cine.

  6. No utilice términos ambiguos como "ahora"; use expresiones temporales como "día: 25 AND mes:1 AND año:2007 AND horas:20 AND minutos:30". No olvide añadir "comillas" antes y después de la expresión.

  7. Si pide una entrada para una película que ve muy poca gente, recibirá un mensaje que diga "Quizás quiso pedir..." y le daremos una entrada para la película más vista actualmente y que más se parezca a la que pidió.

  8. Si su entrada no está entre las diez que el dependiente le mostrará, pídale que le muestre las diez siguientes, o reformule su petición.

  9. Si no quiere que su asiento esté esquinado ni demasiado adelantado, diga "Entrada Menos Esquinas Menos Delante". Si acude a la Ventanilla Avanzada puede marcar con un rotulador la zona en la que desea sentarse.

Esperamos que su experiencia de petición de película sea agradable. Muchas gracias"

Thursday 73: Mesa redonda sobre buscadores

Ayer tuvo lugar una interesantísima Mesa redonda sobre buscadores, en la que participaron Bernardo Hernández de Google, Diego Díaz de Yahoo, Ismael el-Qudsi de MSN, Samuel Arenas de Ask, y el director de Bitext, Antonio Sánchez Valderrábanos.

Muchos han hablado de ello. Yo voy a dar simplemente unas notas sobre algunos aspectos que me parecieron curiosos, y animo a quien lo desee a complementarlas en los comentarios.

La intervención de Antonio se centró en un punto clave. Internet hizo fácil publicar contenidos. Sin embargo, la web no se ha convertido en un fenómeno social hasta que las nuevas tecnologías lo han hecho extremadamente fácil. Publicar fotos antes de Flickr, videos antes de YouTube, diarios antes de Blogger... eran cosas fáciles para un usuario con un perfil técnico. Ahora, todas esas cosas son fáciles para cualquier usuario.

Pero buscar contenido sigue teniendo limitaciones. Encontrar cosas que no sean obvias requiere aún de "búsquedas avanzadas", "operadores booleanos", "reescritura de la consulta", etc; habilidades que la gran mayoría de las personas ni tienen, ni quieren tener. El lenguaje natural es la clave para que realizar búsquedas avanzadas sea también extremadamente fácil.

La respuesta de los cuatro grandes a este reto fue dispar, y en algunos casos, para mí al menos, curiosa. Todos tenían claro que el lenguaje natural estará en las soluciones del futuro; nadie lo dudó. Pero nadie apostó decididamente por ello. Hubo quien aducía que "era muy complicado" (y es que si fuera fácil ya estaría resuelto), que "los usuarios realmente no buscan así" (obvio, si los buscadores actuales no entienden al usuario cuando habla de forma natural, ¿qué remedio le queda a éste que adaptarse? Pero denle una oportunidad y verán), que hubo intentos que ya fracasaron (sí, hace una década)...

Está claro que el lenguaje natural es un tema difícil, que requiere una tecnología muy preparada. Pero no es necesario pasar de no aplicarla en absoluto a convertir nuestros buscadores en HAL 9000 de golpe; se pueden ir dando pasos. Y, como recordó Antonio, ya hay demos que enseñan lo que se puede hacer actualmente. Pero hay que apostar. Y es curioso que las empresas más innovadoras del mundo se conviertan de repente en conservadoras en un asunto así.

Todo esto en teoría, claro. Porque Google lleva dos años experimentando detalles de lenguaje natural, por ejemplo. ¿Quizás es simplemente que nadie quiere levantar una liebre para que los demás no se le adelanten? Lo contrario sería pensar que todas dan la espalda al futuro, incluso aunque reconocen que el futuro es ése; parece raro, ¿no?

Pero hay otra explicación posible... y ésta fue, para mí, la conclusión más descorazonadora de la mesa redonda:

El inglés es fácil. Cada palabra tiene cuatro o cinco formas como máximo. Su sistema verbal es muy sencillo. Técnicas simples (como el truncamiento o stemming) dan relativamente buenos resultados en ese idioma.

Pero esto nos deja fuera a los hispanohablantes, que seguimos teniendo que utilizar signos abstrusos en nuestra consulta para que nuestra búsqueda por "cañas" no nos devuelva "canas", y para que "políticos Sudán" no nos devuelva "los políticos no sudan". No podemos esperar, obviamente, a que esta tecnología nos venga de fuera. Tenemos que hacerla aquí. Y lo hecho aquí no se valora. Una empresa española seguirá prefiriendo pagar el doble por un producto peor si viene de Estados Unidos. El Capital Riesgo sigue teniendo muy poco de riesgo, cuando de apoyar proyectos españoles se trata. Y así nos va.

Cuando Yahoogle o AskMSN saquen dentro de diez años el "plugin para español" de su solución de lenguaje natural, todos en España correremos a comprarlo, y les daremos las gracias por haber tardado sólo una década en permitirnos acceder a él. Y habrá aún quien se pregunte por qué España sigue a la cola de la tecnología, y se echará la culpa al Gobierno. Aún entonces.

Sabemos cómo será el futuro. Tenemos claro por dónde va. ¿Queremos, por una vez, empezar a construirlo nosotros?

2007/01/22

Nuevos buscadores al acecho de Google

A inicios de este año el New York Times se hacía eco en su artículo Looking for the Next Google; Everybody Wants a Slice Of the Web Search Pie de la efervescencia existente en el mundo de los buscadores ante la aparición de nuevos protagonistas en la lucha por destronar Google de su posición dominante.

Curiosamente, dos de los nuevos contendientes de los que se habla en ese artículo (Hakia y Powerset) tienen como objetivo desarrollar buscadores que sean capaces de entender lenguaje natural y mejorar así las búsquedas de los usuarios. Este es el mismo objetivo de Bitext en la aplicación de su tecnología lingüística a los buscadores. De esos dos contendientes, solo Hakia tiene un demostrador en versión beta de su buscador. Habrá que estar atentos a Powerset cuando anuncie su buscador para que podamos hacer una comparativa entre Hakia, Powerset y el buscador para inglés de Bitext, de próxima aparición.

2007/01/15

La Academia se suma a la web 2.0

Si la R.A.E. es famosa por algo es, sobre todo, por conservadora. Sin embargo, ahora hasta "chorrocientos" existe, y poco a poco va incorporando mejoras en su sistema, a pesar de que siga teniendo pendiente una mejor usabilidad de su sitio web. Primero fue el diccionario online, y otros catálogos lexicográficos a disposición del internauta. También añadió la posibilidad de buscar en el D.R.A.E. gracias a un plug-in, sin tener que navegar por la página.

Su último salto ha sido con la web 2.0: http://rae2.es, un medio para facilitar aún más las búsquedas. Se usa de la forma más sencilla, http://rae2.es/palabra y el sistema te devuelve el significado de la palabra. Según dice la página principal, "Es un servicio para una consulta más rápida y directa del Diccionario de la Real Academia Española, realizando tu consulta a la velocidad de la luz." Es exagerado e irónico hablar de la velocidad de la luz precisamente para la R.A.E., pero es parte del avance: la web social habla nuestro idioma.

Y es que la Academia ha terminado por darse cuenta de la importancia de la inteligencia lingüística; de cómo un potente control de la lengua facilita al navegante su rastreo diario. El corrector ortográfico y el lematizador que el diccionario tiene, sirve precisamente para esto.

Signifique lo que signifique la "web 2.0", parece que habla de la red social, de la accesibilidad… aunque finalmente no haya sido la web semántica que tanto se predijo. No se ha dado el paso definitivo, aunque ya comienza a sonar con mucha fuerza, y es cuestión de (poco) tiempo que demuestre ser la nueva forma de enfocar la web. En definitiva, la web semántica es la del lenguaje natural, hecho que no podía pasar inadvertido a una institución dedicada precisamente la lengua.

El lematizador es la herrmienta que te permite introducir cualquier palabra y el buscador se encarga de encontrar cuál sería la entrada en el diccionario. Por ejemplo, "bonita": el sistema te redirige automáticamente a la entrada "bonito, -a" (adjetivo); sin embargo, si buscas "bonito", te devuelve tanto la categoría adjetival, como la nominal (pez teleósteo, por si significa algo para alguien).

Tiene algunas carencias importantes de lematización: si introduces un plural, no reconoce su singular, sino que devuelve un mensaje de error (ejemplo: "bonitos"). El mismo error se da al buscar formas verbales: para encontrar la entrada de un verbo, hay que buscar únicamente por el infinitivo, porque no reconoce ni las formas personales, ni las otras formas no personales.

El corrector ortográfico está enfocado a dar sugerencias a palabras mal escritas o que no estén en el diccionario. La herramienta por ahora no está muy desarrollada, dado que parece contener únicamente errores comunes; de esta forma, "nuve" sugiere "nube", ya que es muy frecuente confundir la "b" y la "v". De igual modo, "camion", sugiere "camión", en vista de que es habitual olvidarse de las tildes. Detecta además algunos lapsus tecleae, "viuuda" sugiere correctamente "viuda". Más allá de este tipo de fallos, no corrige sino que muestra un mensaje de error. Por ejemplo, "camióne", "viude".

Más que la solución aportada, aplaudimos sobre todo que hayan dado con una cuestión tan importante, y que no tardará en estar presente para toda la web. Dentro de este ánimo innovador, es posible que pronto se asigne la letra B de la Academia a algún blogger.

2007/01/09

Buscadores tan humanos que... ¡son humanos!

Entre las compañías nuevas que suenan últimamente en el mundo de las búsquedas (y que reciben inversiones millonarias), una de ellas es ChaCha.

Su peculiaridad es la siguiente: además de permitir búsquedas "clásicas", permite, como se explica en este artículo, búsquedas "guiadas": personas concretas, contratadas por ellos, que "guían" de forma natural (por medio de un chat) al usuario en su búsqueda, encuentra los resultados usando su conocimiento experto, y se los muestra al usuario incluso con comentarios al margen.

ChaCha pretende ser una alternativa novedosa a los "buscadores con inteligencia artificial", y ya ha recibido importantes inversiones por parte de Jeff Bezos (de Amazon).

Y es que, en resumen, se ve tan importante permitir a los usuarios expresarse en su lenguaje natural, que ChaCha llega a contratar a miles de personas para que "traduzcan" de forma manual las consultas enviadas al buscador. Y esto ocurre porque no se percibe que la tecnología lingüística haya alcanzado aún un nivel suficiente para realizar las búsquedas por sí mismo. ¿Es cosa de percepción? En cualquier caso, es una iniciativa muy interesante.

2007/01/05

"Una o dos palabras"

Uno de los temas favoritos de muchos expertos en buscadores es el de la imposibilidad, o al menos impractibilidad, de "educar" a los usuarios a utilizar lenguaje natural en sus búsquedas. "Es inútil", dicen; "los usuarios nunca van a utilizar más de una o dos palabras en sus búsquedas, igual que hacen ahora".

Dejando aparte que los usuarios emplearán aquello que les sea más útil en cada momento (si hasta ahora han usado pocas palabras es porque los buscadores no daban para mucho más), la pregunta es: ¿es cierta la frase de "las consultas de búsqueda actuales no tienen más de dos palabras"? ¿O es un mito tecnológico más?

Pues... ¡parece que lo es! Veamos:

  • Según informa Yahoo, con datos de mayo de 2006, la longitud media de sus consultas era ya de 3.3 palabras. Incluso en 2004 ya era de 2.5. En 1998 era de 1.2 palabras, cierto, pero parece que los analistas podrían actualizarse un poco en esa cuestión.

  • La tendencia es muy clara. En 2005, si bien alrededor del 50% de las consultas (seguimos con datos de Yahoo) eran de 1 o 2 palabras, el resto tenían 3 (24%), 4 (15%), 5 (9%) o más (8%) palabras. Y cuando salga el análisis de este año veremos cómo estos números han subido.

  • Los números de AOL son ligeramente inferiores, pero aún así hablan de 2.8 palabras por consulta.

  • ¿Y qué podemos decir de Google? ¿Nos da este buscador pistas sobre el comportamiento de sus usuarios con respecto al lenguaje natural?

    Pistas no: nos lo muestra directamente. Instale la barra de Google. Colóquese sobre el cajetín de búsqueda, y escriba, por ejemplo: "How many".

    Espere un segundo, y verá como Google le ofrece sugerencias de consultas realizadas por algunos de sus usuarios. Si va probando y navegando por estas consultas, encontrará cosas como "How many weeks are there in a year", "how can I protect my hearing at concerts", "I need information about the history of the internet", y muchas, muchas más.




En resumen: quizás en los 90 era así. Puede que al principio de los 2000 siguieran haciéndolo. Pero, hoy en día, los usuarios se están habituando cada vez más a realizar consultas en lenguaje natural; y si no culminan esta tendencia, es porque los buscadores actuales no se lo permiten.

Casi todos, claro.