2009/07/08

Cada vez más búsquedas en lenguaje natural

Lo habíamos anunciado ya hacía tiempo, pero la tendencia continúa y es clara:

Cada vez se realizan más consultas en lenguaje natural. En concreto, según indica Google (http://www.marketingvox.com/search-queries-with-8-words-continue-to-rise-043547/), el número de búsquedas de más de 8 palabras creció otro 20% de febrero de 2008 a febrero de 2009. Mientras tanto, el número de consultas de una a cuatro palabras decreció un 2%.

Estas cifras ya se empiezan a analizar como el inicio de que el lenguaje natural pronto será una de las claves de las búsquedas (http://luisgarciadelafuente.com/2009/05/20/mas-busquedas-genericas-hacia-el-lenguaje-natural/).

Sin embargo, en este enlace se dice que este cambio no será "revolucionario" (por la aparición de un nuevo buscador, el famoso "Google killer") sino "evolutivo", por el hecho de que Google irá entendiendo cada vez mejor el lenguaje natural. El argumento nos parece convincente. Pero lo que está claro es que para que esto ocurra, Google, o quien sea, deberá continuar investigando en cómo comprender mejor lo que los usuarios escriben, y en afianzar estas tecnologías. En Bitext seguimos trabajando en ello.

2009/07/03

Bitext ahora en Twitter

Ahora es posible estar al tanto de las novedades en lenguaje natural también en Twitter. Bitext se ha unido a esta red social, en la dirección http://twitter.com/bitext.

En Twitter el mundo del lenguaje natural está muy presente, es un buen lugar para mantenerse al tanto de lo que ocurre por el mundo en esta disciplina.

La única prevención: ¡no busquéis por la etiqueta #nlp... o acabaréis con vuestra página repleta de noticias sobre Neuro-Linguistic Programming! Por ahora no existe #naturallanguage, quizás sea cosa de crearla...

2009/06/30

Lenguaje natural contra el terrorismo

DARPA es la agencia de tecnología de la Defensa del gobierno de los Estados Unidos. Una institución como ésta tiene que innovar constantemente para mantenerse a la vanguardia de la tecnología.

Por eso no es de extrañar que el último proyecto suyo que ha salido a la luz sea un sistema de lenguaje natural para detectar terroristas.

Según explica CNET, el proyecto de BBN Technologies, financiado con 30 millones de dólares, rastrea la web, analiza el texto de lo que captura, y extrae de él la información necesaria para detectar posibles amenazas terroristas.

Hay que recordar que se dijo que la CIA disponía, antes del 11-S, de toda la información necesaria para haberlo evitado, pero que por falta de analistas suficientes, o bien de un programa con un reconocimiento de lenguaje natural lo bastante avanzado, no se pudo descubrir la trama a tiempo. Es de esperar que este tipo de sistemas se sigan empleando cada vez más, reservando así a los analistas para la labor que una máquina no puede ejercer: la de extraer conclusiones y tomar decisiones. Pero para las aburridas y repetitivas tareas previas... lenguaje natural.

2009/06/24

Búsquedas ciegas

De las distintas formas que hay de comparar los resultados de los distintos motores de búsqueda, BlindSearch nos parece la más atractiva.

La página http://blindsearch.fejus.com/ ofrece un sistema de búsqueda “a ciegas”, que permite comparar Google, Yahoo y Bing de forma objetiva.

Realizas una búsqueda en la caja única de texto, y el resultado es tres conjuntos de resultados, en tres columnas, una por cada buscador, pero sin saber en ningún momento qué buscador es el que ha devuelto los resultados de cada columna.

Acompañando a los resultados, hay un botón sobre cada columna, para que pulses en él si quieres escoger cuál de los tres conjuntos de resultados te parece mejor, y sólo entonces se desvela a qué buscador se asocia cada columna.

Un interfaz muy interesante, una experiencia de búsqueda divertida, y una buena manera de comparar de forma "ciega" distintas formas de buscar. Puede darnos ideas...

2009/06/08

Google Squared: ¿la cuadratura del círculo?

Google ha presentado hace unos días Google Squared, una variante del buscador que permite extraer datos de páginas web y presentarlos en tablas en formas de hojas de cálculo en línea. Esta variante de búsqueda de Google Squared va a dar mucho que hablar porque permite transformar los datos no estructurados (o semiestructurados) que inundan la web en forma estructurada, que es mucho más fácil de consultar y explotar. A medida que la Web siga creciendo exponencialmente, búsquedas como las de Google Squared tendrán más sentido, y no digamos cuando podamos hacer análisis lingüístico "on the fly" sobre las mismas para obtener información más detallada. ¿Podremos llegar a cuadrar el círculo de la formalización del conocimiento que reside en la Web y de su explotación inteligente?

En Bitext, estamos ya avanzando en la línea de extracción de eventos, además de entidades y conceptos. Con el análisis de eventos por medio de nuestro software lingüístico, podemos extraer las acciones o eventos referidos a entidades y conceptos, de manera que podemos extraer el quién, el qué, el cómo, el cuándo, etc. Stay tuned!

2009/03/05

Natural Language Search Revisited

Una vez más, vuelve a hacerse referencia a la tecnología lingüística como tecnología mejoradora de las búsquedas en el artículo "Humanizing Search: How Natural Language Processing Can Answer Enterprise Questions" en el Enterprise Search Newsletter de Marzo. La autora hace un repaso de distintos motores de búsqueda que usan tecnología lingüística, como Ask.com, Powerset o Inquira, y recoge distintas opiniones de expertos con explicaciones sobre la diferencia entre buscadores semánticos y buscadores de lenguaje natural.

Quizá lo más interesante de sus consideraciones es cómo el uso del Procesamiento del Lenguaje Natural puede mejorar más los buscadores para intranet, donde los contenidos son menos susceptibles de ser tratados por algoritmos que tienen en cuenta la densidad de links, como hace por ejemplo Google para la web.

Y, sin embargo, muchos buscadores, de keywords y semánticos, no son capaces de analizar consultas en lenguaje natural con negación como "information about Paris but not Hilton". Véase los resultados de dicha consulta en los siguientes buscadores web:

1. Google: information about Paris but not Hilton
2. Live: information about Paris but not Hilton
3. Ask.com information about Paris but not Hilton
4. Hakia: information about Paris but not Hilton

O los resultados en buscadores con tecnología semántica sobre la Wikipedia:
5. Powerset: information about Paris but not Hilton
6. Cognition Technologies: information about Paris but not Hilton

En Bitext, integramos NaturalFinder con Live Search tanto en inglés como en español para hacer que Live entienda las consultas en lenguaje natural de los usuarios. Así, el ejemplo con negación anterior puede verse en nuestra demo online: information about Paris but not Hilton

Hay todavía mucho camino por recorrer para que los buscadores entiendan lenguaje natural, pero que menos que empezar por "entender" lo que los usuarios preguntan. Es el camino que inició Bitext ya hace unos años.

2008/11/03

¿Tiempos de recesión, tiempos de búsqueda?

En estos tiempos de crisis, a borde ya de una recesión de proporciones mundiales, no deja de llamar la atención que el mercado de software de tecnologías de búsqueda no se va a resentir tanto como otros sectores de TIC según explica el nuevo estudio de IDC "Worldwide Search and Discovery Software 2008-2012 Forecast Update and Vendor Shares: Bloom Amid Economic Gloom" que se reseña aquí. Para el mercado de buscadores, se espera un crecimiento del 17% para 2008 y del 12,9% para 2009.

Quizá lo más destacado para Bitext es este fragmento de la reseña: "Text analytics vendors as a group will continue to see even faster growth than the search market. Hot areas include sentiment extraction, eDiscovery, geolocation, and language modules".

Bitext de hecho ya ha iniciado sus primeros pasos en el área de "sentiment extraction". Stay tuned!

2008/03/04

Informe Telefónica sobre Sociedad de la Información

Según recoge el informe

LA SOCIEDAD DE LA INFORMACIÓN EN ESPAÑA 2007

publicado por la Fundación Telefónica, la tecnología de análisis de lenguaje natural se convierte en una ventaja competitiva esencial.

El informe dice:

"Lenguaje natural: la opinión generalizada apunta a que quien sea capaz de ofrecer una razonable interpretación del lenguaje natural adquirirá una enorme ventaja competitiva y un gran atractivo para sus usuarios."

Nos alegramos, esto indica que esta tecnología da el salto y se convierte en una necesidad para cualquier aplicación que quiera liderar mercados.

2008/01/15

El asistente analfabeto

Hace unos días, el Ministerio de Sanidad español y Microsoft presentaron Robin, un "robot que informa a los jóvenes a través de Messenger sobre enfermedades de transmisión sexual y consumo de alcohol".

Sin embargo, se encontraron con bastantes problemas. El robot, al acceder a través del Messenger, invita a los usuarios a expresarse de manera coloquial. Sin embargo, no es capaz de comprender consultas bastante sencillas y escritas de forma correcta, como "¿Puedo dejar embarazada a mi novia con un beso?" o "¿Puedo emborracharme con cerveza?".

Nos encontramos con el mismo caso que en anteriores ocasiones: servicios que pretenden comunicarse con las personas invitándoles a usar sus propias palabras, y sin embargo no utilizan tecnología de lenguaje natural. ¿Irá cambiando la tendencia?

2007/10/19

Invitación: Lenguaje natural y Web semántica, en el SIMO 2007

Estimados amigos de Buscarama:

En nombre de las empresas Bitext y iSOCO nos es grato invitaros a asistir gratuitamente a nuestra ponencia sobre "Lenguaje natural y web semántica, nuevas formas de acceso a la información", que realizaremos el próximo martes día 6 de Noviembre dentro del programa del SIMO 2007.

Como ya sabrás, la edición del SIMO de este año cuenta con un apartado especial sobre la Web 2.0 enfocado a explicar cómo esta nueva forma de entender la tecnología puede aportar grandes ventajas mediante el esfuerzo colaborativo de los usuarios de Internet.

Pero para conseguir que todos hablemos el mismo idioma en Internet y conseguir así la comprensión no sólo entre personas sino también entre máquinas, es necesario incorporar unas reglas de acceso a la información que faciliten que todos podamos entenderla independientemente de cómo ésta se exprese.

Es en este marco donde el uso del Lenguaje Natural y la Web Semántica cobran especial relevancia, pues ofrecen las soluciones adecuadas para acceder a la información de forma fácil y efectiva.

Desde Bitext e iSOCO hemos implantado ya soluciones exitosas en este campo, tales como pueden ser el caso del Ayuntamiento de Zaragoza o el del Real Instituto Elcano entre otros. En esta conferencia les presentaremos estos casos, las facilidades que ofrecemos a los usuarios y las herramientas que hacen posible estos servicios. Además les presentaremos ideas de futuro sobre la aplicación práctica de estas tecnologías, tales como los asistentes o avatares virtuales.

Será para nosotros un placer contar con su asistencia. Recuerde que aunque el evento es gratuito, el aforo es limitado, por lo que deben confirmar su asistencia dirigiéndose a la organización del SIMO, que podrán encontrar en los siguientes vínculos. Si precisan cualquier aclaración, por favor no duden en ponerse en contacto con nosotros. En caso de no poder asistir pero está interesado en recibir una copia de la presentación, escríbanos a info@bitext.com o marketing@isoco.com

Información y registros:

-Información General: http://web20simo.youlivek.com/pages/index/40-programa?lang=es

-Registros: http://web20simo.youlivek.com/members/new

En la confianza de contar con su asistencia, reciba un cordial saludo


Antonio S. Valderrábanos, Director General de Bitext
Pedro Solís, Director de Marketing y Comunicación de iSOCO