2009/06/30

Lenguaje natural contra el terrorismo

DARPA es la agencia de tecnología de la Defensa del gobierno de los Estados Unidos. Una institución como ésta tiene que innovar constantemente para mantenerse a la vanguardia de la tecnología.

Por eso no es de extrañar que el último proyecto suyo que ha salido a la luz sea un sistema de lenguaje natural para detectar terroristas.

Según explica CNET, el proyecto de BBN Technologies, financiado con 30 millones de dólares, rastrea la web, analiza el texto de lo que captura, y extrae de él la información necesaria para detectar posibles amenazas terroristas.

Hay que recordar que se dijo que la CIA disponía, antes del 11-S, de toda la información necesaria para haberlo evitado, pero que por falta de analistas suficientes, o bien de un programa con un reconocimiento de lenguaje natural lo bastante avanzado, no se pudo descubrir la trama a tiempo. Es de esperar que este tipo de sistemas se sigan empleando cada vez más, reservando así a los analistas para la labor que una máquina no puede ejercer: la de extraer conclusiones y tomar decisiones. Pero para las aburridas y repetitivas tareas previas... lenguaje natural.

2009/06/24

Búsquedas ciegas

De las distintas formas que hay de comparar los resultados de los distintos motores de búsqueda, BlindSearch nos parece la más atractiva.

La página http://blindsearch.fejus.com/ ofrece un sistema de búsqueda “a ciegas”, que permite comparar Google, Yahoo y Bing de forma objetiva.

Realizas una búsqueda en la caja única de texto, y el resultado es tres conjuntos de resultados, en tres columnas, una por cada buscador, pero sin saber en ningún momento qué buscador es el que ha devuelto los resultados de cada columna.

Acompañando a los resultados, hay un botón sobre cada columna, para que pulses en él si quieres escoger cuál de los tres conjuntos de resultados te parece mejor, y sólo entonces se desvela a qué buscador se asocia cada columna.

Un interfaz muy interesante, una experiencia de búsqueda divertida, y una buena manera de comparar de forma "ciega" distintas formas de buscar. Puede darnos ideas...

2009/06/08

Google Squared: ¿la cuadratura del círculo?

Google ha presentado hace unos días Google Squared, una variante del buscador que permite extraer datos de páginas web y presentarlos en tablas en formas de hojas de cálculo en línea. Esta variante de búsqueda de Google Squared va a dar mucho que hablar porque permite transformar los datos no estructurados (o semiestructurados) que inundan la web en forma estructurada, que es mucho más fácil de consultar y explotar. A medida que la Web siga creciendo exponencialmente, búsquedas como las de Google Squared tendrán más sentido, y no digamos cuando podamos hacer análisis lingüístico "on the fly" sobre las mismas para obtener información más detallada. ¿Podremos llegar a cuadrar el círculo de la formalización del conocimiento que reside en la Web y de su explotación inteligente?

En Bitext, estamos ya avanzando en la línea de extracción de eventos, además de entidades y conceptos. Con el análisis de eventos por medio de nuestro software lingüístico, podemos extraer las acciones o eventos referidos a entidades y conceptos, de manera que podemos extraer el quién, el qué, el cómo, el cuándo, etc. Stay tuned!