2010/02/04

Mirando al futuro: proyecto rdiSAC

Uno de los proyectos de investigación en los que participa Bitext es rdiSAC, que pretende llevar la tecnología de lenguaje natural (en este caso concreto, en catalán) al campo de la atención al ciudadano de una manera integrada y eficaz.

El próximo 18 de febrero vamos a presentar este proyecto en Terrassa (Barcelona), en una jornada gratuita llamada Atenció Ciutadana al segle XXI. Mirant al Futur. El programa (en catalán) puede descargarse desde aquí. Todos los que quieran conocer de primera mano esta implantación de la tecnología de lenguaje natural en la atención al ciudadano están invitados a asistir.

2010/01/31

¿Entender opiniones leyendo palabras?

El análisis de opiniones (sentiment analysis, opinion mining, etc.) es un área tan interesante como complicada. Existen ya varias empresas que están desarrollando (y mostrando) tecnología para analizar las opiniones sobre determinados temas encontradas en Twitter.

Sin embargo, la falta de tecnología lingüística en la mayoría de esas empresas llevan a que esos análisis se realicen mirando únicamente palabras sueltas dentro de esas opiniones, y valorándolas de acuerdo a esas palabras.

Eso nos lleva a resultados que, al mirarlos en un poco de detalle, se revelan como poco satisfactorios. Una búsqueda que acabamos de hacer sobre "Obama" en una de estas aplicaciones detecta como negativas opiniones como las siguientes:

  • obama does get it. he understands the basic problems tha americans have
  • i am a little confused too. obama for the win
  • fox is wrong and just plain scary. obama up 10 points over mccain
  • who cares if obama was muslim? muslims are not bad people

Como se ve, ni siquiera la aparición de un "not" en "not bad" cambia la definición de la opinión; y el lenguaje, desde luego, es mucho más complejo que un "not".

Es necesario aplicar verdadera tecnología lingüística al tratamiento de opiniones, para conseguir resultados aceptables. Y esta tecnología, como sabemos, ya existe. Sólo falta empezar a emplearla.

2010/01/28

Prensa online de pago: cómo cobrar por algo que era gratis

Las mareas van y vuelven. Cuando ya parecía que el viejo modelo de la prensa online de pago había sido olvidado (tras los intentos de, entre otros, El País), la bajada en los ingresos por publicidad lo ha vuelto a poner de moda.

Parece que el New York Times va a anunciar en breve su paso al modelo de pago. El modelo aún no está claro: posibilidad de leer unos pocos artículos en abierto, pay-per-click, cerrar sólo unas secciones del periódico...

Pero según cuenta el New York Magazine, está siendo un debate pleno de tensión en el seno de la cabecera. Y es normal: a nadie le gusta pagar por algo que antes era gratis. Y sólo hay una cosa en la que coinciden todos estos modelos: en restringir funcionalidad al usuario que no sea suscriptor. Es un modelo negativo, basado en quitar a los usuarios una funcionalidad de la que antes disfrutaban; y esto, obviamente, no puede ser recibido con alegría.

¿Y por qué nadie intenta la vía contraria, la de ofrecer a los usuarios de pago funcionalidad que hasta ahora no existía? Las nuevas tecnologías, y en particular la tecnología lingüística, permiten ofrecer nuevos servicios, valor añadido, funcionalidades novedosas y atractivas, que harían que los usuarios vieran la suscripción como una forma de obtener una experiencia de prensa online totalmente novedosa. Búsquedas en lenguaje natural sobre el histórico, navegación semántica, análisis de eventos y de opiniones... y tantas más.

La receta Bitext para los medios de prensa (El Mundo, Antena 3, ABC...): no privéis a vuestros usuarios de funcionalidad a la que están acostumbrados. Mantenedlos con vosotros, y ofrecedles tecnología lingüística para que puedan explotar vuestra información mucho mejor que hasta ahora. Dad un nuevo valor a la información, y así podréis cobrar a vuestros usuarios, y éstos sentirán que merece la pena.

2010/01/27

2+9 tipos de búsqueda semántica

Seth Grimes, un conocido analista del sector de los buscadores, ha escrito un interesante artículo llamado Two + Nine Types of Semantic Search.

En este artículo analiza varias de las formas que se han empleado hasta ahora para utilizar el lenguaje natural para mejorar las búsquedas. Estas once formas (varias de ellas ya empleadas por nuestras soluciones de lenguaje natural) son:

  • Sugerencias de consultas (por corrección ortográfica o por relaciones semánticas)
  • Resultados de referencia (por ejemplo, de la Wikipedia)
  • Anotaciones semánticas (entidades, etc)
  • Búsqueda por texto completo (no usar una consulta para buscar, sino un texto completo)
  • Búsqueda en las anotaciones semánticas y sintácticas (una vez analizado el texto)
  • Búsqueda conceptual (sinónimos, etc)
  • Búsquedas basadas en ontologías
  • Búsquedas sobre la Web Semántica (aún en pañales, como la propia Web Semántica)
  • Búsqueda facetada
  • Búsqueda organizada en clusters
  • Búsqueda en lenguaje natural propiamente dicho
Se podrían mencionar unas cuantas más en las que está trabajando Bitext, pero éste es un buen resumen de por dónde están yendo las tendencias actualmente.

2010/01/24

Language and Semantics: What can you do for my search engine (and for me)?

En diciembre de 2009, Antonio Valderrábanos participó como orador invitado en la Online Information Conference de Londres.

Hemos publicado ahora el Abstract de su conferencia Language and Semantics: What can you do for my search engine (and for me)?, y lo publicamos también aquí.



Over the last few years the World Wide Web has become a digital Gutenberg which has unleashed a completely new business and information sharing scenario. Publishers of all types of content have chosen the Web as repository for content previously found in papers or private archives. The Web has even become a medium of publication of native content such as blogs, forums and twitters. Therefore, we can only expect an exponential growth of publisher and user-generated content.

In order to get hold of the explosion of content, searching technologies continue to be the only tool available to individual users. Search itself can be construed as an implementation of dynamic and limitless hyperlinking since every time we do a search we are linking different documents according to the keywords in the search query. And for the time being search remains to be the only technology that can make the web manageable for end users, particularly as a self-service which is simple and intuitive for the average person.

However, search is an old technology which dates back to the sixties and it was not designed to solve the challenge of an increasing number of users and growing complexity in an also increasing number of documents. In fact, for end users search has shifted from being a service provided by librarians to a self-service similar to ATMs. This change generates frustration for users and puts pressure on search engine providers to improve performance and user-friendliness. As a result, the Web community realizes that most of the potential of Web and the knowledge it contains are underexploited or are even unknown.

And here is where Semantics comes to the rescue: the Web community is looking at Semantics as the source of solutions for exploiting all the potential of the Web since Semantics is the science of meaning, and it is the meaning of Web texts the challenge to be addressed. The so-called Semantic Web is the tag under which various research efforts are merging, such as knowledge representation, automatic reasoning, etc. But so far results are falling short of expectations because implementing Semantic Web principles at web level becomes an impossible task even if the task could be handled in an automated fashion, and this becomes a stumbling block to creating semantic knowledge.

That is why Natural Language Processing (NLP) is the solution to automate the knowledge acquisition problem because current NLP technologies provide one of the key ingredients for the Semantic Web to become a reality: text analytics or the ability to extract content from text. This ability can be turned into two highly needed tasks: automatic text tagging of entities, concepts and events; and automatic population of ontologies with selected entities, concepts and facts. In addition, NLP technologies can also provide interfaces capable of natural language understanding which are required by self-service end users.

Since 2007 Bitext is applying this approach to real-life projects in areas such as citizen services and business intelligence.

A. Valderrábanos

2010/01/21

El "Google Humano"

Hace poco descubrimos a Miguel Ángel Trujillo, el Google Humano: un experto y consultor en el mundo de la gestión de la información y los buscadores.

Como él dice, "la única manera de sacar rendimiento de toda la información a tu alcance consiste en dedicar mucho tiempo de búsqueda y análisis, combinarlo con la experiencia que te dicta “qué es potencialmente interesante”, conectar las diferentes ideas, y presentarlas de manera que aporten valor". Miguel Ángel ofrece sus servicios en forma de cursos, materiales, formación, etc, para ayudar a quien lo desee a aprovechar de la mejor manera posible sus fuentes de información.

Miguel Ángel ofrece mucha e interesante información en su blog, que hemos puesto ya entre nuestros favoritos en Buscarama.

En resumen, una persona con la que merece la pena contar para solucionar problemas relacionados con la gestión de la información.

2010/01/19

IBM escucha a sus usuarios

Leemos en MKM que IBM ha presentado un nuevo servicio: Voice of the Customer Analytics (VOCA).

VOCA analiza, de forma anónima, millones de palabras procedentes de los contactos que, en el día a día, la empresa tiene con sus clientes (grabaciones de conversaciones, correos electrónicos, resultados de encuestas, aspectos demográficos, etc.).

Con este servicio IBM podrá detectar las razones por las que sus clientes se dan de baja, incidencias, tendencias, etc, y así mejorar sus servicios y conseguir una mayor satisfacción de sus clientes.

IBM entra así de lleno en las aplicaciones de análisis inteligente del texto, área donde vamos a ver multitud de funcionalidades interesantes en los próximos tiempos.

2009/11/11

La rápida evolución de la búsqueda

Encontramos por la web un interesante artículo sobre el pasado y futuro de la búsqueda: The Rapid Evolution of Search, por Brian Solis.

El autor analiza las últimas tendencias en búsquedas, como son la "búsqueda en tiempo real" (real-time search), la "búsqueda social" (social search) y la que más nos interesa a nosotros, la "búsqueda semántica" (semantic search), de la que dice:

La búsqueda semántica es la promesa de la próxima web. Los resultados de la búsqueda se identifican y presentan contextualmente gracias al procesamiento de lenguaje natural. El objetivo primordial aquí es la relevancia basada en tus intereses y tus intenciones, sin que tengas que comunicarlos explícitamente en una caja de búsqueda. Por ejemplo, si buscas por Lincoln, entendería automáticamente la diferencia entre una ciudad, un automóvil y una persona. En vez de fiarse de algoritmos de relevancia como el PageRank de Google, la Búsqueda Semántica utiliza semántica, la ciencia del significado, para producir resultados de búsqueda apropiados y personalizados.

En Bitext creemos que el lenguaje natural puede ofrecer al mundo de las búsquedas mucho más que esto, pero es una buena expresión de una de las ventajas que pueden conseguirse, no como una "promesa de la nueva web", sino ya como una realidad.

2009/10/30

Evento - Business Intelligence y Búsqueda Empresarial

Bitext participará en un nuevo evento, esta vez en Madrid, el 11 de noviembre de 2009.

La compañía InformationBuilders ha invitado a nuestro CEO, Antonio Valderrábanos, a hablar sobre "Tecnología de Lenguaje Natural para Inteligencia de Negocio y Buscadores", en el marco de las jornadas "Convergencia de Business Intelligence y Búsqueda Empresarial". Puede verse la agenda completa aquí.

El evento se realizará en el Hotel Intercontinental, en el número 49 del Paseo de la Castellana, en Madrid.

Una nueva oportunidad para explicar por qué es necesario el lenguaje natural en entornos con necesidades tan específicas como las del Business Intelligence.

2009/09/21

Bitext en el Online Information 2009 en Londres

El fundador y director de Bitext, Antonio Valderrábanos, ha sido invitado a participar en la jornada inaugural de la Online Information 2009, una feria dedicada a la industria de la información, a la que asisten más de 9.000 personas de 70 países, y cuyo programa completo se puede ver aquí.

Antonio impartirá la charla "Language and semantics: what can you do for my search engine (and for me)?" en la primera jornada de esta feria, que tendrá lugar en Londres del 1 al 3 de diciembre de 2009.