2010/09/01

¿Cuántos tweets? ¿Alguien lo sabe?

¿Alguien sabe cuántos tweets hay en español? Al día, quiero decir. Según nuestros cálculos, debe haber alrededor de 12 millones de tweets al día en español. Muy rápidamente: hacemos la estimación basándonos en el "firehose" de Twitter y extrapolando. ¿Alguien tiene otro tipo de dato?

¿Para qué nos interesa? Estamos empezando a medir actividad en todo Twitter en nuestro idioma -cuánto se dice- para luego ver qué se dice, sobre qué, con qué sesgo (positivo, negativo...) y la primera cifra que nos parece relevante es la del número total de tweets por día. Luego entraremos en cuáles son en español de América (y de cada país) y de España.

Seguiremos avanzando y publicaremos resultados. ¿Alguien tiene datos (aunque no sean 100% fiables, como los que todos manejamos)?

2010/08/09

Twitter: And the Oscar goes to...

No descubrimos nada si a estas alturas de la película de las redes sociales, decimos que Twitter se ha convertido en un fenómeno imparable que está creciendo a la velocidad de la luz.

Las compañías empiezan a darse cuenta de que no se puede obviar este fenómeno. Bueno, más bien deberíamos decir, aquellas compañías a las que les preocupa su imagen en todos los medios (digitales o no) se han dado cuenta de que hay que poner las orejas hacia las redes sociales.

Lo que sorprende es que existan grandes empresas a las que no les preocupa este tema. Es más, han decidido adoptar una actitud totalmente reactiva. Si se desata el fuego, ya lo apagaré.

Afortunadamente empieza a haber otras muchas que quieren (necesitan) saber, en todo momento, qué se dice de su marca, si es positivo o negativo, quién lo dice; cuántos otros siguen al que ha escrito el comentario, etc.Y, ya puestos, también es interesante saber qué se escribe de la competencia, cuál es el tono de los comentarios que aparecen sobre ella, tiene más presencia y mejor que la de uno, etc.

En fin, la lista de preguntas sobre Twitter puede ser tan larga como queramos, pero hoy nos gustaría contestar, al menos, a la primera. No sabemos si es la más obvia, pero seguro que está en la mente de todos a los que nos apasiona este mundo. Y, es la siguiente:

¿Cuál es la marca más mencionada en Twitter?

¿No os resulta, al menos, curioso, saber cuál es la marca de la que más se habla en esta red social? Bueno, deberíamos decir, de la que más se escribe. Lo lamentamos por los amantes de la Roja, pero no se trata ni de la selección, ni del pulpo Paul, ni de Sara Carbonero.

Pues, como muchos os podréis imaginar, en esta ocasión, " the Oscar goes to Twitter".

Sí, efectivamente en Twitter se habla – se escribe, vamos a decir- sobre todo de Twitter.

En Bitext, estamos trabajando para ofrecer un servicio de análisis de esta y otras redes sociales. Os mantendremos al tanto de nuestros avances. Pero os prometemos aperitivos como este próximamente.

Por cierto, si alguien quiere saber que marca es la que ocupa la segunda posición o en qué lugar del ranking aparece nuestra periodista más famosa últimamente deberá esperar al siguiente post.

¡Feliz verano!

2010/07/27

Metaweb, la nueva adquisición de Google

Metaweb es una empresa dedicada a hacer que buscar sea sencillo y efectivo. Resulta cuando menos curioso que Google, el más listo de la clase en lo que a buscar se refiere, busque apoyos en este campo.

Metaweb es conocida sobre todo por su proyeecto Freebase. Freebase es una colección de datos estructurados relativos a entidades, es decir, a nombres de personas, empresas, lugares, etc. En su propia descripción: "Freebase is an open, Creative Commons licensed repository of structured data of more than 12 million entities".

Y probablemente aquí está la clave. Metaweb afronta el problema de la búsqueda desde un ángulo que es a la vez efectivo y novedoso, su objetivo es convertir información no estructurada (texto sin más) en información estructurada: entidades y sus relaciones.

Es decir, Metaweb no se dedica al buscar, no es su campo de trabajo. Lo que sucede es que la información que almacenan, como en Freebase, ayuda y mucho a que los buscadores hagan mejor su trabajo. De hecho, en palabras de de Metaweb: "Metaweb helps site owners, bloggers, and developers make their sites richer and more engaging". Nada de búsqueda.

Nuestra conclusión: extraer información estructurada de texto es uno de los pasos clave en el proceso continuo de mejora de los buscadores actuales. Y es un paso que pertenece ya al presente más que al futuro. La búsquedas basadas en "facets" (faceted search) son otro ejemplo de esta misma tendencia; fabricantes de buscadores como Endeca o FAST (Microsoft) ya lo están haciendo.

Nuestra contribución: poner en marcha este proceso de extracción de información estructurada de texto sólo es viable si analizamos lingüísticamente el texto. Esto es lo que hace nuestra solución NaturalOpinions. Y lo hace muy bien, como podéis ver en estas demos.

2010/07/14

Nuevas formas de escuchar a tus públicos

Una breve nota para anunciar que Enrique, de Bitext, ha participado en el evento "Nuevas formas de escuchar a tus públicos" organizado por Innosfera (http://www.innosfera.com) en el Centro de Innovación del BBVA con una ponencia sobre la aplicación de tecnologías lingüísticas al análisis de opiniones en medios sociales.

El evento fue transmitido por Internet y el vídeo está disponible aquí: http://agoranews.es/2010/07/13/directo-innosfera-julio-innovacion-en-la-atencion-al-cliente/.

¡Gracias a Innosfera por la invitación, y a todos por vuestro interés!

2010/07/08

On "Aboutness"

We’ve come across this concept a while ago at Bitext. What’s aboutness? According to the Wikipedia, aboutness is “simply meaning” or, in other words, aboutness is knowing what a piece of text is about, its content.

We wonder quite often every day what’s the aboutness of a piece of text. It is one of the tasks that we perform more often every day in the knowledge economy.

It is also one of the most time-consuming tasks (reading takes time and there’s a lot to read out there). This is what we do quite often when we search; for example, when we search “oil spill” we are saying: tell me which documents are about the “oil spill”, probably intending the recent oil spill connected to BP Plc and the USA, for example.

Having this task performed automatically, with machines and software, is certainly a business target in many areas like business intelligence, marketing and SEO, etc.

The interesting part is that extracting aboutness automatically has been the mission of Bitext since we started. Extracting aboutness can take many different forms in practice, involving things like:

-what’s the topic or topics of a piece of news (global warming, oil spill, stock prices),
-who’s involved in this story, be them people (Barack Obama, George Soros), companies (Apple, BP Plc, Amazon), etc.
-how are topics, people, companies, products, institutions connected, i.e., who did what to whom how where when, etc.
-and so on and so forth.

From this point of view, Bitext has developed the technology that discloses and extracts aboutness in different business scenarios: search, opinion mining, news categorization…

We do like the concept, it covers quite comprehensively the kind of problems we address at Bitext – The Aboutness Company!

2010/05/14

Twitter no es una red social

O por lo menos eso defiende un estudio presentado en la conferencia WWW2010.

Según un perfil de la herramienta, Twitter se asemeja más a un portal de noticias que a lo que se entiende por una red social como Facebook. Entre las diferencias entre ambos tipos de sitios, el estudio destaca que

  • En Twitter no es necesario obtener el permiso de otro usuario para seguirle (como sí en las redes sociales)
  • Sólo alrededor del 20% de los "seguimientos" son recíprocos (mientras que en las redes sociales, por definición, es el 100%)
  • Existen "hubs" que agrupan a una gran mayoría de seguidores (hay 40 cuentas e Twitter con más de un millón de seguidores)
  • El 85% de los tweets analizados responden a la pregunta "¿Qué está pasando?" más que a la pregunta "¿Qué estás haciendo?"

Este tipo de información nos puede ayudar a saber cómo emplear y qué esperar de una herramienta tan en auge como Twittwer.

2010/05/13

Twitter: el inglés pierde su mayoría absoluta

En las últimas semanas, el idioma inglés perdió su "mayoría absoluta" en Twitter: los tweets en ese inglés bajaron del 50%.

Sigue siendo, obviamente, el idioma más utilizado en esa red, seguido por el japonés (14%), el portugués (9%) y el indonesio-malayo (6%). El español es el siguiente en la lista (con un 4% de los mensajes), y después vienen italiano, alemán y holandés. La empresa Semiocast proporcionó estos datos tras un estudio sobre dos millones y medios de tweets.

El número de tweets actualmente ronda los 50 millones al día, lo que implica dos millones de tweets en español cada día... Una buena cantidad, suficiente para extraer de ella cosas interesantes, parece.

2010/05/03

Brown, Cameron, Clegg y Twitter

A mediados de abril tuvo lugar el primero de los debates entre los candidatos a Primer Ministro del Reino Unido: Gordon Brown, David Cameron y Nick Clegg.

En la BBC explicaban que se trataba del debate televisivo más "twiteado": 180.000 tweets en 90 minutos, a 2.000 por minuto.

Una empresa de análisis de "social media" realizó, a petición de la BBC, un estudio de análisis de opiniones aprovechando este debate. Se analizó si se usaba lenguaje positivo o negativo junto a los nombres de los candidatos, y con ello se hicieron varios informes.

Este tipo de análisis son extremadamente interesantes, y si se hacen empleando análisis reales en lenguaje natural, pueden ofrecer mucha más información que simplemente el valor positivo o negativo. Los próximos meses, con toda seguridad, traerán noticias.

2010/04/30

Bitext, finalista de los premios Emprendedor XXI de La Caixa

Bitext ha sido seleccionada como finalista de la IV edición de la sección de Madrid del premio Emprendedor XXI organizado por La Caixa y cootorgado por Enisa (Empresa Nacional de Innovación).

Bitext, que competía contra otras 44 empresas innovadoras, ha sido seleccionada como una de las tres finalistas de esta fase.

El premio Emprendedor XXI a la empresa española de reciente creación con mayor potencial de crecimiento se puso en marcha en 2007 con el objetivo de:

  • Fomentar el espíritu emprendedor y potenciar la innovación y el progreso, así como contribuir al desarrollo social y económico.
  • Identificar, reconocer y premiar a las empresas innovadoras con mayor potencial en cada Comunidad Autónoma.
  • Acompañar a estas empresas ofreciéndoles un conjunto de acciones dirigidas a acelerar su crecimiento.

2010/04/29

La Minuteca, una buena idea y una lástima

Dentro de la página web del diario 20 minutos podemos encontrar un servicio llamado la Minuteca. Se trata de un "índice temático" a todas las noticias publicadas en la versión web del diario, agrupadas por palabras clave.

Así, es posible acceder a todas las noticias que hablan de "Accidentes de tráfico" o de "Elsa Pataky", y de la misma forma con más de mil nombres propios y conceptos.

Se trata de una idea muy útil, pero es una lástima que su implementación sea limitada, porque se basa en las palabras clave que los editores han añadido manualmente a cada noticia.

Utilizando herramientas de extracción de información basadas en lenguaje natural, como NaturalExtractor, sería posible extraer todos los conceptos de cada noticia, ampliando así la forma de acceder a ellas, y ahorrando tiempo a los editores. Así, de una noticia como http://www.20minutos.es/noticia/691138/0/agua/helada/asteroide/ se obtendrían palabras clave como "agua helada", "cinturón de asteroides", "Nature", "Universidad John Hopkins", etc, sin necesidad de extraerlas manualmente.

En cualquier caso, este tipo de iniciativas ayudan a avanzar en la posibilidad de navegar por las noticias basándose en su contenido y no sólo en su fecha o sección (navegación semántica), que es a nuestro entender la línea por la que hay que avanzar.