Por fin sentí la necesidad de liberar este artículo que redacte en enero de este año, espero les ayude como un fundamento teorico para evaluar la actividad de sus sitios en web.

Esta pregunta es la que ha llevado el curso de mis proyectos en los pasados 2 años. Desde proyectos fallidos como Voto, Geekotronic, o aqui mismo en el blog he tratado de eliminar el ruido que generan los usuarios y detectar información generada en tiempo real que es realmente relevante.

Durante mi presentación en el Campus Party plante la siguiente pregunta ¿Cómo separar algo que es relevante de algo que es popular?. Este problema surgió a raiz de querer filtar todo el ruido que generaba un programa como el Chow de alt1040, y resaltar las noticias que realmente eran importantes. Tambien era imposible ocultar las noticias off topic de Fayerwayer sobre notas que representaban un acontecimiento notable. Todo este ruido era generado por usuario que comentaban muchísimo en las notas, levantandolas entre los rankings y convirtiendolas en historias populares, sin ser realmente importantes. Tras meses de investigación llegue a un punto donde termine por clasificar algo que fuera relevante en base a las siguientes características (ojo, todo es un ambiente de información en tiempo real):

Novedad : Es el empuje inicial que cualquier nota recién creada en el segundo 0. Esta variable Novedad varia de entre 0 y 1 (por darle un rango) en base al flujo de notas que en tu universo de sitios se publiquen. Un sábado o un domingo no se comportan como los miércoles o durante un evento de Google hay mucho mas flujo de información.

Importancia de la Fuente : Siempre que pensemos evaluar con un numero la fuente de información inicial debemos de considerar la importancia que tienen este sitio. Lo mas practico a utilizar es un sistema ordinal, cualquier ranking de sitios. Pero si deseas ser verdaderamente influyente recomiendo calcularlo al vuelo. Visiten esta nota de Mauricio Pastrana.

Importancia de la Persona que escribe la nota : Uno de los parámetros mas importantes para evaluar importancia de quien escribe la nota. Hasta el momento solo puedo darle un valor a esto con 2 metodos:

  • Rankings, Followers, wefollow, digg o frienfeed.
  • Utilizando los Keywords de noticias realmente relevantes (entrenando al sistema), generar un numero que evalúe al autor en relación a el tema hablado. Requiere generar una nube de tags alrededor de un autor.

Crecimiento acelerado de la nota : No es mas que medir la cantidad de links, RT, Me gusta, de una entrada en un lapso de tiempo. 1 RT en el segundo 0 vale mas que 30 en el segundo 2000. Recuerden que se debería analizar tambien a la persona que difunde la noticia.

Keywords de la nota : Esta parte requiere un motor sintáctico/contextual. Lo mas sencillo es utilizar un servicio existente OpenCalais,  Meaning tool, o hasta los mismos tags de los autores pasados por un filtro como freebase. Estos brindan un bonito WSDL con información bien documentada perfecta para relacionar en nuestro grafo de información

La implementación suena muy compleja y depende mucho del peso de los valores que le de cada desarrollador. En mi opinión debemos de ser lo mas parejos posibles encontrando un balance entre los sitios que seleccionemos para hacer nuestro crawler.

Hay cosas importantes que considerar como:

  • Notas sobre el mismo tema o nota surgidas al mismo tiempo con el mismo empuje ( mi sugerencia es apoyarnos con nuestro motor sintáctico compararlas y generar un hilo de seguimiento con ellas )
  • ¿Debes evitar contar  los comentarios dentro del blog?
  • Presencia de videos, imagenes. En mi opinión se debería verificar si soy crawleables y sacar a un mas documentación de estos
  • Tiempo de muerte.

Como verán el consumo el recursos de computo es alto, al menos de la manera en como yo entendi esto y lo implemente, pero creo que consideramos muchas cosas que nos acercan a poder sacar lo mas sobresaliente de estos grandes flujos de datos.

Fuentes : http://oneriotdevelopernetwork.com/, TCRTS, PostRank, Why Online “Noise” is Good For You