Archivos de la categoría Big Data

Que tecnologías nos ayudan a almacenar el BigData?

Hablando del big data ahora toca hablar un poco de las tecnologías que nos ayudan a hacer esto posible. Es una lista de sistemas específicos, como más generales.

  • Big Table: Inspiración para Hbase, sistema construido para Google File System.

  • Business intelligence (BI): Es un tipo de software que trata los datos y los presenta de forma entendible.

  • Cassandra: Es un sistema de software distribuido que soporta grandes cantidades de data originalmente desarrollado por Facebook pero actualmente mantenido por Apache Software Fundation.

  • Cloud computing: Se trata de un paradigma altamente escalable, normalmente de sistema distribuido ofrecido a través de la red.

  • Data warehouse: Base de datos optimizada para hacer reportes. Normalmente usada para grandes cantidades de datos estructurados. Usa ETL (extract, transform, load)

  • Sistema distribuido: Diversos ordenadores conectados en red para solventar problemas. El problema es solucionado por partes en cada procesador trabajando en paralelo.

  • Dynamo: Sistema de almacenamiento de datos desenvolupado por Amazon.

  • Handoop: Es un framework open source para procesar sets de datos de tipos determinados para problemas concretos en sistemas distribuidos. Originalmente propiedad de Yahoo pero ahora forma parte de Apache Software Fundation.

  • Hbase: Es una herramienta distribuida, no relacional, para modelado para Google Big Table. Este también forma parte de Handoop de Apache Software Fundation.

  • MapReduce: Es un framework introducido por Google para procesar grandes cantidades de datos en sistemas distribuidos. También implementado en Handoop.

  • Mashup: Es una aplicación que combina presentación de los datos o funcionalidades de dos o más fuentes para crear nuevos servicios.

  • R: Es una potente herramienta open source propiedad del proyecto GNU. Es ampliamente usada por estadistas. (Yo la usé cuando hacía estadística en la universidad y la verdad es que aunque era difícil de usar, porque usaba comandos, era muy potente).

No sé si se me ha pasado algo por alto, pero si es así deja un comentario y te lo agradeceré :)

Como visualizar el big data

Ya que estamos hablando del tema debemos hablar de la forma de representar los datos.
Los seres humanos hemos sido “diseñados” para identificar las cosas que se salgan de lo normal. Y para identificar patrones en un número determinado y finito de datos, por lo tanto todo lo que se salga de este estándar nos va a costar gran cantidad de trabajo encontrar lo que busquemos o tratar estos datos (Big Data).

 

  • Nube de etiquetas: Es quizás la forma más conocida de representar grandes cantidades de palabras. Lo que hace es mostrar todas las palabras y hacer más grandes aquellas que más veces se repitan.
  • Clustergram: Es una técnica de visualización usada para análisis de cluster para mostrar los datos individuales de un determinado dataset. El número de cluster es un dato importante ya que ayuda a entender la escalabilidad de los sistemas.
  • History flow: Sirve para ver la evolución de un documento. En el eje horizontal se pone el tiempo y en el vertical los colaboradores. A partir de aquí se puede jugar haciendo que como más grande sea el punto en el tiempo más cantidad de texto ha modificado. Es usado por Wikipedia.
  • Flujo de información: Esto es usado a veces para indicar entre que puntos se hacen las conexiones en el globo terráqueo.

Luego ya están los clásicos como histogramas, diagrama de barras, gráficos de sectores (quesitos)…
Con un poco de imaginación seguro que podemos adaptar estos modelos a otros similares.
Se que no he aportado mucho pero de momento no se me ocurren más, así que si encontráis más se agradecen aportaciones en los comentarios 😉