Archivo de la etiqueta: correlación

Posibles problemas del Big Data

No todo es maravilloso en el Big Data, también tiene algunos inconvenientes que es necesario saber para no caer en errores.

Correlación: Que algo suceda no quiere decir que tenga una correlación que nos afecte. Por ejemplo que la gente que viene a trabajar los lunes esté más cansada y que los lunes tengamos más trabajadores que vienen en bus no quiere decir que al venir en bus se cansen más. Puede ser que su fin de semana fuera agotador.

Ahora ya no se pueden trazar estadísticas desde el despacho de la oficina, se tiene que hacer experimentos en el mundo real y comprobar que las hipótesis con sus conclusiones son ciertas.

No todas las organizaciones (incluida la administración) son capaces o tienen ganas de adaptarse.

Comprender los resultados: Prácticamente cualquier ordenador ahora te puede calcular grandes cantidades de datos, pero detrás de los resultados tiene que haber una conclusión. Los números por si solos son estériles, tiene que haber una parte humana para interpretar los resultados correctamente y sacar las conclusiones acertadas.

Problemas de base: Todos los datos están en un mismo sitio? Los poseedores de estos son las mismas personas? Puede pasar que en una empresa los datos estén repartidos entre los diferentes departamentos y almacenados de distintas formas. Esto requeriría una colaboración distinta entre los distintos departamentos de la misma empresa.

Pero no sólo esto, sino que también puede pasar que la empresa no sea la propietaria de los datos y consecuentemente no los puedas usar en según que circunstancias o necesites permisos.

Problemas de identificación: Esta es la incapacidad de identificación de los datos. Pongo un ejemplo más aclarador. Si lo que transmite datos es una tarjeta SIM como sabemos si es hombre o mujer, su edad… Los datos son de más utilidad si están ligados con las personas.

Problemas de privacidad: cada vez más los clientes quieren tener más control sobre sus datos y en que forma se usan, por lo que normalmente tienen que autorizar un permiso expreso para que sus datos se usen. A parte de esto la ley de cada país dictamina como se tienen que tratar estos datos, y en ocasiones como España, esta ley es muy dura. Todo esto puede terminar como 1984 de George Orwell.

Información desactualizada: Algunas veces nos entestamos en guardar datos. Esto es bueno para hacer predicciones, pero no por eso tenemos que dejar de adquirir nueva información. Basar decisiones en datos desactualizados no es muy sabio. Siempre es mejor tener información actualizada, forzando un poco más la situación podemos encontrar el ejemplo de que un cliente se ha mudado y la residencia que tenemos ya no es válida.

Incapacidad de tratamiento de la información en tiempo real: Algunas veces no vamos a necesitar los datos de inmediato, pero otras veces si que necesitamos saber los resultados progresivos para actuar al respeto. Por ejemplo, de que sirve tener los niveles de existencias si sólo se calculan una vez por semana? Si los tienes actualizados posiblemente no tengas problemas de aprovisionamiento. Sé que es un ejemplo infrecuente raro pero sirve.

 No todos los datos son información: hay infinidad de motivos por los cuales el 100% de nuestros datos no aportan información. Como por ejemplo duplicidad de datos P.ej. Retweets manuales (o la misma info en diferentes redes sociales), backups, etc.

Problemas de relevancia: No toda la información tiene la misma importancia. Hay ruido en Internet, pero además para lo que algunos puede ser ruido para otros puede ser música. Seguro que los diarios Chinos son importantes para los Chinos, pero para mi no me aportarían demasiado a menos que viviera allí.

Como veis no todo son ventajas, aunque a mi parecer vale la pena intentarlo. El futuro está en la optimización de los recursos y en esto se basa el Big Data.