Breve Historia del Big Data

  • Published on
    13-Apr-2017

  • View
    292

  • Download
    0

Transcript

Historia del Big Data Albert CalvoLaura ChacnZaira QuesadaIntroduccinIntroduccin Contextualizacin mbitos Historia Hardware "Big Data is a high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation."Gartner, 2012IntroduccinIntroduccin Contextualizacin mbitos Historia Hardware 2,5 quintillones de bytes de datosSensores para reunir datos sobre el climaPublicaciones en redes socialesFotografas digitales y videosRegistros de transacciones de compraSeales de GPS en los mvilesContextualizacinVolumenVelocidadVeracidadVariedadIntroduccin Contextualizacin mbitos Historia Hardware ContextualizacinVolumenVeracidadPara 2020 se generarn 43 billones de Gb de datos, 300 veces ms que en 2005.Se estima que se crean cada da 2,3 billones de Gb de datos.Uno de cada de tres lderes no confa en la informacin que utiliza para tomar decisiones.Los datos de baja calidad cuestan a la economa estadounidense alrededor de 3,1 billones de dlares al ao.Introduccin Contextualizacin mbitos Historia Hardware ContextualizacinVariedadVelocidadCada mes en Facebook se comparten 300.000 millones de posts de contenido.Ms de 4.000 millones de horas de video se ven en Youtube cada mes.Cada dia se envan 400 millones de tuits por parte de unos 200 millones de usuarios al mes en Twitter.La bolsa de Nueva York maneja un terabyte de informacin comercial durante cada sesin.Introduccin Contextualizacin mbitos Historia Hardware mbitos Pblico objetivo del negocio Clientes potenciales Competencia Tendencias de consumo Tendencias de mercadoIntroduccin Contextualizacin mbitos Historia Hardware Historia (1989) Tim Berners-LeeIntroduccin Contextualizacin mbitos Historia Hardware Historia (2002) Doug CuttingMike CafarellaMotor de bsqueda para indexar webs 30.000$Indexar 1 billn de pginas =Introduccin Contextualizacin mbitos Historia Hardware Historia (2003) Google File System (GFS)Eficiencia + Fiabilidad de acceso a datos (cluster de procesamiento masivo en paralelo)Introduccin Contextualizacin mbitos Historia Hardware Historia (2004) Nutch Distributed FileSystem (NDFS)Basado en GFS, manera barata de escalar NutchIntroduccin Contextualizacin mbitos Historia Hardware Historia (2004) MAPREDUCEIntroduccin Contextualizacin mbitos Historia Hardware Historia (2007)Doug Cutting es contratado en Yahoo! donde crea un subproyecto de Apache Lucene llamado...Doug CuttingSeptiembre de 2007Google publica tecnologa que utiliza: MapReduceIntroduccin Contextualizacin mbitos Historia Hardware Historia (2008)Grandes empresas comienzan a utilizar esta herramientaIntroduccin Contextualizacin mbitos Historia Hardware Historia (2008)TerasortOrdenar 1 TB de informacinIntroduccin Contextualizacin mbitos Historia Hardware Historia (2008)TerasortOrdenar 1 TB de informacinIntroduccin Contextualizacin mbitos Historia Hardware 218 segundosHistoria (2008)Terasort218 segundos 68 segundosOrdenar 1 TB de informacinIntroduccin Contextualizacin mbitos Historia Hardware Historia (2012)Nace en 2010 en BerkeleyEn el ao 2013 es donada a la Apache Software Foundation Procesamiento en memoria Interoperabilidad: Scala, Java, Python, R Multiples librerias disponibles Introduccin Contextualizacin mbitos Historia Hardware Historia (Now)Introduccin Contextualizacin mbitos Historia Hardware HardwareDonde van a parar todos estos datos ? Todos los datos del Big Data se guardan en Centros de Datos El reto del Big Data es tanto almacenamiento como de anlisi Introduccin Contextualizacin mbitos Historia Hardware HardwarePegatina: This machine is server DO NOT POWER DOWN!1990Primer servidor utilizado por 1998SUN Ultra II Dual 200Mhz CPUs and 256MB of RAMIntroduccin Contextualizacin mbitos Historia Hardware HardwareIntroduccin Contextualizacin Historia Cadena de Valor Infraestructura Fuerzas Competitivas 201313 centros de datos con 900.000 servidores 200910.000 servidores HardwareHoy en da, cualquier empresa online tiene centros de datos y analiza estos datos. Introduccin Contextualizacin mbitos Historia Hardware Muchas Graciasalbert.calvo.ibanez@est.fib.upc.edu | laura.chacon@est.fib.upc.edu | zaira.quesada@est.fib.upc.edu mailto:albert.alma@est.fib.upc.edumailto:laura.chacon@est.fib.upc.edumailto:david.delgado@est.fib.upc.edumailto:albert.alma@est.fib.upc.edu