viernes, 24 de octubre de 2014

Tema 3: Almacenamiento de la información.

Bienvenidos un día mas a este blog bisemanal sobre la busqueda y gestión de datos. Hoy vamos a profundizar un poco mas en cómo se almacenan los datos, ya que en la primera entrada sólo le echamos un vistazo fugaz:

Cuando trabajamos con el ordenador solemos crear archivos (.doc/.docx para Word, .ptt para Power Point, imágenes, musica, videos...)
Todos estos datos se guardaban en un sistema de archivos.Los sistemas de archivos son un modo de organización de los datos basado en carpetas ( o directorios), igual que el que usan los ordenadores portatiles o de sobremesa de hoy en día.



















Es normal encontrar este tipo de organización en los dispositivos comunes de almacenamiento:
Con comunes ma refiero a que son los más extendidos y usados (por lo menos hasta hace pocos años). Estos dispositivos son los conocidos CDs, Pen Drives, discos duros...
Vamos a hacer un brevisimo resumen de estos dispositivos para los mas despistados:
Los primeros CDs (Compact Disc) se usaron para almacenar música llamados CDA(CD de Audio), con capacidad de 700MB  (80 min de audio), tras ver su gran popularidad se empezaron usar para el almacenamiento de otro tipo de archivos, los CD-ROM (CD Read-Only Memory) pero como nos indica su apellido, y al igual que su antecesor, estos CD solo se podían grabar una vez. A este problema se le puso un parche con la creación del CD-R (CD Recordable) que permitía grabar tantas veces como se quisiera hasta que se llenase el disco (No se podia modificar o borrar ningún dato).
El auge de los CDs llegó con el CD-RW(CD-ReWritable) que podía almacenar, modificar y borrar archivos.
Los discos duros son sistemas de almacenamiento de gran peso, existen multitud de discos duros mas y menos rapidos. Su capacidad llega hasta los TeraBytes (1024GB), y sin ninguna duda en un futuro alcanzará los PetaBytes(1.048.576GB)¿Increible verdad?
Los PenDrives también son discos duros, pero de tamaño y capacidad mucho más reducido, usados sobre todo para poder llevar tus archivos siempre encima. Hablamos de un peso de entre 10 y 20 gramos y una capacidad  entre 2GB y 64GB.

Pero durante los últimos años ha ido cogiendo cada vez más importancia en los sitemas de archivos el Almacenamiento en "La Nube":
La nube son grandes servidores preparados para almacenar grandes cantidades de archivos  y acceder a ellos dese cualquier lugar del mundo, gracias a Internet, para, visionarlos, descargarlos o eliminarlos. La cantidad de almacenamiento depende de la empresa, pudiendo llegar hasta los 50 GB gratuitos por cada usuario, para cantidades superiores de almacenamiento hay que pagar. (Por ejemplo Dropbox cobra 199$/año por 200GB)
200Gb (199$/año)
Estos servidores son tolerantes a fallos y perdidas, además de realizar copias periodicas de los datos para evitar las perdidas de información. Algunas de las empresas más famosas que ofrecen estos servicios son: Dropbox, Google Drive, SkyDrive, SugarSync...
(Aquí te dejo un enlace por si quieres saber un poco mas sobre cada uno de los servicios.)

Los sistemas de de archivos funcionan para una cantidad reducida de datos, pero cuando la cantidad de datos es muy grande (>250 por ejemplo) este sistema puede producir que los datos se repitan, que sea dificil encontrarlos sin un buscador, problemas con actualizaciones de los datos debido a que los datos son independientes unos de otros...
Debido a estas vulnerabilidades se crearon las bases de datos, que evitan la incosistencia, tiene control de acceso (diferentes tipos de usuario que acceden a la base de datos con diferentes derechos y permisos)
Por lo tanto, una base de datos es un conjunto de Datos organizados  y sin contradecciones entre ellos. Estos datos al relacionarse entre si, toman un significado.

Vamos a ver algunas definiciones que nos ayudarán a entender mejor las Bases de Datos (BBDD):
Dato: es una información concreta sobre algo, como un nombre(Elena, María, Juan...), un numero de teléfono (654812456, 654987321, 678145145...), una ciudad (Madrid, Alcalá, Barcelona...), o un DNI (85499532N, 78222544P, 32165688U...)

Entidades: Es la agrupación de datos interesantes sobre algo y que en conjunto tiene un sentido.
Por ejemplo la entidad persona puede estar compuesta por un DNI, un nombre, un telefono y la ciudad donde vive, de este modo, los datos que antes no tenian ningún sentido ahora definen a una persona en nuestra base de datos.

Clave primaria: Cada entidad tiene un dato que que lo identifica y diferencia del resto, esa es la clave primaria, en nuestro ejemplo, el dato que identifica a una persona es el DNI, porque no existen 2 personas con el mismo DNI.

Clave foránea: Para relacionar entidades se recurre a la clave foránea, que es una clave primaria que pertenece a otra identidad. Por ejemplo si queremos relacionar nuestra identidad "Persona" con la identidad "Teléfono móvil" que se compones de Marca, Modelo, IMEI (Como sabrás el numero IMEI identifica cada dispositivo, será la clave primaria), introducimos la clave primaria del movil en la identidad Persona, esta clave migrada se denomina clave foránea. (PFK=Clave Primaria Foránea)
Metadato: Información sobre los datos, como tipo o longitud, por ejemplo, el dato Teléfono de una persona es un dato numérico de 9 digitos de longitud, y Nombre puede estar formado de hasta 20 carácteres alfabéticos.

Esquema de la Base de datos: Como se organizan los datos dentro de la base de datos, como en el dibujo superior.

Instancia: Es una "foto" de la base de datos en un momento determinado. Es decir, tanto la organización como los datos que en ese momento están en la base de datos.

Para poder manejar todos los datos necesitamos programas a los cuales llamamos Sistema Gestor de Bases de Datos (SGBD)
EL SGBD nos permite manipular la base de datos para crear, cambiar, o borrar datos, o entidades. Podemos crear diferentes tipos de usuarios con distintas vistas y derechos para cada uno...
Los SGBD tienen muchas ventajas como:
-Control de la redundancia y consistencia.
-Control de seguridad y acceso.
-Su desarrollo es rápido.
-Estandarización.
-Es posible establecer prioridades de los requerimientos.
Aunque no todo es un lecho de rosas, los SGBD tambien pueden tener problemas respecto a su tamaño y algunos pueden ser excesivamente lentos debido a la gran cantidad de verificaciones que tiene que hacer.

Ahora que ya tienes un concepto más claro de lo que es una base de datos, hablaremos de
las bases de datos en linea:
Son bases de datos que normalmente están implemetadas en el modelo SQL. Estas bases de datos tienen que tener un conocimiento abierto de sus características (Diccionario de Datos, desarrollo, implementación...)
Como ejemplo podemos poner a Google, que es capaz de realizar busquedas tan amplias gracias a este tipo de base de datos. Las tecnicas para buscar información entre una cantidad tan inmensa de datos como los que se encuentran en la red son complejas, y en un principio poco eficaces.
Los datos en la red se encuentran en almacenes de datos, que son Discos duros de gran capacidad, a los cuales se accede mediante la red.

Existen unos sistemas denominados NAS (Network Attached Storage) que usan un sistema operativo que trabaja con sistemas de archivos independientes a la maquina en la que corre el sistema operativo, logrando así una mayor eficiencia, aunque por otro lado el riesgo de perder datos aumenta.

Como conclusión y para que opinen les lanzo una duda:
Un problema que existe es que la información almacenada no es eterna, dicho de otro modo ¿Cómo podemos estar seguros de que los dispositivos actuales guardaran la información durante los proximos 10, 20 50 o 100 años? Y aunque ya existen los llamados dispositivos de almacenamiento extremo capaces de guardar la información durante años, ¿Como sabemos que podrán la próximas generaciones interpretarla?

No podemos acabar sin remarcar la rapida evolución de los sistemas de almacenamiento, desde la comercialización de ls CDs en 1981 hasta hoy(2014). Han pasado 33 años y su capacidad es casi 1500 veces superior, manteniendo un tamaño (volumen) practicamente igual. Cada vez se consigue almacenar mas información en menos espacio, y gracias a  las bases de datos en linea y la nube podemos acceder a toda esa ingente cantidad de datos, sin duda alguna estamos en la era de la información. ¿Pero que nos depará el futuro?
Como frontera final se habla del almacenamiento a nivel atómico.
IBM publicó en 2007 dos importantes documentos:
En el primero declaran que habían conseguido, por primera vez, utilizar una molecula como un interruptor Switch, y por lo tanto definir a nivel molecular un 0 o un 1, que es la base de la informática de hoy en día.
En el segundo afirman que gracias a una propiedad llamada anisotropía han conseguido medir la direccion magnética de un átomo, es decir, codificar un 0 o un 1 A NIVEL ATÓMICO. 
Puede que en menos de 10 años podamos almacenar TeraBytes en nuestro reloj de muñeca.

¿Y TU QUÉ OPINAS?
No olvides dejar tu comentario.

No hay comentarios:

Publicar un comentario