¿Tenemos que elegir entre tecnología o ecología?



RSS

Desde hace varios años venimos asistiendo al nacimiento y desarrollo de la Green IT como una nueva forma más ecológica y sostenible de producir y consumir tecnología.

Sin embargo, la Green IT no acaba de ser del todo creíble y es que según parece hay algunos factores que nos hacen pensar que la contaminación y los elevados consumos de energía no tienen una clara relación con las Tecnologías de la Información.

Y como veremos esa relación existe y es probablemente muy superior a la que a priori podría parece razonable.

Factor 1. Las empresas de tecnología también son contaminantes

¿Son contaminantes Facebook o Twitter? Hemos elegido estas dos compañías para la pregunta porque ambas se dedican, en exclusiva, al software. Además, lo hacen en modo Cloud con lo que tampoco distribuyen sus productos en CDs empaquetados en cajas de cartón. No producen nada que sea tangible y, por tanto, muchas personas pensarán que no son contaminantes. Pero todas ellas se equivocarán.

Probablemente, contaminan menos que algunas fábricas pero no se puede decir, en absoluto, que sean inocuas con el medio ambiente. Porque los CPD no son ecológicamente neutros.

Un interesantísimo estudio de Electronics Cooling concluye que desde el 2001 los costes de infraestructura y energía son mayores que los costes de adquisición de los servidores del Data Center. Y más aún, desde 2008 únicamente los costes de energía son ya superiores a las inversiones en compra de servidores; y la tendencia dice que seguirán aumentando.

Es cierto que se ha mejorado algo en los últimos años pero el avance es realmente pobre cuando se compara el aumento de potencia real de las infraestructuras con el aumento de potencia por vatio consumido.

Es decir, en su mayor parte se consigue más rendimiento, año sobre año, a base de consumir cada vez más energía. La Ley de Moore no se cumple en absoluto en lo que se refiere al consumo de energía.

Las principales organizaciones ecologistas son conscientes del problema desde hace tiempo pero, probablemente, uno de los puntos de inflexión en su comportamiento frente a la producción de TI cambió a principios de 2010 con la decisión de Facebook de instalar un nuevo Data Center en Oregón (USA) alimentado básicamente por energías no renovables. El vídeo de Greenpeace no tiene desperdicio.


Lo que se dice de Facebook en la parte final del vídeo es probablemente aplicable al resto de la industria TI salvo algunas honrosas excepciones como la de Google que destina una importante partida económica al estudio de energías renovables y eficiencia energética a través de su plan Energía limpia 2030. De hecho, sus Data Centers son de los pocos que pueden presumir de un PUE (Power Usage Effectiveness) en torno a 1,1 cuando la media mundial está muy por encima de 2,0. Es decir, sus Data Centers consumen menos de la mitad de energía que la media, lo que les permite ser muy verdes y de paso ahorrarse una importantísima cantidad de dinero teniendo en cuenta que algunas estimaciones apuntan a que las TI suponen entre un 1 y un 2 por ciento del consumo energético mundial.

Nota: Un Data Center con un PUE de 2,0 implica que por cada vatio consumido en los equipos de TI se consume otro, fundamentalmente, en refrigeración.

Este consumo desmesurado de energía no es solo aplicable a los gigantes de TI sino que en menor medida se da en cada uno de nuestros Data Centers. Mientras no seamos plenamente conscientes de que la producción de TI es también contaminante no habrá presión suficiente sobre el mercado como para hacer variar algunas tendencias.

Factor 2. Estamos cansados de agoreros

Este factor no es exclusivo de la industria de las TI pero le es de plena aplicación. La debacle de las teorías fatalistas propugnadas por Al Gore ha hecho un enorme daño a la imagen de lo que en general pensamos del cambio climático. Y más aún si tenemos en cuenta que Al Gore no ha sido el primero en cometer el error de ser excesivamente fatalista. Leamos con atención el siguiente texto de SuperFreakonomics (aviso que tiene truco):

...solo en Estados Unidos, las grandes ciudades adquirieron treinta millones de nuevos residentes. Y a medida que el enjambre humano se desplazaba, junto con sus posesiones, de un lugar a otro, surgió un problema. El principal medio de transporte producía grandes cantidades de subproductos que los economistas llamaban externalidades negativas, que incluían atascos, grandes gastos en seguridad y demasiados accidentes mortales de tráfico. En ocasiones, cosechas que deberían haber ido a parar a la mesa de una familia se transformaban en combustible, haciendo subir los precios de los elementos y causando escasez. Y también estaban las emisiones contaminantes y tóxicas al aire, que ponían en peligro el medio ambiente y la salud de los individuos.

¿Hablamos de las ciudades de finales del siglo XX y principios del XXI y de los problemas del tráfico rodado? Pues no, es un texto que aplica a finales del siglo XIX y el medio de transporte al que se hace referencia es el caballo. El automóvil, más barato en precio y mantenimiento que un vehículo tirado por caballos, fue proclamado como salvador del medio ambiente. Recomiendo repetir la lectura tras conocer la época de la que se trata.

Uno de los principales problemas que tiene la ecología, y le aplica de lleno a la industria de TI, es que muy en el fondo pensamos que antes de que haya una debacle por el uso de un determinado tipo de energía seremos capaces de descubrir una nueva fuente energética que resolverá los problemas de la anterior, aunque en el futuro cause otros. Por eso no hacemos demasiado caso a los agoreros; todo parece ser una cuestión de coste-beneficio si atendemos a las teorías de Schumpeter y su destrucción creativa.

Factor 3. Quienes más propugnan Green IT no son precisamente un buen ejemplo

Por un lado ya hemos visto que hay un enorme desfase entre los aumentos de potencia real del hardware y el aumento de potencia por vatio de energía consumida. Es decir, los equipos consumen cada vez más energía, lo que es especialmente cierto en máquinas con alta densidad de componentes como los elementos de red (switches, routers, appliances,...).

Pero son aún peor ejemplo si tenemos en cuenta que el consumo energético de un dispositivo electrónico puede llegar incluso al 30 o 40 por ciento antes de que se pulse el botón de ON. Es decir, el consumo energético necesario para su fabricación puede suponer el 30% de todo el consumo de ese dispositivo durante su vida útil. Esto es especialmente cierto en el caso de los teléfonos móviles y en elementos de máxima integración (servidores pizza, blades, tablets, elementos de red,...) donde el consumo es reducido por unidad pero el coste energético de su producción es elevado.

Por tanto, pese a los cantos de sirena para renovar equipamiento por otro de mayor eficiencia energética, lo más ecológico que se puede hacer es intentar alargar la vida del equipamiento, lógicamente hasta donde sea razonable para evitar la Ley de Murphy. Porque el coste energético de fabricación del nuevo dispositivo será mucho mayor que los potenciales ahorros que generará frente a los equipos actuales. Todo ello sin contar con los enormes costes medioambientales que supone su posterior reciclaje.

Nuestros deseos para el Nuevo Año

Dadas las fechas en las que estamos creo que procede hacer propósitos de enmienda para el Nuevo Año. Ahí van algunos que se me ocurren.

Para nosotros: probablemente, como consumidores y gestores de tecnología lo más ecológico que podemos hacer es intentar alargar la vida del hardware que gestionamos, bien sean PCs, servidores, elementos de red, almacenamiento, teléfonos móviles,... o cualquier otro dispositivo electrónico. Alargar un año más su vida útil implica una reducción enorme en el consumo de energía y además es más que probable que hagamos muy feliz al CFO de la compañía.

Para los fabricantes de hardware: el consumo eléctrico de los equipos debe ser, como mínimo, constante. No es sostenible que cada vez que aparece una nueva revisión de los procesadores o memorias consuman un tanto por ciento más que los anteriores.

Para los fabricantes de software: los fabricantes de killer applications como, por ejemplo, Office o el propio Windows, no pueden seguir incrementando los requisitos de hardware al ritmo actual, máxime cuando los incrementos no están justificados en aumentos de productividad como, por ejemplo, Aero. Esto es también de máxima aplicación para software muy demandante de recursos como, por ejemplo, los antivirus e incluso para nuestros propios departamentos de desarrollo de aplicaciones. Hacer código más eficaz está directamente relacionado con el aumento de la vida útil de los equipos y esto lo está con el consumo energético.

Para los telcos: que dejen de incentivar el consumo desmesurado de terminales móviles. El tiempo de rotación  (el tiempo de vida de los teléfonos) baja en picado y debe estar ya cerca del año. Además, tarde o temprano, acabarán por darse cuenta de que, al margen de la ecología, esto es un problema en sí mismo para ellos.

Para el legislador: quien puede regular los mercados tiene en su mano implantar un mecanismo de medición de eficiencia energética en todos los dispositivos tal y como ya se hace con los electrodomésticos. Así podremos comparar cosas homogéneas. La información y transparencia hace que los mercados funcionen mejor y sean más eficientes en todos los sentidos.

www.tonsofit.com


RSS

¿Qué hay de cierto en la Ley de Murphy?



RSS

Tostada cayendo al revés por la Ley de Murphy
O los que nos dedicamos a las TI somos los mayores gafes de la historia de la humanidad o algo debe haber de cierto en la Ley de Murphy para que, una vez tras otra, la tostada se nos caiga al suelo por el lado de la mantequilla.

Lo primero de todo, y a pesar de haber servido para iniciar, aclarar que en la Ley de Murphy nunca hizo referencia al famoso caso de la tostada, aunque sirve muy bien para ilustrar su fundamento.
La Ley de Murphy, obviamente nunca demostrada más allá de la empírica, fue descrita hace 61 años por Eduard Murphy, un ingeniero de la Fuerza Aérea de los Estados Unidos, y su enunciado más o menos literal es el siguiente: Si algo puede salir mal, saldrá mal.

Hace unas semanas, en El mainframe frente a sí mismo hablábamos sobre la probabilidad de que dos nodos de un clúster dejaran de funcionar a la vez. Un colega me preguntó si había estudios sobre eso y aunque no los he encontrado, ahí van algunas ideas.


¿Qué dice la estadística?

Uno de los mayores apoyos para hacer célebre la Ley ha sido el generalizado desconocimiento de la estadística. Si formulásemos la siguiente pregunta:
¿A cuántas personas hay que reunir en una sala para conseguir una probabilidad del 50% de que al menos dos cumplan años el mismo día?
Es muy probable que una de las respuestas más repetida fuese 182,5 por ser el número de días del año dividido entre dos. Probablemente habría otras más o menos variopintas como dividir 50 entre 365 o planteamientos similares, pero seguramente todas estarían muy lejos de la respuesta real.

Reuniendo a tan solo 23 personas se consigue una probabilidad ya algo superior al 50% de que entre ellas al menos dos cumplan años el mismo día. Es decir, reuniendo a 23 personas es más probable que dos cumplan años el mismo día frente a que todos tengan su cumpleaños un día diferente. Si aumentamos a  41 personas la probabilidad es ya superior al 90% y con 63 personas es ya casi total, 99%. Es decir, a partir de 63 personas es ya casi imposible que todos tengan una fecha de cumpleaños diferente.

Distribución de la probabilidad. Ley de Murphy

Llevando este mismo esquema a las TI podríamos observar que si tuviéramos, por ejemplo, una infraestructura de almacenamiento formada por 63 discos o más trabajando en paralelo y la vida útil máxima de cada disco fuera de un año tendríamos una probabilidad superior al 99% de que hubiera días en los que se rompiesen dos o más discos simultáneamente. La fórmula matemática que permite esta construcción es la siguiente:
Probabilidad de coincidir en el cumpleaños
donde 365 es el número de días del año, n el número de personas que hay en la sala y P la probabilidad
 de que al menos dos cumplan años el mismo día.


Cabina de discos
Afortunadamente, la vida útil de un disco es superior al año. Supongamos, por ejemplo, que la vida útil máxima de los discos de una cabina fuese de doce años. Es decir, tenemos la certeza absoluta de que ningún disco llegará a sobrevivir a los doce años (algo razonable, por otra parte).

Podríamos entonces afirmar que todos los discos tendrán su particular cumpleaños (el día que se rompen) en el intervalo de días [1, 365x12] (obviemos los bisiestos por simplificar).

En ese caso, tendremos una probabilidad del 50% de que habrá un día en el que se rompan dos discos cuando la cabina tenga más de 79 discos. Sorprendente ¿no? La intuición, sin duda, dice lo contrario.


Pero aún hay más

La distribución de cumpleaños de personas tomadas al azar es razonablemente aleatoria. Digo razonablemente porque hay quien dice que la probabilidad aumenta meses después de una victoria del  Athletic en Champions o, en los años '70 y '80,  tras ganar el festival de la OTI. Pero dejando eso de lado, la distribución de los cumpleaños es una variable con una distribución suficientemente estocástica.

Sin embargo, la distribución de roturas de los elementos electrónicos y sobre todo mecánicos no es tan aleatoria. Vista en su conjunto sigue una distribución aleatoria pero la probabilidad aumenta con el tiempo. Es decir, es más probable que se rompan más discos en el sexto año de vida que en el primero lo que hace que la probabilidad de roturas concurrentes aumente dado que la mayor parte de las roturas se concentrarán en un espacio de tiempo más reducido al final de la vida útil. Por tanto, atención a alargar las infraestructuras mucho más allá del tiempo recomendado por los fabricantes. Es cierto que el fabricante tendrá una querencia innata a querer renovar cuanto antes (lógicamente, más ventas) pero algo de razón puede tener si se estira demasiado.


Pero sigue habiendo más

Cuando un disco se rompe se está obligando a sus compañeros de viaje a realizar un trabajo extra, dado que la carga se mantiene pero el número de discos para atenderla es menor. Por tanto, la probabilidad vuelve a aumentar dado que ante la rotura de un disco el resto de elementos de la cabina se someten a un mayor número de operaciones de I/O lo que, sin duda, implica mayor número de movimientos de cabeza que, a su vez, implica mayor calentamiento y más probabilidad de fallo.


Y, por si fuera poco, aún hay más

Trabajo en paralelo
Al día siguiente, el técnico de sistemas sustituye el disco averiado. En ese momento, sus compañeros (a los discos me refiero), muy solidarios ellos, le indican al nuevo disco que se ponga las 'pilas' cuanto antes para asumir su parte de trabajo. Pero para ello, los discos existentes, que ya tenían una carga extra, tienen que volver a someterse a un nuevo sobre-esfuerzo dado que deben seguir dando servicio al tiempo que reparten la carga (la información) de nuevo entre todos los discos existentes (los que había más el nuevo). Y con ello, nuevamente, vuelve a aumentar la probabilidad de fallo al verse sometidos a una carga de trabajo extra.


Conclusión

Todo lo aquí expuesto es válido para una cabina de discos, para un pool de switches de comunicaciones, para un clúster de varios nodos y, en general, para cualquier infraestructura que esté basada en más de un elemento. E incluso, en sistemas monoparentales será valido para sus discos, sus slots de memoria, sus ventiladores,...


Una probabilidad baja no implica que algo no pueda ocurrir
Pero también lo es para las aplicaciones. Obviamente, habrá que buscar los elementos que afectan a la distribución de la curva y tal vez la antigüedad de los programas no sea relevante como en el caso de las infraestructuras pero, sin duda, la probabilidad de que las cosas ocurran será en la inmensa mayoría de las ocasiones muy superior a la que la intuición y el sentido común parecen indicar.

La próxima vez que nos ocurra algo que achaquemos a Murphy deberemos pensar si realmente había pocas posibilidades de que eso sucediera.

Porque después de todo, y pese a los sesudos razonamientos matemáticos, ¡la Ley de Murphy existe!


www.tonsofit.com


RSS

8 lecciones de TI aprendidas con Wikileaks



RSS

Solo un comentario antes de empezar. He sustituido el nombre de los responsables, implicados, partícipes, aludidos, palmeros y demás agentes necesarios para que exista Wikileaks por noname de forma que cada cual pueda poner a quien considere en cada caso.

1. La seguridad interna cobra fuerza

Para que haya una filtración debe haber, necesariamente, alguien con ánimo de filtrar la información. Durante años las consultoras sobre seguridad en TI se hartaron de decir que el usuario interno era potencialmente mucho más dañino que el externo, fundamentalmente porque tiene acceso a más información en cantidad y calidad.

El riesgo se define como probabilidad x impacto. Parece lógico pensar que la probabilidad de que un usuario de la casa tenga ganas de sacar a la luz información interna es menor que las ganas que pueda tener alguien  que, en el extremo, puede ser de la competencia. Pero el impacto cuando quien filtra es de la casa es demoledor.

Probablemente, el nuevo garganta profunda que ha filtrado la información (no Julian Assange, que es el mensajero) es la persona más buscada -y odiada- por los nonames. Probablemente a estas horas los nonames de todo el mundo están planteando proyectos para controlar al máximo el acceso a la información de sus usuarios internos. Porque Wikileaks no tendría materia prima si no hay alguien que hace pública la información interna de los nonames.


2. Hay que vigilar los circuitos de información al exterior

Otro aspecto muy importante sobre la seguridad que tomará fuerza en un futuro cercano es el de la definición de circuitos de información. Los analistas llevan años insistiendo en la menor seguridad de la información no estructurada (archivos en red, gestores documentales, ...) frente a la información albergada en bases de datos, pero aún así, resulta increíble que la información sensible de uno de los mayores nonames pueda salir con tanta facilidad de sus sistemas.

Hoy día hay tecnología más que de sobra para hacer que cualquier información permanezca cifrada en su repositorio y únicamente se haga de nuevo legible cuando se consulta por parte de quien puede hacerlo en tiempo y forma. Si esa información sale de su repositorio a un CD, un email, un pendrive, a un filetransfer,... será automáticamente cifrada de nuevo.

Sin duda, Wikileaks hará que los sistemas DRM (gestión de accesos a medios digitales) se potencien de forma explosiva en las grandes organizaciones, sobre todo en aquellas donde los nonames tienen más que esconder.


3. El Open Government es, en parte, solo marketing

Wikileaks pone de manifiesto que el gobierno abierto es cierto sí y solo sí se publica únicamente aquello que noname quiere que se publique y no lo que tiene valor para los ciudadanos. Las filtraciones exponen, por ejemplo, informes geopolíticos pagados con dinero público que tendrían un enorme valor si su conocimiento se democratizara.

En primer lugar porque disponer -no solo por parte de los nonames- de la información en tiempo y forma permitiría, en ocasiones, hacer cambiar el rumbo de la historia.

Y en segundo lugar porque evitaría, por ejemplo, el establecimiento de negocios en ciertas partes del planeta que, según el informe, se conoce que son polvorines sociales, políticos o militares. El mercado funciona de forma eficiente cuando la información está disponible para todos por igual y no solo para unos pocos, los nonames. Si los informes se pagan con dinero público deben ser públicos.


4. La guerra cibernética es una realidad

A finales de septiembre de este año EEUU lanzaba Cyber Storm III, un simulacro de ataque cibernético. Apenas dos meses después, a primeros de noviembre, Europa hacia lo propio con la operación Cyber Europe 2010.

Es evidente que las guerras a base de tecnología son ya una realidad a juzgar por lo en serio que se lo toman los nonames. Y lo son aún más si quien debe garantizar la seguridad, o sea noname, es quien toma la iniciativa en los ataques. Todos y cada uno de los proveedores de servicios de alojamiento y DNS que han ido dando albergue a Wikileaks han sido atacados mediante técnicas de DDoS (Denegación de Servicio) hasta que han dejado de publicar los contenidos proscritos.



El último ha sido EveryDNS que finalmente y a la fuerza ha tenido que ceder a las pretensiones de noname. Su mensaje es claro y contundente: The interference at issues arises from the fact that wikileaks.org has become the target of multiple distributed denial of service (DDOS) attacks. These attacks have, and future attacks would, threaten the stability of the EveryDNS.net infrastructure.


5. El respecto a la protección de datos es, cuando menos, cuestionable

Las filtraciones dejan a las claras el nulo cumplimiento de la legislación existente sobre protección de datos de carácter personal por parte de los nonames. En algunos de los documentos publicados aparecen descripciones sobre la personalidad, forma de ser, costumbres, formación, etc. de personas concretas e identificables.

El apartado 1 del artículo 24 de la LOPD establece que un fichero de datos de carácter personal no estará sujeto -en parte- a dicha ley cuando afecte a la Defensa Nacional, a la seguridad pública o a la persecución de infracciones penales. No creo que sea de aplicación todo eso si de lo que se trata es de describir a otros nonames, en ocasiones de segunda fila en países también de segunda fila.

La otra posible objeción a la necesidad de cumplir con la LOPD sería decir que esos documentos tenían fines policiales de acuerdo al apartado 2 del artículo 22. En ese caso, las exenciones a la ley están limitadas a aquellos supuestos y categorías de datos que resulten necesarios para la prevención de un peligro real para la seguridad pública o para la represión de infracciones penales, debiendo ser almacenados en ficheros específicos establecidos al efecto, que deberán clasificarse por categorías en función de su grado de fiabilidad. Dudo mucho que esos informes se hayan hecho con el fin de enjuiciar a las personas que en ellos se describen.

El incumplimiento de la ley sobre protección de datos de carácter personal es absolutamente evidente. Y tiene doble delito que sea el mismo noname que promulga la ley quien flagrantemente la incumple.


6. No está claro qué entiende cada cuál sobre Neutralidad en la Red

Los nonames llevan meses debatiendo sesudamente si los proveedores de acceso a Internet deben priorizar un tipo de tráfico u otro, es decir, si es más importante el tráfico IP de un vídeo de YouTube, el tráfico del Wall Street Journal o el tráfico de una red P2P de descargas.

Al mismo tiempo, esos mismos nonames no tienen mayor problema en, no ya penalizar el acceso a ciertos contenidos, sino simplemente en censurarlos amenazando e incluso atacando a los proveedores de servicios que les dan albergue. Durante algún tiempo creímos que los nonames de occidente eran diferentes de los gobernantes de algunas dictaduras asiáticas en cuanto a la censura en Internet pero es evidente que únicamente faltaba que se dieran las condiciones oportunas para ver que no hay grandes diferencias.


7. Cuidado con el Cloud Computing

Los proveedores de Cloud Computing han sufrido un varapalo enorme en su marketing. El caso Wikileaks pone en entredicho la seguridad de los sistemas de TI de las compañías soportadas sobre Clouds públicas ante acontecimientos sociales o políticos que incomoden a los nonames. Las presiones de toda índole sobre los proveedores de Cloud han hecho aflorar algunas condiciones leoninas según las cuales se reservan la potestad de interrumpir el servicio sin previo aviso.

En este caso, la lección aprendida es que basar toda la informática en un proveedor externo puede llegar a condicionar la supervivencia misma de la empresa. Caso de optar por este modelo se debe garantizar con absoluta exquisitez que es posible la vuelta atrás y/o el cambio de proveedor de Cloud en un tiempo prudencial. Si el proveedor de Cloud deja en la calle a su cliente éste deberá ser capaz de obtener cobijo en un nuevo proveedor y/o interiorizar sus sistemas en el menor tiempo posible. No olvidemos que el Cloud no es más que una nueva forma de hacer outsourcing.


8. Internet dispone de potentes recursos anti-censura

Mientras noname hace verdaderos esfuerzos para limitar la libertad de expresión intentando expulsar a Wikileaks de Internet, la propia Internet se defiende creando cientos de sitios espejo del principal. En este mismo instante (2010-12-11Wikileaks.ch está replicado en 1.697 mirrors o sitios espejo de forma que seguirá en línea aún cuando los nonames consigan sus objetivos con el dominio principal. 

En gran parte los sitios espejo están soportados por organizaciones sin ánimo de lucro y particulares porque las empresas, en su mayoría, están asustadas frente a la amenaza de los nonames.

Resulta paradójico que el diseño y concepción militar de Internet (gracias a la total descentralización ideada por DARPA para combatir ataques convencionales) sea ahora el principal aliado de la sociedad civil y, por tanto, el mayor escollo y enemigo de los nonames.


Final

Se me plantea alguna otra lección aprendida pero como no soy capaz de encontrarle encaje con la tecnología mejor lo dejamos en este punto.

Hace unos días, comentando el asunto con algunos colegas, me plantearon que sería curioso hacer la reflexión al revés, analizando el caso Wikileaks desde el punto de vista de los nonames. Al menos se me ocurren delitos como revelación de secretos oficiales y militares, delitos contra la privacidad de las comunicaciones o delitos contra las leyes de protección de datos (los mismos que los dueños de los documentos originales). Sería, como poco, divertido. A ver si alguien se anima.




RSS

El mainframe frente a sí mismo



RSS

IBM System z Imaginemos: Una compañía de reciente creación nos ha encargado la tarea de asesorarle respecto a qué tipo de sistemas deberán soportar sus procesos de TI. La elección es basar todo en un mainframe o utilizar un clúster de servidores.

Pero, ¿por qué elegir? Lo mejor, sin duda, un clúster de mainframes; dos o más mainframes sysplex trabajando en modo cooperativo. Por desgracia, la necesidad de elegir viene determinada porque los presupuestos no son infinitos.

Antes de empezar, fijemos un poco la terminología. Por mainframe se entiende una máquina System z de IBM. A su vez, por servidores se entiende servidores -valga la redundancia- x86 o x64 de gama alta de Intel o AMD, familia System p de IBM, Superdome de HP o servidores con tecnología Sparc de Oracle.

Analicemos la elección desde diferentes puntos de vista.


Seguridad

Todo debe seguir en pie
Si le preguntásemos a un director de TI de una entidad financiera o de una gran superficie probablemente diría que lo más importante en su terminal financiero o en su terminal de punto de venta es la confiabilidad del sistema; la resiliencia que dicen los psicólogos. Y hablando de resiliencia, la capacidad para sobreponerse a problemas de un mainframe no tiene parangón. Los técnicos de sistemas de mainframe habitualmente presumen de que casi la mitad del código de zOS está destinado a recuperarse de forma automática ante errores o situaciones no previstas, algo muy diferente de lo que ocurre en cualquiera de los sistemas operativos habituales en servidores.

Pero ¿qué ocurre si le hacemos la misma pregunta a un pasajero de un avión? ¿Preferirá volar en un avión con un único sistema altamente tolerante a fallos o preferirá dos o tres sistemas un 1% menos tolerantes individualmente trabajando en paralelo y dándose cobertura de fallo entre ellos? Antes de contestar, analicemos las disponibilidades.

Cuando se habla de que un sistema es más seguro que otro se manejan porcentajes pírricos de diferencia que en ocasiones no llegan ni al 1%. Un mainframe puede presumir de cinco '9' de disponibilidad. Es decir, en el caso del quinto '9' (disponibilidad del 99,999%), el tiempo máximo de parada es de 5 minutos y 26 segundos al año. Todo ello, lógicamente, sin contar los problemas asociados a los problemas generados por los técnicos que son habitualmente mucho mayores, bien por fallos o bien por paradas planificadas.

Cuadro de mandos de un avión. Todo está duplicado
Obsérvese el eje de simetría vertical,
es decir, el clúster de sistemas
Contestemos ahora a la cuestión que dejamos pendiente. ¿Alguien se subiría a un avión sabiendo que todo depende de un único sistema que tiene una tasa de fallo de cinco minutos al año? La mayor parte preferirán pensar que hay al menos dos sistemas que, aún teniendo una tasa de error mayor  (por ejemplo, un '9' menos), combinados, dan una probabilidad de fallo muy inferior. De ahí, que todos los sistemas de un avión tengan siempre al menos un mecanismo electrónico doble, unido casi siempre a la posibilidad de hacer lo mismo de forma manual.

Lo sé, aún falta añadir la Ley de Murphy al cóctel (todo lo que pueda fallar, indefectiblemente fallará y si puede hacerlo a la vez, lo hará) pero esta Ley aplica por igual para todos los modelos que podamos plantear.



El ecosistema

Un aspecto enormemente importante, tanto o más que la resiliencia de la máquina, es la capacidad de sobreponerse a fallos del ecosistema. Y por ecosistema se entiende todo lo que rodea a las máquinas y que tiene que ver con su funcionamiento. En definitiva, todo aquello en lo que su no existencia implique pérdida de servicio.

Hay elementos vitales como el suministro eléctrico o la refrigeración, la ubicación del CPD, la probabilidad de desastres naturales en función del emplazamiento, el sabotaje,... Muchas de las grandes compañías del entorno comenzaron a percibir este hecho y a proteger su ecosistema a raíz de las inundaciones de Donostia afectando al Banco Guipuzcoano o el incendio eléctrico en Barajas dejando sin servicio todo el CPD de Iberia.

Por tanto desde el punto de vista de ecosistema parece más razonable pensar que es mejor tener un clúster con nodos geográficamente distantes y diferentes proveedores de energía a tener todo en una única ubicación.


Rendimiento

Mare Nostrum de IBM
Supercomputador Mare Nostrum de IBM
Barcelona Supercomputing Center
El rendimiento es, sin lugar a dudas, muy superior en los clústeres que en los grandes mainframes. Para ello únicamente hay que atender a dos hechos.

El primero es que la lista Top 500, en la que se sitúan los 500 súper-computadores más potentes del mundo, está basada al 100% en mega-clústeres. Estos clústeres funcionan haciendo creer al software que todos los servidores que lo integran conforman una única máquina aunque realmente no es así. Por ejemplo, el número uno actual, el súper-computador chino Tianhe-1A, está basado en procesadores Intel x64, pero en cantidades ingentes (14.336 procesadores). Por cierto, es la primera vez que China dispone de un súper-ordenador en la primera posición de la lista.

Habrá quien piense que estos súper-computadores solo sirven en el ámbito científico, que suele ser muy diferente del mundo real. Pues el otro aspecto que invita a creer que el rendimiento es superior en los clústeres es que la mayor parte, por no decir todos, los sitios Web de Internet situados en el Top 20 respecto a visitas basan su infraestructura en clústeres hadoop. Estos clústeres basan su potencia de cálculo no en dos, tres o diez nodos sobre servidores sino en cientos o miles de nodos basados en hardware, habitualmente, más cercano al entorno doméstico; en muchos casos simples PCs. Da igual que se rompan los discos de 50 PCs al día, siempre habrá otros cien mil funcionando. El número de compañías que apoyan esta tecnología va en aumento porque parece que les salen las cuentas de coste-rendimiento. Ahí va la lista, aunque la verdad, me parece que a medio plazo no es la solución.


Coste

El coste es, probablemente, la clave de todo. Durante años el gasto en TI ha estado aumentando el doble que el PIB mundial. Este desfase puede justificarse en cierto modo desde la óptica de aportación al negocio, y desde ese punto de vista es posible encontrar una explicación razonable a ese incremento durante los 20 últimos años. Pero esta justificación es aplicable únicamente a las aplicaciones dado que, salvo honrosísimas excepciones, las inversiones en infraestructura de TI raramente aportan valor al negocio.

Gasto en TI frente al PIB mundial

Es decir, la obligación de cualquier responsable de TI es intentar reducir al máximo las inversiones y el gasto corriente en infraestructuras para dedicar el máximo esfuerzo inversor al desarrollo de aplicaciones que se ajusten y potencien al máximo el modelo de negocio. Eso sí es crear valor.

Y en este punto es donde los mainframes están encontrando mayores dificultades. Los costes de bajada de bandera son significativamente más altos que los que se dan en los modelos basados en clústeres de servidores.

La mejor defensa es un buen ataque. Y quizá por ello, dado que los servidores están amenazando la hegemonía del mainframe, lo mejor es atacar donde les duele. IBM ha planteado su nuevo mainframe z196 de forma que, gracias al virtualizador de hardware KVM, puede ejecutar máquinas virtuales x86 basadas en Linux (ya disponible) y próximamente también Windows (previsto para finales de 2011). Es un paso lógico y muy acertado en el que únicamente falta saber qué éxito tendrá en un mercado dominado por VMWare con Hyper-V a cierta distancia.
Nunca es tarde, pero es increíble que IBM haya tardado tantos años -incluso décadas- en acercar la virtualización de hardware a la plataforma x86 teniendo en cuenta que fue ella quien inventó y desarrollo esta tecnología hace casi cuarenta años con el sistema operativo MVS (1974) en sus mainframes.


Tecnología

En relación a la tecnología, centrando la tecnología en el microprocesador, no parece haber diferencias significativas. El rendimiento de cada procesador se sitúa a la cabeza en función del mes en que se mida y dependiendo del tiempo que haya pasado desde el último lanzamiento de producto de cada fabricante.

Respecto a la proyección a futuro, los equipos basados en Intel y AMD parecen tener el futuro garantizado dada la enorme cuota de mercado y, con ello, la gran capacidad de inversión en I+D. Por su parte, IBM, a sabiendas de que el mercado de mainframes no era suficiente para mantener la masa crítica necesaria para fabricar procesadores, ha sabido llegar a acuerdos en un mercado de consumo, el de los fabricantes de consolas. Así, tanto la PlayStation 3 de Sony como la Xbox 360 de Microsoft incorporan exactamente los mismos chips con tecnología Cell que lleva el mejor y más avanzado de los mainframes. Por eso no debería sorprender que el Departamento de Defensa de EEUU haya creado un súper-computador (ocupa el puesto 33 en el ranking Top500) a base de interconectar 1.700 PlayStation 3.

Sin embargo, el futuro de HP Integrity con sus procesadores Itanium no parece estar tan claro dado que HP se ha quedado solo en su utilización. Itanium se desarrolló con la mente centrada en la sustitución de x86 y x64 pero la realidad ha sido otra bien diferente. Y lo mismo le ocurre a Oracle con su tecnología Sparc dado que tendrá que recuperar los últimos años de declive tecnológico de Sun.


Complejidad

Hay un aspecto diferenciado del coste pero que repercute directamente en él y es la complejidad en el manejo de las infraestructuras de TI. Lógicamente, repercute en el coste dado que a mayor complejidad mayor número de personas para gestionar los sistemas y, no olvidemos, el coste de personal de TI es una de las partidas más importantes -y necesarias- de gasto en la gestión de un CPD.

El siguiente gráfico muestra la previsión realizada en 2007 por IDC respecto a cómo aumentan los gastos de TI a medida que aumenta la base instalada, es decir, el número de servidores. Se observa que tanto el gasto en servidores como el gasto en energía permanecen relativamente constantes mientras que el gasto de gestión y administración (personal, básicamente) aumentan de forma muy importante.

Consumo de energía en sistemas de TI

Sin embargo, la previsión de IDC no era del todo acertada dado que la virtualización de hardware ha conseguido contener esos incrementos de forma muy notable.

Del mismo modo, el buen hacer de los responsables de infraestructuras han hecho que los servidores, lejos de proliferar, hayan reducido su número de forma drástica en los CPDs. Es muy habitual hoy en día tener entornos de base de datos o servidores de aplicaciones totalmente centralizados sobre una única infraestructura para toda la organización.

Un ejemplo muy evidente del cambio hacia la centralización en el entorno de servidores es el paso dado por Oracle con su Database Machine (Exadata). Oracle centró su estrategia durante años en los sistemas basados en grid. Todo debía estar en muchos nodos, pequeños, pero abundantes en número. Ahora propugna un cambio de paradigma con Exadata según el cual toda la gestión de BBDD debe estar centralizada en una única máquina en la que la propia Oracle provee el software, capacidad de procesamiento, almacenamiento y comunicaciones. Cualquiera diría que Oracle está intentando reinventar el mainframe sobre hardware de servidores.


Corolario

Aunque a IBM no le gusta demasiado dar las cifras del número de mainframes que están en línea, algunos estudios apuntan a que el número de máquinas se sitúa en torno a las 10.000 a nivel mundial. Nunca hubo tantas como ahora..., ni tan pocas como ahora. Básicamente, porque el número está estancado desde hace casi dos décadas.

El concepto de resiliencia unido a los enormes costes de arrastre en forma de migraciones masivas de aplicaciones hace que los proyectos de migración de los mainframes se encuentren en muchos casos en lo que un físico denominaría equilibrio inestable.

Los servidores son cada vez más estables y seguros. Es cierto, los mainframes lo son aún más pero cualquier organización mide los riesgos y después elige la posición más óptima respecto a ellos. Y en esa elección los costes son una de las piezas clave a la hora de determinar qué riesgos se pueden asumir y cuáles no.

Los mainframes no van a desaparecer. Todos los profetas (IDG, Gartner, Forrester, ...) anunciaron su muerte durante años y, obviamente, se equivocaron. Pero creo que a día de hoy hay hardware y software que puede competir de igual a igual con la seguridad y resiliencia de los mainframes igualando o superándoles en el resto de valoraciones. La batalla por el mercado de los mainframes menores de 2.000 MIPS, donde están probablemente más del 50%, ya ha comenzado.


www.tonsofit.com


RSS

Los contenidos de Tons of IT están sujetos a licencia Creative Commons Reconocimiento 3.0 salvo donde se indique lo contrario.