Amazon Redshift es un servicio de almacenamiento de datos a escala de petabytes ubicado en la nube que está completamente administrado para usted. Le ofrecen la oportunidad de comenzar con varios cientos de gigabytes de datos y luego escalar hacia arriba cuando sea necesario para su empresa. Esta estructura permite obtener nuevos conocimientos a través de la adquisición de datos sobre sus clientes, oportunidades comerciales y otras necesidades diarias.
Empiece con esta oportunidad lanzando un conjunto de nodos. Estos se conocen como un “clúster de Amazon Redshift”. Una vez que aprovisiona el clúster, es posible cargar sus datos. Desde allí, puede realizar consultas de análisis en su paquete de información. Utiliza las mismas herramientas basadas en SQL que la mayoría de las empresas utilizan para necesidades internas, lo que hace que el acceso a sus datos sea más rápido y seguro porque no está obligado a alojarlos en su ubicación física.
En el momento de escribir este artículo, Amazon ofrece a todos los nuevos usuarios de Redshift una prueba gratuita de 2 meses de este servicio de almacenamiento de datos para ver si satisface sus necesidades. Si comienza con poco, el precio después de la prueba gratuita comienza en solo$ 0.25 por hora, pasando a solo$ 250 por año por cada terabyte que almacene. Eso hace que sea aproximadamente el 10% del costo de una solución similar.
Si está buscando soluciones de almacenamiento de datos que sean rápidas y escalables en la actualidad, estos son los pros y los contras de Amazon Redshift que debe considerar.
Lista de las ventajas de Amazon Redshift
1. Es una de las soluciones más rápidas de este tipo disponibles en la actualidad.
Cuando se trata de cargar sus datos o consultarlos con fines analíticos o de informes, hay menos competidores que pueden igualar lo que ofrece Redshift. Utiliza la arquitectura MPP (Massively Parallel Processing) para cargar sus datos a velocidades que no creerá. También paralelizará y distribuirá sus consultas en varias notas para un acceso rápido cuando sea necesario. También tiene la opción con este servicio de utilizar almacenes de datos basados en SSD, lo que hace posible ejecutar una consulta compleja sin un compromiso de tiempo masivo.
2. Recibe una solución de almacén de alto rendimiento.
El diseño de Redshift le permite aprovechar la paralelización en sus operaciones de copia de seguridad y restauración, además de los requisitos de carga de datos que tiene. Esta estructura le proporciona tasas de compresión de datos eficientes, lo que permite optimizar por completo sus consultas y distribución, sin importar la cantidad de datos que almacene. Estos beneficios son posibles gracias a la base de datos de almacenamiento en columnas que se le ofrece, optimizada para datos repetitivos. Las operaciones de E / S se reducen en el disco, lo que mejora su rendimiento como resultado.
3. Recibe acceso a un proceso de aprendizaje automático.
Redshift utiliza el aprendizaje automático para garantizar que reciba un máximo en función de las cargas de trabajo que tenga. Lo hace mediante el empleo de algoritmos sofisticados que predicen los tiempos de ejecución de las consultas entrantes. Luego, los asigna a cualquier cola que optimice la velocidad de procesamiento para usted. Eso significa que sus informes o consultas del panel pasan por una cola rápida en lugar de una estructura de enrutamiento estándar, lo que optimiza la velocidad de procesamiento para ofrecer resultados inmediatos.
4. Ofrece almacenamiento en caché de resultados.
Redshift también utiliza el almacenamiento en caché de resultados para ofrecer un tiempo de respuesta inferior a un segundo siempre que haya consultas repetitivas. Las herramientas de inteligencia empresarial visualizadas y los paneles que ejecutan consultas repetidas recibirán un aumento significativo en el rendimiento debido a esta estructura. Busca en la caché para determinar si una ejecución anterior creó un resultado en caché. Si hay uno y los datos no han cambiado, verá el resultado almacenado en caché en lugar de volver a ejecutar la consulta.
5. Descubrirá que es muy fácil de implementar.
Amazon Redshift es una de las soluciones de almacenamiento de datos más fáciles disponibles en la actualidad para configurar y operar desde una perspectiva empresarial. Todo lo que necesita hacer es iniciar sesión en su consola de AWS y luego seguir los comandos presentes para implementar su nuevo almacén de datos. Aprovisionará automáticamente su infraestructura en ese punto. Muchas de las tareas administrativas también están automatizadas, incluidas la replicación y las copias de seguridad, lo que significa que puede concentrarse en sus datos en lugar de en la tarea de administrarlos. También puede realizar ajustes para ajustar cargas de trabajo específicas.
6. Se integra con herramientas de terceros.
Puede optar por mejorar sus interacciones con Redshift trabajando con una lista extensa de proveedores externos que ayudan a transformar y visualizar sus datos. Hay socios de inteligencia empresarial, expertos en integración de datos, consultoría y asistencia en la integración de sistemas, y oportunidades de modelado de datos y consultas, todos con soluciones certificadas que están garantizadas para trabajar con Amazon.
7. Descubrirá que es una solución rentable para su negocio.
Si desea comenzar poco a poco, puede aprovechar la tarifa de $0.25 por hora sin compromisos. Redshift es el único proveedor de este tipo que ofrece precios a pedido sin costos iniciales. Sin embargo, si se compromete a un plazo de 3 años, puede ahorrar hasta un 75% en sus necesidades de almacenamiento de datos basado en la nube. Su tarifa por hora se basa en la cantidad y el tipo de nodos que hay en su clúster. Incluso con un almacenamiento denso, el costo máximo de los productos de la generación actual es de aproximadamente$ 7 por hora.
8. Puede elegir su tipo de nodo cuando trabaja con Amazon Redshift.
Hay dos tipos de nodos disponibles para optimizar sus necesidades de almacenamiento de datos si elige Amazon Redshift. La primera opción, llamada Dense Compute, le permite crear una solución de alto rendimiento para CPU rápidas, discos de estado sólido y grandes cantidades de memoria. Puede escalar aún más para utilizar los nodos de Dense Storage que ofrecen una unidad de disco duro (HDD) más grande a precios más bajos. Si desea cambiar entre nodos o escalar su clúster, una sola llamada a la API o un par de clics desde su consola es todo lo que necesita para hacer el trabajo.
9. Ofrece una copia de seguridad coherente de sus datos.
Amazon Redshift ofrece una copia de seguridad coherente de sus datos y archivos. También los recupera cuando pueden ocurrir fallas o daños. Las subtareas disponibles para usted en esta área incluyen ayuda con la recuperación de datos que es continua y automática, incluso si falla una unidad o un nodo. Ayudan con una copia de seguridad de recuperación ante desastres para limitar la cantidad de pérdida de datos que experimenta. La restauración de datos también se produce desde diferentes regiones, dependiendo de cómo configure su cuenta. Estos beneficios se aplican incluso si va más allá del primer perabyte que almacena en la nube con este servicio.
10. Recibe cifrado de un extremo a otro con Amazon Redshift.
Todo lo que necesita hacer es configurar su propiedad de configuración de parámetros para usar SSL para mejorar la seguridad de los datos mientras está en tránsito. Este sistema de almacenamiento de datos también utiliza encriptación acelerada por hardware AES-256 para sus datos cuando están en reposo. Cuando selecciona el cifrado para sus datos cuando están en reposo, todo lo que se escribe en el disco, incluidas las copias de seguridad que pueda tener, recibe este beneficio de cifrado. Redshift se encarga de la gestión de claves de forma predeterminada.
11. Ofrece aislamiento de red.
Elegir Amazon Redshift le brinda la ventaja de configurar sus reglas de firewall para controlar el acceso de red a los clústeres que componen su almacén de datos. Es posible ejecutar Redshift dentro de Amazon VPC para aislar sus clústeres a través de su propia red virtual. Luego, puede conectar esto a su infraestructura de TI existente si lo desea utilizando una VPN IPsec encriptada para maximizar el acceso continuo a los datos.
12. Puede auditar todas sus llamadas a la API a través de Redshift.
Debido a que Amazon Redshift se integra con CloudTrail, puede auditar todas las llamadas a la API realizadas a través del sistema. Registra todas sus operaciones SQL, incluidas las consultas, los cambios en la base de datos y los intentos de conexión. Luego, puede acceder a la información mediante consultas SQL en las tablas del sistema o elegir descargarlas en Amazon S3 en una ubicación segura. El sistema cumple con SOC1, SOC2 y SOC3. También cumple con los requisitos de nivel 1 de PCI DSS.
13. Se integra de forma nativa con el ecosistema de análisis de AWS.
Cuando elige Amazon Redshift para sus necesidades de almacenamiento de datos, descubrirá que se integra completamente con el ecosistema de análisis de AWS.
• Puede utilizar AWS Glue para extraer, transformar y cargar datos en Redshift.
• Capture, transforme y cargue datos de transmisión en Redshift utilizando Amazon Kinesis Data Firehose para análisis que son casi en tiempo real.
• Cree paneles, visualizaciones e informes a través de Amazon QuickSight.
Incluso puede utilizar AWS Database Migration Service si desea mejorar la velocidad de transferencia de sus datos a Redshift con una prueba gratuita de 6 meses de su servicio DMS.
14. Tiene acceso a una gran cantidad de materiales de formación para Amazon Redshift.
Si accede a la página de documentos de Amazon Redshift, encontrará una variedad de recursos disponibles para usted como usuario nuevo. Hay una descripción general completa de cómo administrar el sistema cuando tiene necesidades de almacenamiento de datos. Tiene acceso a una guía de “introducción” que lo guía a través de todos los pasos necesarios para crear clústeres, tablas de bases de datos y consultas de prueba. Una guía de administración de clústeres le mostrará cómo administrar los clústeres correctamente, mientras que una guía para desarrolladores de bases de datos ofrece explicaciones sobre cómo construir, diseñar, consultar y mantener la información que constituye la base de su almacén de datos.
Lista de las desventajas de Amazon Redshift
1. Requiere que haga cumplir la singularidad de su parte.
Actualmente, no hay una estructura disponible en el momento de redactar este documento que permita a Amazon Redshift ayudarlo a mantener la integridad de los datos mediante el uso de índices únicos. Usted es responsable de esta estructura al final del proceso de almacenamiento de datos. Eso significa que no hay verificaciones de los valores en sus expresiones o columnas para determinar si la clave de índice se ha visto comprometida de alguna manera.
Las restricciones de “verificación” y “única” no son compatibles debido a esta estructura. Eso significa que no se puede declarar, lo que crea algunas limitaciones para algunas agencias.
2. Solo recibe soporte para la carga paralela con datos específicos.
La carga paralela recibe soporte para DynamoDB, SE y Amazon EMR cuando opta por Redshift como su solución de almacenamiento de datos basada en la nube. Estas estructuras utilizan el MPP que le brinda las altas velocidades necesarias para sus consultas. Sin embargo, si tiene alguna otra fuente para sus datos, esta función no es compatible en absoluto. Debe utilizar inserciones o scripts de JDBC para cargar los datos en Redshift. Su otra opción sería utilizar una solución ETL que cargue sus datos en el almacén desde una fuente diferente.
3. Debe comprender las claves de distribución y clasificación.
Las claves de distribución y clasificación determinarán cómo se indexan y almacenan sus datos cuando elige Redshift para sus necesidades de almacenamiento de datos. Este proceso se aplica a todos los nodos. Eso significa que debe tener una comprensión firme de los conceptos detrás de estas claves, incluido el conocimiento sobre cómo configurarlas correctamente en sus tablas para crear el rendimiento optimizado que desea a través de esta solución.
Solo puede haber una única clave de distribución para cada tabla. No puede cambiarlo más adelante, lo que significa que debe anticipar las cargas de trabajo futuras antes de tomar una decisión. Las claves primarias también se pueden declarar, pero no imponer.
4. No funciona como una base de datos de aplicaciones en vivo.
Descubrirá que Amazon Redshift hace un excelente trabajo al ejecutar consultas con una cantidad significativa de datos, ejecutar informes, manejar análisis y tareas similares, pero aún no es una solución si está tratando de ejecutar aplicaciones web en vivo. Deberá introducir datos en una capa de almacenamiento en caché u optar por una instancia de Postgres, si está sirviendo datos desde Redshift a cualquier aplicación web.
Durante una oportunidad de capacitación de Redshift, Lars Kamp realizó una encuesta a los asistentes sobre los problemas que habían experimentado con esta solución. El 91% informó que sus consultas eran demasiado lentas. El 64% dijo que sus tableros también eran lentos. El 55% dijo que era difícil entender qué estaba pasando con la base de datos. Se necesita tiempo para encontrar soluciones a estos problemas para convertir Redshift en la poderosa herramienta que puede ser.
5. Está colocando sus datos en un sistema basado en la nube.
Hay ventajas y desventajas únicas que se deben tener en cuenta cuando se ejecutan sistemas basados en la nube. Si bien hacer que un tercero administre sus datos fuera del sitio puede aumentar las preocupaciones de seguridad física, también está poniendo la seguridad de sus datos en manos de otra persona.
Algunas empresas pueden tener preocupaciones sobre la privacidad al utilizar Redshift debido al valor de su propiedad intelectual. También tiene problemas de conexión en los que pensar, ya que la falta de acceso a un ISP limita su capacidad para acceder a estos servicios. También existe la posibilidad de interrupciones, lo que significa que cualquier falla será pública.
6. Está un poco atrasado con su configuración de Postgre.
La estructura de Amazon Redshift se basa en PostgreSQL 8.0.2. Esa versión tiene más de una década en este momento. Ha visto mejoras marcadas en múltiples áreas desde entonces, pero estas características no están disponibles actualmente si elige esta solución de almacenamiento de datos. Descubrirá que muchas de las características básicas que esperaría con el SQL actualizado no están disponibles a través de este sistema.
7. Debe manejar los costos de la integración y la migración de datos.
Debido a que está trabajando con una solución de almacenamiento de datos a nivel de perabytes, debe considerarse el ancho de banda que necesitará para transmitir estos datos durante las fases iniciales de este proyecto. Sus sistemas internos deben enviar la información al sistema Redshift basado en la nube o enviarlos a través de unidades USB a AWS desde su remitente preferido. Si es una pequeña empresa que todavía opera con un uso limitado de datos, es posible que no pueda enviar todos sus datos para que se almacenen.
8. No hay procedimientos almacenados disponibles para usted en Amazon Redshift.
Cuando decida utilizar Redshift para sus necesidades de almacenamiento de datos, deberá analizar y ejecutar sus archivos de script SQL una declaración a la vez. Eso es porque no hay procedimientos almacenados disponibles para usted. Verifica y cuenta las filas afectadas, luego ejecuta una consulta de combinación compleja contra algunas de las vistas o tablas de su sistema para generar los resultados necesarios. A menos que esté familiarizado con los sistemas de administración de bases de datos, la curva de aprendizaje de estos procesos será bastante alta para la persona promedio.
9. Sus niveles de rendimiento disminuyen a medida que aumentan los grupos.
If you want to achieve consistent results when using Amazon Redshift, then you must keep your clusters below 75% for best results. If you let the clusters become overloaded with multiple queries, then you’ll start to have performance issues as well. Do your best to limit yourself to 10 concurrent queries or less when working with this data warehousing solution. You’ll need to run your maintenance or heavy loads during quiet periods, which may fall outside of the timeframe you envisioned for this process.
Si está buscando una solución asequible y eficaz para el almacenamiento de datos, es fundamental revisar los pros y los contras de Amazon Redshift. Existen algunas limitaciones con este servicio, pero también encontrará que está a años luz de algunos competidores, como Snowflake. Se necesita algo de tiempo para aprender, especialmente si necesita scripts personalizados para el acceso a los datos en tiempo real, aunque la mayoría de las agencias que utilizan este servicio encuentran que su precisión, consistencia y escalabilidad son exactamente lo que necesitan para lograr un mayor éxito.