DevOps SRE

Grow Stefanini Latam

Colômbia

•

19 horas atrás

•

Nenhuma candidatura

Sobre

¡Sé parte de Stefanini!En Stefanini somos más de 30.000 genios, conectados desde 41 países, haciendo lo que les apasiona y co-creando un futuro mejor.Responsabilidades y atribucionesMISIÓN DEL CARGO: Implementar una tercera zona de disponibilidad en la nube de AWS, logrando un equilibrio óptimo entre la fiabilidad y la estabilidad de los servicios. Además, aporta a la mejora de la infraestructura en general existente en la nube a partir de la configuración de automatizaciones para favorecer la robustez, predicción de fallos, mejorar la resiliencia, redundancia y optimización de costos del sistema. FUNCIONES: Implementar una tercera zona de disponibilidad en la nube de AWS cumpliendo con las buenas prácticas de nube y los estándares del proyecto.Analizar el servicio y los componentes de infraestructura para mejorar su disponibilidad, desempeño, mantenibilidad y resiliencia.Crea y diseña sistemas robustos, predice posibles fallos y configura automatizaciones para mejorar la resiliencia y la redundancia del sistema.Mantener y mejorar la infraestructura de TI y sus componentes, lo que incluye la automatización de tareas mediante herramientas y codificación.Estandarizar, documentar y divulgar las políticas, prácticas y herramientas de observabilidad que apoyen a implementación de SRE.Implementar métricas clave de SRE que permitan medir la efectividad del proceso y promuevan la mejora continua.Optimizar costos en todas las cuentas de nube para mantener un buen desempeño sin tener servicios o plataforma ociosa.Implementar y mantener las mejores prácticas para continuidad de negocio de cara a pruebas DRP.Automatizar tareas operativas y repetitivas que contribuyan a la eficiencia y a la estabilidad de la infraestructura en la nube.Contribuir a la resiliencia de la infraestructura a partir de la predicción de escenarios de falla, hojas de ruta para su atención y definición de planes de mejora.Proponer planes de acción y apoyar su implementación para la solución de causa raíz de incidentes productivos, garantizando el adecuado registro de los mismos.Desarrollar herramientas de automatización para supervisar sistemas, gestionar incidentes y realizar tareas operativas de TI.Apoyar el diseño y ejecución de pruebas de recuperación ante desastres, garantizando el adecuado registro de los mismos.Implementar cambios y actualizaciones de software para su lanzamiento en un entorno de producción.Gestionar la entrega/implementación continua mediante herramientas de automatización.Construir y operar capacidades de integración continua (CI) cuando sea necesario empleando el control de versiones del código fuente y artefactos relacionados.Controlar sistemáticamente los cambios de una configuración y mantener la integridad, la coherencia y a trazabilidad de dicha configuración a lo largo del ciclo de vida del proyecto, sistema y/o servicio.Almacenar los documentos generados durante el paso a producción de los requerimientos del proyecto, de acuerdo con lo definido en el plan de implementación y configuración.Garantizar que los requisitos de seguridad y privacidad sean una parte esencial de la construcción e integración de los sistemas.Probar, validar y aprobar la integración a fin de satisfacer los requisitos, las arquitecturas y el diseño.Controlar las actividades de integración y registrar e informar acerca de los resultados de la integración.Participar activamente en la actualización documental de los procesos en los que participa.Participar en las reuniones diarias de seguimiento, así como en en las reuniones programadas por su jefe Inmediato.Actualizar la base de conocimiento con las lecciones aprendidas, así como comunicar los resultados al equipo de trabajo.Conocer y hacer cumplir las normas y procedimientos de seguridad establecidos por el proyecto y los entes de control.Requisitos y calificacionesFormación Requerida: Ingeniería de Sistemas, Ingeniería de Software, Ingeniería Informática u otras ingenierías afinesFormación Complementaria (Preferible): AWS Certified Cloud Practitioner Cursos en Ingeniería de Fiabilidad del Sitio (SRE, site reliability engineering)Años de experiencia en el cargo / cargos similares: 2 años en DevOps o en Ingeniería de Fiabilidad del Sitio (SRE, site reliability engineering)Competencias TécnicasInglés Técnico.Conocimiento en Ingeniería de Fiabilidad del Sitio (SRE, site reliability engineering).Conocimiento avanzado en herramientas de observabilidad.Conocimiento de métricas de observabilidad, disponibilidad y SLAs.Conocimientos medio-altos en herramientas para automatización.Conocimientos avanzado en infraestructura en la nube de AWS.Conocimientos en prácticas de resiliencia y recuperación ante desastres.Conocimientos en herramientas ofimáticas.Conocimientos de Kubernetes.Conocimientos de Terraform.Conocimientos de GitLab.Conocimientos de NewRelic.Conocimiento básico de gestión del servicio ITIL.Power SkillsVisión y capacidad de anticipaciónCapacidad de toma de decisionesComunicación efectivaCapacidad de análisis de datos y reportesTrabajo en equipoResolución de problemas