분류 전체보기(107)
-
ec2, eks could not resolve dns host name
Problem: { ec2, lambda, ecs, eks } could not resolve { public, private } dns host name or could not resolve { s3, sqs, dynamodb, sns, execute-api, rds, elasticfilesystem ... } in { ec2, lambda, ecs, eks } --- The error message was No subject alternative DNS name matching my.domain.com found. server can't find kubernetes.default: NXDOMAIN nslookup -> server can't find ip-192-168-1-86.ec2.internal..
2023.09.14 -
AWS EKS POD DNS 문제 해결 - Route53 CNAME/A record
지난 편에 이어서 AWS EKS CoreDNS의 configmap을 수정해서 forward의 값을 1.1.1.1로 변경시키는 것은 퍼블릭 도메인에는 효과가 있었습니다. 하지만 프라이빗 도메인으로 연결해 놓은 AWS 내부 리소스를 못 찾는 문제가 발생했습니다. CoreDNS 설정을 롤백하고 진짜 원인을 찾기 시작했습니다. 처음 문제 1. EKS Pod에서 api.example.com를 호출하면 DNS를 찾을 수 없다는 에러가 발생 (실제로는 messages.dev.exampleapis.com/v1/api/abcd ...) 발견한 현상 2. 디버그용 컨테이너를 띄워서 nslookup api.example.com 해보면 192.168 IP를 알려줌 Non-authoritative answer: messages..
2023.09.13 -
AWS EKS POD DNS 문제 해결 - CoreDNS forward
nslookup kubernetes.default 10.100.0.10 server can't find kubernetes.default: NXDOMAIN 개발팀에서 새로운 기능을 추가해서 배포를 했는데 I/O error on POST request for “https://messages.dev.example.com/email/v2/messages”: No subject alternative DNS name matching messages.dev.example.com found. 이런 에러가 발생한다고 문의가 왔습니다. 로그를 상세히 찍어봐도 에러 메시지는 비슷했습니다. No subject alternative DNS name matching messages.dev.example.com found 해당 ..
2023.09.13 -
쿠버네티스가 AI, ML, LLM를 위한 플랫폼인 이유
Kubernetes는 MSA 같은 워크로드 뿐만 아니라, LLM과 같은 대규모 인공 지능(AI) 및 머신 러닝(ML) 워크로드의 전체 라이프사이클을 지원하는 데 이상적인 플랫폼입니다. 2022년, Red Hat의 컨테이너 워크로드 현황에 대한 보고서에 따르면 응답자의 76%가 데이터베이스 또는 데이터 캐시 시스템을 구축했으며, 65%가 인공 지능 및 머신 러닝 워크로드에 쿠버네티스를 사용했습니다. 웹 서버가 59%, 로깅 및 모니터링 솔루션이 58%, 데이터 수집/분석이 56%로 그 뒤를 이었습니다. Kubernetes는 언어 모델을 구축, 학습 및 배포하는 데 있어 지배적인 플랫폼으로 부상하여 AI 환경을 혁신하고 있습니다. Kubernetes에서 AI/ML 워크로드를 호스팅하면 확장성, 유연성, 네트..
2023.09.06 -
LLMOps란?
LLMOps를 설명하려면 MLOps를 알아야 합니다. MLOps란? ML(Machine Learning, 머신 러닝)과 Ops(Operations, 운영)의 합성어입니다. MLOps는 머신 러닝 모델을 안정적이고 효율적으로 배포 및 유지 관리하는 것을 목표로 하는 패러다임입니다. 또는 머신 러닝 프로그램의 개발, 배포, 관리 및 모니터링을 위한 연속적인 작업 프로세스 및 방법론입니다. DevOps (Development and Operations) 개념을 머신러닝에 적용한 것입니다. LLMOps란? LLMOps는 "LLM"과 "Ops"의 합성어로 MLOps의 한 패러다임입니다. 프로덕션 환경에서 대규모 언어 모델을 배포하고 유지 관리하여 규모와 성능에 대한 기대치를 충족하는 데 중점을 둡니다. LLMOp..
2023.08.30 -
MLOps, DataOps, AIOps란?
MLOps, DataOps, AIOps란 무엇인지 알아보겠습니다. ChatGPT에게 컴퓨터공학 전공자 수준으로 3줄 요약을 부탁해보았습니다. MLOps: MLOps는 기계 학습 프로젝트를 개발, 배포 및 관리하는 프로세스와 도구의 결합을 의미합니다. 소프트웨어 개발의 워크플로우와 기계 학습 모델의 라이프사이클을 통합하여 효율적인 모델 관리와 협업을 실현합니다. CI/CD, 자동화된 모델 배포, 모델 모니터링 및 유지보수가 MLOps의 주요 요소입니다. DataOps: DataOps는 데이터 파이프라인 및 데이터 관리 프로세스를 개발 및 운영하기 위한 방법론입니다. 소프트웨어 개발과 유사한 방식으로 데이터 통합, 전처리, 저장 및 분석을 자동화하며, 팀 간 협업과 데이터 품질 향상을 목표로 합니다. CI/..
2023.08.27