전체 글 79

[회고] 2024년 회고와 2025년 목표

아직 설날 전이니 늦지 않았다고 생각해보며 적어보는! 작년회고 & 올해 목표2024 회고2024에서 가장 큰 축을 담당한건 학교와 회사라고 할 수 있어서 그 두 축을 기반으로 작성해보고자 한다. 1. 학교학교는 사실 논문 트랙이라 1학기에만 수업을 듣고 2학기에는 별 다른 게 없었다. 1학기가 정말정말 힘들었는데, 학교 수업들을 들으면서 졸업 시험도 준비해야했고 회사도 난리라서 모든걸 같이 가져가는게 난이도가 높았다. 학교 성적은 만족스럽게 마무리 할 수 있었다는 점이 그나마 다행인 점이라고 할 수 있다. 게다가 우연치않게 원우회 총무 일을 하면서 학교 행사준비에 대학원 연합에 관한 일들까지 진행해야 했다. 그 때는 인지하진 못했지만 지금 돌아보면 꽤나 정신없게 보냈던 것 같다. 2. 회사회사가 아주 격..

Attention is all you need (2/2) - Multi-head attention

Attention is all you need 를 읽고 공부하며 작성한 글 입니다.Multi-Head Attention  데이터의 여러 측면에 대한 고려가 가능하도록 설계됨Scaled Dot-Product Attention을 여러 개의 헤드(병렬 어텐션 모듈)로 실행하여 다양한 시각에서 정보를 분석하도록 하는 메커니즘이후 concat 단계에서 각 헤드의 출력 벡터를 병렬로 연결하여 최종적으로 더 풍부한 정보를 가진 출력 생성하게 됨저번 글에서  언급했던 Scaled Dot-Product Attention과 동일한 계산을 수행하나, head의 수 만큼 나누어서 진행됨multi-head attention을 가장 잘 표현한 그림input이 특정 차원을 가진 임베딩 벡터로 인코딩하고, 그 임베딩 벡터를 head..

AI 2024.11.24

Attention is all you need (1/2) - Scaled Dot Product Attention

Attention is all you need 를 읽고 공부하며 작성한 글 입니다.Abstract시퀀스 모델에서 제일 많이 사용되는 모델들은 인코더와 디코더를 포함한 RNN 또는 CNN을 기반으로 하는 모델transformer는 인코더와 디코더를 어텐션 매커니즘을 이용하여 연결하여 사용함INTRODUCTION시퀀스 모델링 문제에서 RNN, LSTM, GRU등 기존의 recurrent 모델들은 이전 결과를 순차적으로 받아야 하는 특성 때문에 병렬화가 제한적임이전의 값을 처리 후 그 값을받아서 이후 값을 처리해야하는 문제그 길이가 길수록 시간, 메모리적인 부담이 증가하게 됨attention 매커니즘을 이용하여 입,출력 시퀀스 내의 거리와 상관없이 의존 관계를 효과적으로 모델링할 수 있게 되었으나 이것 마저도..

AI 2024.11.10

Deep Learning for Anomaly Detection in Time-Series Data: Review, Analysis, and Guidelines

대상 논문 : https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9523565Abstract시스템의 이상 징후를 제때 탐지하면 사고를 방지하고 경제적 손실을 예방할 수 있음하지만 시간적 종속성과 변수 간의 관계를 동시에 고려해야해서 쉽지 않음특히나 도메인 집약적인 측면이 있어 도메인에 대한 지식이 필요함시계열 이상 탐지에 대한 배경과 최신 시계열 이상 탐지 모델을 검토할 예정여러 벤치마크 데이터셋을 이용항 SOTA 딥러닝 시계열 이상 탐지 모델 비교 분석딥러닝 기반 시계열 이상 탐지를 위한 모델 선택 및 훈련 전략 지침 제공JUSTIFICATION시계열 데이터에 대한 최신 딥러닝 기반 이상 탐지 방법을 검토실무자들이 해결하려는 문제에 적합한 가이드라인을..

AI/시계열 2024.10.27

[글또 10기] 글또 10기를 시작하며

들어가며7기부터 참여했던 글또도 벌써 4번째 참여중이다. 10기는 마지막 기수인 만큼 유종의 미를 잘 거둘 수 있도록 하고 싶다. 반성 먼저개인적으로 글또 9기의 나는 여러모로 엉망이었다고 평가한다. 크지만 구체적인 포부를 안고 9기를 시작한다고 생각했는데, 그게 구체적이기만 하고 실행을 하지 못했다. 정말 해야 할 최소한만 한 느낌. 게다가 9기가 끝나고는 블로그에 글을 정말 한 자도 쓰지 않았다. 블로그 메인 페이지에 글이 총 10개가 노출이 되는데, 가장 마지막 글이 글또 9기를 시작하며쓴 글이다. 1년간 10개의 글도 쓰지 않은 것이다. 심지어는 패스도 다 써서 예치금에서 마이너스 되는 상황까지 발생했다. 정신이 없었던 시기이긴 하지만 챙기려면 분명 챙길 수 있었을 것이기 때문에 스스로가 조금 한..

[인생 회고] 들어가며, 경영학과가 정보통계학과를 복수전공한 이유

들어가며 정신차려보니 만 2년을 꽉 채워버린 3년차 데이터 분야 종사자가 되었다. 사실 개인적으로는 데이터 분석가가 되고 싶어서 어디가서 포지션명을 언급하며 소개할때는 데이터 분석가라고 소개한다. 하지만 현재 회사에서 실제로 하는 일들을 살펴보면 '요즘 데이터 분석가' 들이 하는 일하고는 좀 차이가 있어서.....정말 내가 데이터 분석가가 맞나? 싶은 생각을 하는 것도 사실이라 일단 데이터 분야 종사자라고 이야기해봤다. 채용공고를 살펴보면, 경력직으로 올라온 공고들은 대부분 3년 이상으로 되어 있는 것을 볼 수가 있다. 최초 1년은 업무를 파악하고, 2년 째에는 업무에 익숙해지는 시간을 가졌으니, 3년부터는 쓸만한 한 명의 인력으로 인정받기 때문인 것 같다. 그렇다면 지금 나는 업무에 익숙해져서- 쓸만한..

[서평] 기초 이론부터 최신 트렌드까지, 딥러닝의 정석 2판

딥러닝을 하려고 하면 기본적으로 선형대수를 포함한 수학적인 기초도 있어야 하고, 통계도 물론 알아야 합니다. 게다가 이론적인 부분에서 벗어나 실제로 모델을 구현하려고 하면 코드를 작성해야 하기 때문에 프레임워크에 대한 내용도 종합적으로 알아야 합니다. 공부를 시작한 사람들은 아마 다들 조금씩은 부분적으로 '찍먹'을 해 보았을 것 같은데요. 그렇게 배운 지식들은 제 경험상으로는 아주 조각조각나서 여기서 배운 지식이 뒤에서 어떻게 쓰이는지 이해가 되지 않을 때가 많았습니다. 필요성을 느끼지 못하면 정말 하기 싫다고 생각하는 성격이라 대학교 시절에 '선형대수학'과목을 들으면서 교수님께 통계학과인데 선형대수학이 왜 필요하냐(!)라는 질문을 던지기도 했었는데요. 뒤늦게 어디서 어떻게 쓰이는 지 알게 되었는데, 미..

독서/서평 2024.03.31

[Anomaly detection] Isolation Forest

Anomaly detection이란? 데이터에서 예상치 못한 패턴, 예상 범위를 벗어나는 이상점 등을 탐지하는 것 이상거래 탐지, 고객이탈, 설비예지 등으로 활용될 수 있음 대부분의 경우 정상 데이터와 비정상 데이터가 불균형하게 이루어져 있다는 특징이 있음 보통의 머신러닝 태스크 들과 동일하게 지도 / 비지도 / 반지도 학습으로 분류됨 Supervised 정상, 비정상에 대한 라벨링이 되어 있어 두 정보를 모두 활용 가능한 경우 사용 Unsupervised 레이블이 없는 데이터만을 가진 경우 사용 분포나 밀도를 기반으로 정상, 비정상 데이터를 구분 Semi Supervised 데이터가 정상 데이터만 있는 경우 사용 정상 데이터만을 사용하여 학습을 하고, 학습된 특징과 부합하지 않는 경우 이상으로 탐지 I..

AI 2024.03.14

[Azure] Data Factory란? 기본 사용 방법

클라우드 컴퓨팅 시스템이란? 인터넷을 통해 다양한 IT 리소스와 서비스를 제공하는 플랫폼 대규모 데이터 센터에서 운영되는 컴퓨터, 스토리지, 네트워킹 등의 하드웨어 및 소프트웨어 리소스를 가상화하고 인터넷을 통해 사용자에게 제공하는 서비스 대표적으로는 Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform (GCP) 등이 있음 장점 탄력성과 확장성 : 컴퓨팅 리소스의 확장, 축소 등 변동에 대한 반영 빠름 경제적 : 사용한 만큼에 대한 요금이 부과되는 형태, 초기 비용관리 쉬움 글로벌 엑세스 : 전세계 어디에서나 안정적인 서비스 엑세스 가능 단점 보안 우려 : 데이터가 외부에 저장되기 때문에 올바른 보안 조치가 필요 인터넷 연결 필요 : 인터..

Cloud 2024.03.03

[글또 9기] 나의 글쓰기 파이프라인과 기존 글 수정하기

들어가며 성윤님께서 진행하시는 글쓰기 세미나를 들었다. 해당 내용을 간단하게 정리하고 실제 나는 어떻게 글을 작성하고 있는지, 어떻게 개선할 수 있는지에 대해서 작성해보려고 한다. 사실 글쓰기 세미나는 1월 중순에 진행되었었는데 글쓰기 세미나 2회차가 진행전에 부랴부랴 글 쓰는 회피형...이제는 구정도 지나 정말 새해이기 때문에 정말 올해 개선 목표로 회피성향 고치기를 꼭 해봐겠다는 생각도 다시금 들었다. 글쓰기 세미나 1회차 성윤님이 글쓰기 세미나를 진행한 목적은 글또에 참여하는 사람들이 기술 블로그를 더 잘 작성할 수 있도록 실행할 수 있는 액션 아이템을 만들 수 있는 계기 자신만의 글 작성 파이프라인을 만들기 이렇게 세 가지라고 명시하셨다. 수강하는 사람들로 하여금 '액션아이템'을 선정해서 '행동'..