Classification 대회 끝!!!!!!! 2주간의 classification 대회가 끝이 났다. 우리 팀은 8등이라는 결과물을 얻어냈다~!!! 8조라서 8등 시작할 때부터 리더보드 순위에 연연하지 말자라고 말은 했지만...... 아예 신경이 안쓰일 수는 없는 법. 오히려 순위를 올리기 위해 여러가지 방법을 시도할 수 있었던 것이 좋았던 것 같다. 2주 간 정말 정말 여러가지를 시도해 보았고 실행했다. 특히 역대급으로 느낀 점이 많았는데 밑에 차차 적어 볼 예정이다. 크게 느꼈던 점은 내 생각은 우물안 개구리라는 것이었다. model에만 집중해서 바꿔가며 실행했는데 동료 캠퍼분들은 data에 초점을 맞추고 data의 결함을 해결함으로써 성능을 올리셨다. EDA는 대충하고 넘어가서 data가 imba..
1) 강의 복습 내용 1. Conditional Genrative Model https://ltsgod.tistory.com/112 Conditional Generative Model 1) Conditional generative model 이것은 무엇인가?? 조건이 주어졌을 때 image를 해석해주는 것을 말한다. 예를 들어 위와 같이 실제 이미지를 가방으로 번역하는 함수가 있다고 한다. 이러한 모델은 조건 ltsgod.tistory.com 2. Multi- Modal(보강 필요) https://ltsgod.tistory.com/116 Multi-Modal 1) Multi-Modal learning Overview Multi-Modal-learning이란 다른 특성을 갖는 data(ex. text, s..
1) Multi-Modal learning Overview Multi-Modal-learning이란 다른 특성을 갖는 data(ex. text, sound)를 같이 활용하는 것을 말한다. 이러한 Multi-Modal이 마주하는 challenge는 다음과 같다. 1. Different representations between modalities - data간의 표현양식이 다르다. 이를 테면 audio 같은 경우는 1d로 표현되고 Image 는 2d 형태로 표현된다. Text 의 경우 embdding vector로 표현되기 때문에 각각에 특성에 맞게 다뤄야한다. 2. Unbalance between heterogeneous feature spaces - feature space에 대한 특징이 unbalan..
1) CLIP(Contrastive Language-Image Pre-training) OpenAI에서 개발한 인공지능 모델입니다. 이 모델은 이미지와 텍스트를 함께 학습하여 이를 활용하여 각각의 정보를 서로 연결하고, 이미지에서 텍스트를 생성하거나 텍스트에서 이미지를 생성하는 작업에 사용될 수 있습니다. CLIP은 텍스트와 이미지 간의 유사성을 학습하는 대신, 이미지와 텍스트가 함께 있는 문장을 이해하도록 학습합니다. 이를 통해, 예를 들어 "검은 색의 개"라는 문장과 "검은 색의 고양이"라는 이미지가 어떻게 연결되는지를 학습할 수 있습니다. 이 모델은 이미지 분류, 이미지 생성, 이미지 검색, 자연어 처리, 질의응답 등 다양한 분야에서 활용될 수 있습니다. 또한, 이미지와 텍스트를 함께 고려하는 다양..
1) Transformer https://ltsgod.tistory.com/94 Transformer 1) Transformer Sequential model이 다루기 힘든 문제들 중간에 시퀀스 데이터가 누락되거나, 순서가 바뀌거나 잘리는 문제들은 Sequential model로 다루기가 쉽지 않다. Transformer 는 Sequential model처럼 재귀적 ltsgod.tistory.com 2) Vision Transformer 이러한 transformer 들을 각각 classification, Detection, Segmentation 에 적용한 사례들을 봐보자. 1. ViTs(Vision Transformers) - classification 먼저 각각 patch 들을 나눠준다. 이 때도 각..
1) 3D Overview 왜 3D가 중요한가?? 우리가 일상적으로 사는 공간이 3D이기 때문이다. 따라서 앞으로 사용하게 될 프로그램에서 이러한 3D를 인식하는 것이 중요할 것이다. 이러한 3D를 적용하는 다양한 분야가 있다. AR/VR 3D printing Medical application 우리가 3D 세상을 어떻게 인식하는가?? 우리는 3D 그대로를 인식하는 것이 아니라 projection 된 2D의 image를 보게 된다. 만약 이러한 이미지가 2개 이상 있다면 우리는 3D로 복원할 수 있다. 3D data는 어떻게 표현하는가?? 우리는 2D image는 3차원 형태로 표현했다. width * height 에 RGB라면 3개의 channel이 가지도록 말이다. 3D data의 경우 unique하..