본문 바로가기

논문리뷰3

[논문리뷰] Attention is All You Need (Transformer) 시작하기 전에해당 논문은 2017년 6월 NIPS에서 발행된 논문이다. Link논문: https://arxiv.org/pdf/1706.03762코드: https://github.com/huggingface/transformersI. IntroductionRecurrent model은 순차적으로 진행된다는 특징으로 인해 병렬 실행이 불가능했다. 또한 Attention은 recurrent network와 같이 사용되어왔다.Transformer는 온전히 attention 메커니즘만으로 되어있는 모델이며, 병렬 실행이 가능하고 번역 퀄리티도 매우 좋았다. 아래에서 더 자세히 살펴보자.II. ModelTransformer 모델[Figure 1]과 같다. 5개의 메인 구성을 살펴볼 것이다.Encoder and De.. 2024. 8. 17.
[논문리뷰] Denoising Diffusion Probabilistic Models (DDPM) 시작하기 전에해당 논문은 2020년 12월에 NIPS에서 발행된 논문이다.(수식이 많은 관계로 핸드폰으로 보기엔 힘들 수 있습니다) Link논문: https://arxiv.org/pdf/2006.11239코드: https://github.com/hojonathanho/diffusionI. IntroductionDDPM이 할 수 있는 것?이 논문은 Diffusion model의 기초다. Diffusion model은 쉽게 말해, 온전한 이미지(\(x_{0}\))에 Gaussian noise를 추가하는 과정을 반복해 균일한 분포의 이미지(\(x_{T}\))로 변환하고, denoise하는 과정을 반복해 다시 이미지를 생성하게 된다. Denoise하는 과정만 보면 균일한 분포의 이미지, 즉 입력 이미지 없이도 .. 2024. 8. 15.
[논문리뷰] PixelLM: Pixel Reasoning with Large Multimodal Model 시작하기 전에해당 논문은 2024년 6월에 CVPR에서 발행된 매우 최신 논문이다. Link논문: https://arxiv.org/pdf/2312.02228코드: https://github.com/MaverickRen/PixelLMI. IntroductionPixelLM이 할 수 있는 것?[Figure 1]의 4가지라고 한다. 예시로 Multi-target의 첫 번째 그림을 보면, 유저가 서핑 도구가 있는 이미지와 "서핑을 하려면 이미지의 어떠한 도구를 사용해야 하는가?"라는 텍스트를 입력값으로 넣으면 "sail을 사용하여 어떠한 행동을, board를 사용하여 어떠한 행동을 하면 된다."라는 텍스트 결과값과 이미지에 sail과 board를 색으로 표시해준다.문제 정의1) 기존 LLM'전체' 이미지에 대한.. 2024. 7. 8.