본문 바로가기

논문리뷰/응용1

[논문리뷰] PixelLM: Pixel Reasoning with Large Multimodal Model 시작하기 전에해당 논문은 2024년 6월에 CVPR에서 발행된 매우 최신 논문이다. Link논문: https://arxiv.org/pdf/2312.02228코드: https://github.com/MaverickRen/PixelLMI. IntroductionPixelLM이 할 수 있는 것?[Figure 1]의 4가지라고 한다. 예시로 Multi-target의 첫 번째 그림을 보면, 유저가 서핑 도구가 있는 이미지와 "서핑을 하려면 이미지의 어떠한 도구를 사용해야 하는가?"라는 텍스트를 입력값으로 넣으면 "sail을 사용하여 어떠한 행동을, board를 사용하여 어떠한 행동을 하면 된다."라는 텍스트 결과값과 이미지에 sail과 board를 색으로 표시해준다.문제 정의1) 기존 LLM'전체' 이미지에 대한.. 2024. 7. 8.

이전 1 다음

티스토리툴바