CV 시작하면서 처음으로 해보는 주제인데 흥미롭다.

DL 개발 하면서도 중간중간 구멍이 뚫려있음을 느꼇었는데 그러한부분을 CV 공부좀만 해보니 채워지는걸 느낀다.
누가 나에게 어떤 공부를 해보겟냐고 제안을 한다는것은 무척이나 기쁘고 설레는일이다.


아무튼 전체적으로 이분야가 unsupervised learning 기법하고도 연관을 많이 지을수 있을것 같은분야이다.

대표적인 논문들 위주로. 그리고 주로 2017년 논문들 내용이 아주 근본있고 좋다.
2020년 이후로 나온 논문들 관행이 생략인지 나름 CV domain specific 한 지식들인데 너무당연하다고 써놓는 내용이 많아서 좀 그렇긴 하다.

Depth estimation

논문 내용
MegaDepth pr 12 참고
Guiding Monocular Depth Estimation Using Depth-Attention Volume 실내의 환경에서는 여러개의 plane 이있다고 가정하고, 그 plane 내 같은점들은 linear dependent 할거라 가정하고 출발! 그 것을 기준으로 Attention map 을 만들고 best plane 끼리의 Distance, 각도 등을 구해서 로스로 사용
From Big to Small: Multi-Scale Local Planar Guidance for Monocular Depth Estimation Local planner guidance, U-net decorder 에 Up sampling 대신 LPG 를 넣음, LPG 는 spatial feature -> ray-평면 inter section 의 계수를 예측하여 depth 를 계산
AdaBins: Depth Estimation using Adaptive Bins (근)Unet decorder 쪽 feature 를 Transformer Decorder 써서 depth estimation 및 bin position estimation 한 것이 특징
   
Unsupervised monocular depth estimation with left-right consistency (근근) 좋은내용이나 Towards scene understanding의 하위버전
Depth Map Prediction from a Single Image using a Multi-Scale Deep Network (근근)비교적 간단함, Coarse, Refined network 를 만들어 각각 global, detail 한 정보를 합침- scale invarient 한 loss 생성
FlowNet 근 of GeoNet
GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 연속된 영상 내가움직인다고 가정했을 때 에서 depth,Optical Flow, Camera Pose 는 모두 연관이 있으며 같이 뽑아야 한다, 움직임에(자율주행 차량) 에 좀더 초첨을 맞춰서 그것을 기반으로 학습을 하려함! pr12 영상 참고
Towards scene understanding: Unsupervised monocular depth estimation with semantic-aware representation region-aware depth estimation by enforcing semantics consistency between stereo pairs. E.G sky - high depth 이런식으로 segment 와 depth 를 연결, e leftright semantic consistency and semantics-guided disparity smoothness 를 이용
Towards robust monocular depth estimation: Mixingdatasets for zero-shot cross-dataset transfer (근)대량의 학습을 통해 영화등 unlabeled data 에서 평가,loss space 별로 비교(여러가지 나열하고 로스에 대한 평가 부분이 있어서 좋음) ,mixing datasets, multi objective optimization loss 를 dataset 별로 세분화시키는것
Excavating the Potential Capacity of Self-Supervised Monocular Depth Estimation (sota2023) data grafting, an exploratory self-distillation loss, nd enhance the representational power of the mode --> streo ->molecure 관점에서 self supervised 로 접근, 지식 총집함이기때문에 첨부터 읽기 힘들수 있음
DwinFormer: Dual Window Transformers for End-to-End Monocular Depth Estimation (sota2023) Swin Trasnfoermer Unet 구조로 쌓은것, Lwin block 조사 필요
Deep Ordinal Regression Network for Monocular Depth Estimation 바로밑의 refer spacing-increasing discretization (SID) strategy to discretize depth and recast depth network earning as an ordinal regression problem, deconv 나 skip connection 을뺏고 ASPP 넣었다. SID 는 로그스케일로 deth map 보는것, ordinal 은 y space 를 퀀타이즈하는것
On the uncertainty of self-supervised monocular depth estimation 멀하겟다는건지.. 그냥베이시안관점으로 uncertainty 를 학습하는듯
Unsupervised learning of depth and ego-motion from video 아래의 선행논문 연속된 video의 차를가지고 Depth 를 추적함 https://www.youtube.com/watch?v=HWu39YkGKvI
Unsupervised learning of geometry from videos with edge-aware 'depth-normal' consistency normal 이 수직방향이라는 뜻, 일단 우리쪽 주제랑 관련이 아주 많아보임
MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer (sota2023)cnn encoding + transformer(섞기) block을 Unet구조로 함

+ Recent posts