Postdoc

Preprint 2025 - Scaling vision SSL to 7B parameters and 1.7B images, achieving unprecedented patch feature quality.

Oriane Siméoni, Huy v. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski

Back to the Features: DINO as a Foundation for Video World Models

ICML Workshop 2025 - Learning physical world models in the latent space of DINOv2 from uncurated web videos.

Federico Baldassarre, Marc Szafraniec, Basile Terver, Vasil Khalidov, Francisco Massa, Yann LeCun, Patrick Labatut, Maximilian Seitzer, Piotr Bojanowski

Back to the Features: DINO as a Foundation for Video World Models

DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment

CVPR 2025 - Locked-image tuning for vision-language alignment using a DINOv2 backbone and a few tricks on top.

Cijo Jose, Théo Moutakanni, Dahyun Kang, Federico Baldassarre, Timothée Darcet, Hu Xu, Daniel Li, Marc Szafraniec, Michaël Ramamonjisoa, Maxime Oquab, Oriane Siméoni, Huy v. Vo, Patrick Labatut, Piotr Bojanowski

DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment

Cluster and Predict Latents Patches for Improved Masked Image Modeling

TMLR 2025 - Stable training of dense image representations using a clustering loss on ViT patch tokens.

Timothée Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski

Cluster and Predict Latents Patches for Improved Masked Image Modeling