Apple выпустила открытую модель быстрой конвертации 2D-фото в 3D-гауссианы SHARP

Отдел машинного обучения корпорации Apple без лишнего шума совершил тихую революцию на рынке конвертации плоских фотографий в объёмные, выпустив Sharp — модель машинного обучения, которая может трансформировать фотографии и рендеры (в том числе сгенерированные) в чёткие объёмные сцены в формате гауссиан в более высоком качестве, чем все предыдущие модели, и за более короткое время.

Модель доступна свободно и запускается на обычной видеокарте на любом компьютере (код вокруг модели написан на Python) или на чипе Apple; конвертация проходит за секунды вместо минут и часов. На вход принимаются любые фото, модель сама высчитывает карту глубины независимо от того, есть ли она внутри фотографии. На выходе модели получается файл с 1.2 миллионами гауссиан независимо от входного разрешения.

Пользователи Твиттера сразу же испытали модель в VR. Оказалось, что модель позволяет предсказывать по единственной фотографии очень близкие к исходной фотографии сцены с объёмом вплоть до каждой песчинки, внутри которых можно ходить. При этом модель не пытается галлюцинировать то, что чего не было на фотографии; вместо невидимых участков в модели так и остаются дыры, которые, правда, прикрываются соседними гауссианами и позволяют спокойно осматривать сконвертированную сцену.

Сконвертированные сцены можно как смотреть в обычных VR-просмотрщиках гауссиан (Metal Splatter для AVP, веб-просмотрщик superspl.at), так и загружать в другие VR-приложения или социальные платформы типа VRChat с дополнительными просмотрщиками гауссиан типа Spatialograph Maker; пользователь Guus de Kroon сделал тестовый мир с пачкой тестовых сплатов.