Cómo funciona la reconstrucción 3D por imágenes

Aufiero Informática

Equipo técnico

Tomás fotos desde distintos ángulos, las cargás en un software como Agisoft Metashape, presionás un botón y al rato aparece un modelo tridimensional preciso. Parece magia, pero detrás hay un proceso matemático y computacional fascinante. En este artículo explicamos exactamente qué pasa dentro del software: desde la primera imagen hasta el modelo 3D final.

El punto de partida: ¿qué necesita el software?

Para reconstruir una escena en 3D, el software necesita al menos dos fotografías del mismo objeto o zona tomadas desde posiciones diferentes. En la práctica, se usan decenas, cientos o incluso miles de imágenes para obtener mayor precisión y cobertura.

El requisito fundamental es el solapamiento: cada punto del objeto o terreno debe aparecer en al menos dos imágenes, y cuantas más mejor. En fotogrametría aérea se recomienda un solapamiento frontal del 80% y lateral del 60% entre imágenes.

Las etapas del proceso de reconstrucción 3D

Etapa 1 — Detección de puntos característicos (SIFT)

Todo empieza con la búsqueda de puntos distinivos en cada imagen: esquinas, bordes, texturas, contrastes. El algoritmo más usado para esto es SIFT (Scale-Invariant Feature Transform), desarrollado por David Lowe, que detecta puntos que son reconocibles independientemente del ángulo, la escala o la iluminación con que fue tomada la foto.

En la práctica, Metashape detecta decenas de miles de estos puntos por imagen. Cada punto queda descripto por un «descriptor» matemático que representa su entorno visual.

Analogía: es como si el software identificara puntos de referencia únicos en cada foto —una mancha de pintura, el borde de una ventana, una grieta en el piso— y los memorizara para poder reconocerlos en otras fotos.

Etapa 2 — Correspondencia entre imágenes (Matching)

Con los descriptores calculados, el software busca qué puntos de una imagen coinciden con puntos de otras imágenes. Esto se llama feature matching o correspondencia de puntos.

El resultado es una red de correspondencias: el punto A de la foto 1 es el mismo punto físico que el punto B de la foto 3 y el punto C de la foto 7. Cuanto más solapamiento haya entre las fotos, más correspondencias se detectan y más robusto es el modelo resultante.

Los factores que dificultan el matching son superficies uniformes (sin textura), reflejos, zonas muy oscuras o muy brilladas, y objetos en movimiento durante la captura.

Etapa 3 — Structure from Motion (SfM): posición de las cámaras y nube de puntos dispersa

Con las correspondencias establecidas, entra en juego el algoritmo central: Structure from Motion (SfM), que en español significa «Estructura a partir del Movimiento».

SfM resuelve simultáneamente dos problemas:

¿Desde dónde se tomó cada foto? → Calcula la posición y orientación exacta de la cámara en el momento de cada disparo.
¿Dónde está cada punto en el espacio? → Triangula la posición 3D de cada punto coincidente entre imágenes.

El resultado de esta etapa es una nube de puntos dispersa (sparse point cloud): miles de puntos flotando en el espacio que empiezan a esbozar la forma del objeto o terreno. No es densa ni detallada todavía, pero ya define la geometría general y la posición relativa de todas las cámaras.

Este proceso también incluye el Bundle Adjustment: una optimización matemática que ajusta simultáneamente las posiciones de todas las cámaras y todos los puntos para minimizar el error de reproyección. Es computacionalmente intensivo pero fundamental para la precisión final.

Etapa 4 — Multi-View Stereo (MVS): nube de puntos densa

Una vez conocida la posición exacta de cada cámara, el software aplica Multi-View Stereo (MVS) para generar una nube de puntos densa (dense point cloud).

MVS analiza cada par de imágenes como un sistema estereoscópico: usando la geometría conocida de las cámaras, calcula la profundidad de cada píxel en cada imagen. El resultado es una nube con millones o decenas de millones de puntos, cada uno con coordenadas XYZ precisas y valores de color RGB.

Esta es la etapa más exigente en términos de hardware: requiere mucha RAM y se beneficia enormemente de la aceleración por GPU. Un proyecto de 500 fotos puede generar una nube de más de 100 millones de puntos.

Etapa 5 — Generación de malla (Mesh)

La nube de puntos es una colección de puntos aislados. Para obtener una superficie continua y cerrada, el software aplica algoritmos de reconstrucción de superficie que conectan los puntos y generan una malla poligonal (mesh): una red de triángulos que define la forma del objeto.

En Metashape, esta etapa se puede configurar con distintos niveles de detalle (bajo, medio, alto, ultraalto) según la necesidad y los recursos de hardware disponibles.

Etapa 6 — Texturizado

La malla tiene la geometría correcta, pero todavía se ve como un modelo gris sin color. En la etapa de texturizado, el software proyecta las fotografías originales sobre la malla para generar una textura fotorrealista.

El resultado es un modelo 3D que no solo tiene la forma exacta del objeto real, sino también su apariencia visual completa: colores, materiales, detalles superficiales.

Etapa 7 — Georreferenciación (solo en Professional)

En flujos de trabajo topográficos o de cartografía, se agrega una etapa adicional: la georreferenciación. Usando puntos de control en tierra (GCP) con coordenadas reales conocidas (relevadas con GPS de precisión), el software transforma el modelo de un sistema de coordenadas relativo a uno absoluto, expresado en un sistema de referencia geográfico real (por ejemplo, WGS84 o POSGAR 07 en Argentina).

Esta etapa es la que permite obtener ortofotos, modelos de elevación y nubes de puntos con coordenadas métricas reales, aptas para uso en GIS, topografía y cartografía oficial.

Los productos finales que puede generar el proceso

Dependiendo del software y las etapas ejecutadas, el proceso de reconstrucción 3D puede generar:

Producto	Descripción	Usos principales
Nube de puntos densa	Millones de puntos XYZ con color	Topografía, inspección, archivo
Malla 3D texturizada	Modelo poligonal con textura fotorrealista	Visualización, patrimonio, videojuegos
Ortomosaico	Foto aérea corregida geométricamente	Cartografía, GIS, agricultura
DEM / DTM	Modelo digital de elevación del terreno	Topografía, hidrología, volúmenes
Curvas de nivel	Isolíneas de altura	Planos topográficos, construcción

¿Qué factores afectan la calidad del resultado?

La calidad del modelo 3D final depende de varias decisiones tomadas antes y durante la captura:

Solapamiento entre imágenes: más solapamiento = más puntos en común = modelo más robusto. Mínimo recomendado: 70-80% frontal y 60% lateral.

Textura de la superficie: superficies con textura rica (piedra, tierra, vegetación) se reconstruyen mucho mejor que superficies lisas, brillantes o uniformes (vidrio, agua, metal pulido).

Iluminación: la luz uniforme y difusa favorece la detección de puntos. Las sombras muy marcadas o los brillos directos dificultan el matching.

Resolución de las imágenes: a mayor resolución, mayor detalle en el modelo final. Sin embargo, más resolución también implica mayor tiempo de procesamiento.

Cantidad de fotos: más fotos permiten cubrir zonas sin solapamiento, mejorar la precisión y completar áreas problemáticas.

¿Cómo hace esto Agisoft Metashape?

Metashape implementa cada una de estas etapas de forma integrada en una sola interfaz, con parámetros configurables para cada paso. El flujo típico en Metashape es:

Cargar imágenes al proyecto
Alinear fotos → ejecuta detección SIFT, matching y SfM → genera nube dispersa
Construir nube densa → ejecuta MVS → genera nube densa
Construir malla → genera superficie poligonal
Construir textura → proyecta fotos sobre la malla
(Solo Professional) Configurar GCPs → Exportar a formatos GIS

Cada etapa es configurable en calidad y parámetros avanzados, lo que permite equilibrar precisión y tiempo de procesamiento según las necesidades del proyecto.

Conclusión

La reconstrucción 3D por imágenes no es un proceso mágico: es matemática, geometría y visión por computadora trabajando en conjunto. Entender cómo funciona cada etapa —desde la detección SIFT hasta el texturizado final— permite tomar mejores decisiones en la captura de imágenes, configurar el software de forma más inteligente y anticipar los problemas antes de que aparezcan.

Si querés aplicar este proceso en tu trabajo con Agisoft Metashape, en Aufiero Informática podemos ayudarte a elegir la licencia correcta y acompañarte en los primeros pasos.

👉 Conocé Agisoft Metashape en Aufiero Informática

Preguntas frecuentes

¿Cuántas fotos se necesitan para reconstruir un objeto en 3D?
Depende del tamaño y complejidad del objeto. Para un objeto pequeño (una pieza arqueológica, por ejemplo) pueden ser suficientes 50-100 fotos bien tomadas. Para un edificio completo se necesitan varios cientos, y para un vuelo topográfico de gran extensión, miles.

¿Qué diferencia hay entre SfM y fotogrametría tradicional?
La fotogrametría clásica requería cámaras calibradas de precisión y posiciones de captura muy controladas. SfM automatiza la calibración de la cámara y la determinación de las posiciones a partir de las imágenes mismas, lo que lo hace mucho más accesible y flexible.

¿Por qué el vidrio y el agua no se reconstruyen bien?
Porque son superficies especulares: reflejan la luz de forma variable según el ángulo de visión, lo que hace que el mismo punto se vea diferente en cada foto. El algoritmo de matching no puede establecer correspondencias confiables en esas condiciones.

¿Cuánto tiempo tarda en procesarse un modelo 3D?
Varía enormemente según la cantidad de fotos, la resolución y el hardware. Un proyecto pequeño (100 fotos) puede tardar 30 minutos en un equipo moderno. Un proyecto grande (2.000 fotos en alta calidad) puede requerir varias horas o procesamiento overnight.

Aufiero Informática

Distribuidor oficial de Agisoft Metashape en LATAM. Más de 15 años acompañando proyectos de fotogrametría, ingeniería, agro y patrimonio en la región.

Contactar

ARTÍCULOS RELACIONADOS