Für zwei Augen: Stereo-Panorama

Nachdem der Hype 3D-TV verebbt ist, macht seit Anfang 2016 eine neue alte 3D-Technik ziemlichen Wirbel: Das Cardboard von Google, das Stereoskop für's Smartphone.
Erinnern Sie sich noch an die Plastikgucker Viewmaster, die man vor 40 Jahren auf jedem Rummelplatz an der Losbude gewinnen konnte ? Damit konnte im Vor-Smartphone-Zeitalter Jung und Alt eine Bilderserie zu Grimm's Märchen in Stereo anschauen. Das Cardboard ist nichts anderes, nur dass die Bilder oder Filme auf dem Handy-Display dargestellt werden. Dabei zeigt das Display zwei Bilder des gleichen Motivs ("side-by-side", kurz: SBS) aus leicht unterschiedlichen Perspektiven aufgenommen gleichzeitig nebeneinander.
3D, genauer gesagt stereoskopisches 3D (s3D), ist also ganz und gar nicht tot.
Das Thema nimmt nur einen neuen Anlauf, mit uralter Technik in neuem Gewand.
Während man früher eine Scheibe mit "Hänsel und Gretel" in den Viewmaster steckte, lädt man heute s3D-Videos und am Rechner generierte virtuelle Welten ("virtual reality", kurz: VR) von Youtube.

Aber Panoramafotografie in s3D – das geht eigentlich gar nicht.

Der Nodalpunkt, genauer gesagt die Eintrittspupille des Objektivs, ist der Punkt, um den sich in der Panoramafotografie alles dreht. Dabei werden alle zu stitchenden Aufnahmen einer Aufnahmenserie aus exakt der selben Perspektive aufgenommen. Und nur dann lassen sich die Aufnahmen frei von Parallaxenfehlern zu einem Panoramam stitchen - pixelgenau.

Für den Aufsatz "Kritisch ist nur der Nahpunkt" hatte ich bereits vor Jahren berechnet, wie genau an einem Panoramasystem der Nodalpunkt eingestellt werden muss: Die zulässige Abweichung beträgt 1,5 Millimeter pro Meter Abstand zum Nahpunkt. Entsprechend muss ein parallaktischer Winkel deutlich kleiner als 0,1° sein.

3D-Fotografie, genauer gesagt "Stereoskopie" stellt ganz andere Anforderungen an die korrespondierenden Aufnahmen zu einem 3D-Bild: Damit unser Gehirn in zwei 2-dimensionalen Bildern räumliche Tiefe wahrnimmt, müssen beide Aufnahmen aus unterschiedlichen Perspektiven aufgenommen sein. Durch den Kamera- oder Objektivabstand bei der Aufnahme (die Stereo-Basis) und die Tiefenstaffelung im Sujet entsteht ein parallaktischer Winkel, der umso größer ist, je kürzer der Abstand zum Nahpunkt im Sujet und je größer die Stereo-Basis ist. Räumliche Wahrnehmung in s3D ist nur aufgrund der Parallaxe möglich.

s3D-Fotografen fotografieren meist mit zwei identischen Kameras, die nebeneinander auf eine Halterung montiert sind und synchron ausgelöst werden. Die Alternative ist, dass man zwei sequentielle Aufnahmen mit nur einer Kamera aus leicht variierter Kameraposition macht.

Wenn man es danach schafft, mit dem linken Auge das Bild der linken Kamera und gleichzeitig mit dem rechten Auge das Bild der rechten Kamera anzuschauen, z.B. mit Hilfe eines Stereoskops, nimmt unser Gehirn die räumliche Tiefe entsprechend der Breite der Stereobasis bei der Aufnahme wahr. Jede Störung im Bild, z.B. wenn belebte Szenen nicht zeitlich synchron aufgenommen wurden, kann dazu führen, dass in der Wahrnehmung das Stereo-Bild zerfällt. Die räumliche Tiefe nimmt man immer senkrecht zur Verbindungslinie der beiden Kamerapositionen bei der Aufnahme, also senkrecht zur Stereobasis, wahr. Bei der beschriebenen Aufnahmetechnik lässt sich die Breite und Orientierung der Stereobasis nicht beliebig variieren. Selbst wenn man die beiden Kameras so eng wie technisch machbar montiert, kommt man kaum unter 70mm Breite für die Stereobasis.

Ein guter räumlicher Eindruck entsteht beim Betrachten dann, wenn bei der Aufnahme die Breite der Stereo-Basis in einem entsprechenden Verhältnis zur Nahpunktdistanz stand und der parallaktische Winkel etwa 1° beträgt. Die Stereobasis bei der Aufnahme beträgt dann typisch 1/30 des Abstands zum Nahpunkt. Stereo-Fotografie verlangt also einen parallaktischen Winkel, der 10x größer ist als der maximal zulässige parallaktische Winkel in der Panoramafotografie.

Panoramafotografie und 3D-Fotografie stellen also genau konträre Anforderungen an die Aufnahmetechnik. Panoramafotografie in 3D, genauer gesagt Panoramafotografie als stereoskopische Aufnahme, erscheint daher zunächst wie die Quadratur des Kreises.

Doch wie war das mit der Hummel ?
Angeblich kann die Hummel nach den bekannten Gesetzen der Physik gar nicht fliegen.
Aber die Hummel weiß das nicht – und fliegt trotzdem.

Welche Ansätze gibt es denn für Panoramafotografie in Stereo ?

1. Der „einfachste“ Weg ist der, dass man ein Panorama nicht „gewölbt“ stitcht, sondern eine Kamera mit Shift-Objektiv verwendet: „flat stitching“ ist da das Schlagwort. Näheres dazu hier. Man kann dann die Kameraposition (genauer gesagt die Objektivposition) nach der ersten Aufnahmenserie verändern und die zweite Serie aus geänderter Perspektive aufnehmen. Die flach gestitchten (Flächen-)Panoramen lassen sich dann zu Anaglyphen weiterverarbeiten, z.B. mit dem StereoPhotoMaker (kurz: „SPM“). Die Limitierung dieser Methode besteht in folgenden Punkten:

1.1. Der so erfassbare Bildwinkel für das Panorama ist auf den Bildkreis des Objektiv limitiert. Das sind in der Regel unter 150° horizontal.

1.2. Die Notwendigkeit für ein Shift-Objektiv. Wer hat so was ?

1.3. Die Stereobasis steht fest im Raum und die räumliche Tiefe ist nur quer zur Verbindungslinie der beiden Kamerapositionen bei der Aufnahme wahrnehmbar.

1.4 Die Stereobilder sind zeitlich nicht synchron aufgenommen.

2. Ein deutlich größerer Bildwinkel oder gar voll sphärische Panoramen sind nur mit der unter Panoramafotografen üblichen Technik des Schwenkens der Kamera um den Nodalpunkt und dem gewöbten Stitchen abzubilden. Aber in 3D bzw. Stereo ?

2.1 Zunächst ist es naheliegend, dass der Panoramafotograf ein Sujet zunächst von einer Stativposition aufnimmt, dann diese Position etwas verändert und dann mit der gleichen Einstellung das zweite Panorama aufnimmt. Die Stereobasis ist dann der Abstand der beiden Stativpositionen. Aber: Der räumliche Eindruck entsteht auch hier nur senkrecht zur Stereobasis. Da beide Stativpositionen statisch sind, steht auch die Stereobasis bei beiden Panoramen fest im Raum. Ein so aufgenommenes voll sphärisches Panorama könnte also nur quer zur Stereobasis in einem eng begrenzten Bereich einen räumlichen Eindruck vermitteln, inder abgebildeten Anordnung also nur im "Norden" und "Süden". Im linken Panorama sieht man im "Osten" die rechte Stativposition, im rechten Panorama sieht man die linke Stativposition im "Westen".
Der parallaktische Winkel in O-W-Richtung ist null. Das ergibt kein Stereobild.

2.2 Stereo-Fotografen fotografieren meistens mit zwei identischen Kameras, die sie synchron auslösen. Der Abstand der beiden parallel ausgerichteten optischen Achsen ist die Stereobasis, also der Augenabstand der beiden Kameras. Der naheliegende Ansatz für Panoramafotografie mit so einem Setup („TwinSet“) ist, dass man die beiden fest verbundenen Kameras um eine vertikale Achse rotiert, die genau zwischen den beiden Eintrittspupillen deren Verbindungslinie schneidet.
Wenn man dann die Aufnahmenserien der beiden Kameras getrennt stitcht, entstehen zwei Panoramen mit einer definierten Stereobasis, die um die Panoramaachse rotiert. Die beiden Aufnahmenserien können dann zu einem Stereo-Panorama weiterverarbeitet werden. Aber auch hier gilt, dass die Aufnahmen in jeder beiden Serien a priori nicht parallaxefehlerfrei gestitcht werden können.

2.3. Seit ein paar Jahren gibt es die sehr brauchbare Stereokamera Finepix Real 3D W3 von Fuji mit zwei Objektiven. Und im Hype des 3D-TV vermarktete Panasonic für das MFT-System eine Stereolinse mit ca. 2cm Stereobasis. Grundsätzlich lassen sich diese Kameras für Panoramafotografie in Stereo nutzen. Alle bereits unter 2.2 dargelegten Merkmale bleiben auch hier bestehen.

2.4. Die Autoren Shmuel Peleg und Moshe-Ben-Ezra haben bereits 1999 veröffentlicht, wie man prinzipiell mit nur einer Video-Kamera und nur einem Objektiv stereografische Aufnahmen mit bis zu 360° horizontalem Bildwinkel erstellen kann. Sie nannten das etwas großspurig „Omnistereo Imaging“. Das beschriebene Verfahren geht davon aus, dass man aus einer Vielzahl von Aufnahmen (daher Video !) schmale vertikale Streifen aus der rechten Bildhälfte zum "linken Panorama" und ebensolche von der jeweils linken Bildhälfte zum "rechten Panorama" flach zusammensetzt ("flat stitching"). Grundsätzlich geht das.

Allem Anschein nach verwendet Google beim Street-View mit dem Jump-Setup, einer ringförmigen Anordnung von 16 GoPro-Kameras genau dieses Verfahren.

2.5 Modifiziertes OmniStereo-Setup: Das wesentliche Merkmal der von Peleg in 2.4 beschriebenen Methode bei der Panoramagenerierung ist, dass die Streifen flach aneinander gereiht werden, wie ein Mosaik. Aber grundsätzlich spricht nichts dagegen, dass man linke und rechte Teilbilder (Segmente) wie in der "normalen" Panoramafotografie üblich, wölbt und dann sphärisch stitcht, also unter Zuhilfenahme einer konventionellen Stitchingsoftware. Dann spricht grundsätzlich auch nichts gegen die Abbildung eines großen vertikalen Bildwinkels. Der Begriff "Omnistereo" erscheint dann eher angemessen. Allerdings bleiben trotz dieser Modifikation zwei Merkmale erhalten: Damit keine sichtbaren Stitchingfehler auftreten, müssen viele schmale Segmente gestitcht werden. Und da korrespondierende Segmente (also linkes und rechtes Segment des selben Motivbereichs) aus zeitlich versetzten Aufnahmen stammen, sind das linke und rechte Panorama nicht zeitlich synchronisiert.
Anmerkung (Dez 2017): Mehr zum Stitchen dieser Aufnahmenserien hier

3. Mit einem ähnlichen Ansatz wie bei der Berechnung der zulässigen Abweichung der Nodalpunktposition konnte ich auch die Bedingungen (Aufnahme- und Stitching-Bedingungen) für perfekt stitchende stereografische Panoramaaufnahmen bei versetzter Kamera in geschlossener Form formulieren. Das geht tatsächlich - und das ist dann wirklich OmniStereo.
Der Trick: Aus dem Bildkreis des Objektivs verwendet man genau definierte Bereiche, abhängig von der Abbildungsfunktion des Objektivs. Den erforderliche Grenzverlauf ("Naht") zwischen beanchbarten Aufnahmenkonnte ich als Funktion von der Projektion des verwendeten Objektivs berechnen und im Stitchingprozeß von PTGUI kontrollieren. So lässt sich der exakte Verlauf der Nähte im Panorama im Stitchingprozeß steuern und der gesamte zu erwartende Stitchingfehler derart auf die „Nähte“ verteilen, dass er in der VR-Darstellung nicht mehr wahrnehmbar ist – ganz in Analogie zur Schärfentiefe, wo die unvermeidbare Unschärfe unter die Wahrnehmungsgrenze absinkt.

Mit diesem Ansatz lassen sich die notwendigen Aufnahmebedingungen für technisch realisierbare Aufnahme-Setups zur Stereo-Panoramafotografie in geschlossener Form berechnen, also die notwendige Rastung bzw. der Drehwinkel zwischen den Aufnahmen für eine gegebene Nahpunktdistanz, der erforderliche Nodalpunktversatz und damit die resultierende Stereobasis- und nicht zuletzt die Parameter für den Beschnitt bzw. die optimale Maskierung der Quellbilder beim Stitching-Prozeß mit PTGUI.
Am Ende wird dann wieder alles ganz "einfach". Alles reduziert sich auf wenige Standard-Aufnahmebedingungen, in denen nur noch die Nahpunktdistanz variabel ist und die Breite der Stereo-Basis definiert.

In der Praxis geht es dann tatsächlich genau wie beschrieben - egal welchen Aufbau man verwendet, ob den OmniStereo-Aufbau nach 2.4 bzw. 2.5 mit nur einer Kamera oder mit dem TwinSet-Aufbau nach 2.2.

Ein auch im Nahbereich perfekt gestitchtes voll sphärisches Stereo-Panorama ist also tatsächlich grundsätzlich machbar.
Mit einem Vielfachen des Augenabstands, also entsprechend großer Stereo-Basis, lassen sich auch s3D-Landschaftspanoramen erstellen. Für diesen Zweck modifizierte ich einen Slider zum TwinSet (Aufbau hier im Bild: "Gemischtes Doppel"). Ein ferngesteuerter Seitz VR Drive Motorkopf übernimmt in dem Fall die Rastung wie auch die synchrone Kameraauslösung.

Die native Auflösung eines solchen s3D-Panoramas kann je nach verwendeter Kamera-Objektivkombination 20k Pixel Breite und mehr betragen.
Doch für die flüssige und Latenz-freie Darstellung auf den aktuellen Handys mit deren Gyro-Steuerung müssen die Panoramen recht stark komprimiert werden. In der zugrundeliegenden Würfelprojektion sollte eine Würfelfläche daher nur einige hundert kB groß sein.
Für die Aufnahmen verwendete ich bisher diverse Nikon-DSLRs und Systemkameras (D800, D750, Sony A7IIR, Fuji-X) mit entsprechenden Samyang-Fisheyes - sowohl mit Setup 2.5 als auch mit dem TwinSet gemäß 2.2. Am TwinSet sind auch Misch-Konfigurationen, z.B. eine D750 und eine D800 oder eine Fuji-X-T1 mit einer anderen Fuji-X (wie beim Landschaftspano s.o.) kein Problem, solange das gleiche Objektiv verwendet wird. Die größte Herausforderung ist dabei meist die "Elektrik", also die Synchronisation der beiden Kameras.
Allerdings muss ich die Begeisterung von willigen Einsteigern in das Thema etwas dämpfen: Es war selbst für mich als erfahrenen Panoramafotografen ein sehr langer und mühsamer Weg, bis ich die gesamte Prozeßkette von der vergleichsweise anspruchsvollen Aufnahmetechnik über das fehlerfreie Stitchen von korrespondierenden Aufnahmeserien bis zur wirkungsvollen s3D-Darstellung mit krpano zuverlässig beherrschte.

In den letzten Monaten habe ich mit diesem Ansatz viele Stereo-Panoramen angefertigt, auch als Auftragsarbeit. Ich kann heute davon ausgehen, dass sich dieses Verfahren soweit optimieren lässt, dass s3D-Panoramen absolut fehlerfrei stitchbar sind. Noch ist völlig offen, in wieweit diese Technik kommerzielle Bedeutung haben wird. Aber Fakt ist, dass sie funktioniert, zuverlässig und deterministisch – und wirklich OmniStereo auf 360° x 180°, sozusagen "Verax OmniStereo" - und das unabhängig vom Aufnahmeabstand.

Zum Betrachten eines s3D-Panoramas in Anaglyphendarstellung ist eine Anaglyphenbrille notwendig. Für die VR-Tour braucht's dann das eingangs erwähnte Pendant zum Plastikgucker von damals, das Cardboard - inzwischen biologisch abbaubar, noch besser eine VR-Brille aber nicht wirklich die teuere Oculus Rift.

Hinweis: Alle Panos sind mit den Samyang Fullframe Fisheyes aufgenommen (Nikon D750/D800 & f2,8/12mm Samyang bzw. Fuji-X & f2,8/8mm Samyang). Der vertikale Bildwinkel beträgt dabei ca. 150°. Die hohe native Auflösung all dieser Panos wurde in krpano für eine flüssige Darstellung auf dem Handy-Display auf magere 7200 Pixel Breite (20 Pixel/°) reduziert. Auch den Dynamikumfang habe ich durch hohe JPG-Kompresssion soweit eingedampft, dass die Dateigröße jeder Würfelfläche unter 300kB beträgt.

Danke an Sven und Simon, die mir für die TwinSet-Tests immer gerne ihre Kamera geliehen haben.

Aktuelle Stereo-Panos vom Marionettentheater in Bad Tölz, aufgenommen mit der Fuji-X:
1. Pano
2. Pano
3. Pano

Erste Fassung vom März 2016, überarbeitet November/Dezember 2016

Header Pano Rotation

Blog-Eintrag