Visual Computing and Communication
Ferienakademie 2010, Kurs 7
Die Ferienakademie 2010 findet vom 19. September bis 1. Oktober 2010 im Sarntal, Südtirol statt.
Für weitere Informationen sowie zur Bewerbung besuchen Sie bitte http://www.ferienakademie.de/.
Der Bewerbungsschluss war der 23. Mai 2010.
Im Kurs 7 werden einige Themen aus dem Bereich Visual Computing and Communication behandelt, wobei der Schwerpunkt auf Multi View Imaging liegt, also der Verarbeitung von mehreren Bildern oder Ansichten einer Szene.
Die Einführung von Merkmalsdeskriptoren wie SIFT [19] und SURF [5] hat es möglich gemacht, diese verschiedenen Ansichten schnell und zuverlässig zueinander in Beziehung zu bringen (zu Registrieren) und in den letzten Jahren zur Veröffentlichung einer Vielzahl neuer Methoden geführt.
Zunächst erfolgt die Betrachtung einiger Grundlagen zur Geometrieschätzung, Registrierung und Feature-Erkennung.
Diese sollen anschließend auf einige interessante Applikationen angewandt werden, wie z.B. High Dynamic Range Imaging, Erstellung von Panoramaaufnahmen, Bildlokalisierung und die automatische Entfernung von störenden Bildbereichen.
Vorträge
Jeder Teilnehmer hat einen Slot von 90 Minuten und kann diesen relativ frei gestalten.
Es gibt beispielsweise folgende Möglichkeiten:
Interaktive Entwicklung einer Methode am Whiteboard, Vorführung eines Demo-Programms oder natürlich eine PowerPoint Präsentation.
Die Hälfte des Slots soll für Diskussion, Fragen und Interaktion mit dem Publikum reserviert sein.
Eine mögliche Aufteilung ist also 45 Minuten PowerPoint Präsentation, 45 Minuten Fragen und Diskussion.
Damit werden pro Session ca. 2 Vorträge gehalten.
Vortragssprache ist deutsch, Ausnahmen sind jedoch bei Bedarf möglich.
Beschreibungen anzeigen
- Camera Models & Calibration
Ein Kameramodell beschreibt die Projektion einer 3D-Szene in ein 2D-Kamerabild ( [23] Kapitel 6).
Häufig arbeitet man mit einem idealisierten Lochkameramodell.
Mithilfe der intrinsischen Kameraparameter (z.B. Brennweite, Öffnungswinkel, Auflösung) ist die Umrechnung von 3D Kamerakoordinaten zu Pixelkoordinaten möglich.
Reale Kameras entsprechen nicht diesem idealen Modell, weshalb man meistens noch einige Verzerrungsparameter einführt.
Die Stellung der Kamera im Raum wird durch die extrinsischen Parameter bestimmt.
Im Rahmen der Kamerakalibrierung [34], [18] werden die genannten Parameter zum Beispiel mittels eines Referenzpattern geschätzt.
- Color Models & Color Calibration
Für eine natürliche Darstellung von Bildern oder die Kombination verschiedener Bilder ist eine Farbkalibrierung unbedingt erforderlich. Abhängig von der Beleuchtung eines Objekts, der verwendeten Kamera oder der durchgeführten Nachverarbeitungsschritte können sich die Farben in einzelnen Aufnahmen sehr stark unterscheiden. Um diesen Effekt rückgängig zu machen, müssen die Farben der aufgenommenen Bilder aufeinander abgestimmt werden, d.h. das Aufnahme und Verarbeitungssystem muss entsprechend kalibriert werden. Dabei kommt den verwendeten Farbmodellen eine besondere Bedeutung zu, da durch diese gesteuert wird, auf welche Art sich die einzelnen Farben zusammensetzen und welche Farben überhaupt dargestellt werden können. [29], [25], [11]
- Interest/Corner Point Detectors
Interest-Operatoren werden verwendet um markante Stellen in Bildern zu finden, wie zum Beispiel Ecken.
Die Punkte sollen in einer lokalen Umgebung möglichst einzigartig sein, so dass sie auch bei kleinen Bildänderungen robust bleiben.
Viele Algorithmen verwenden Interest-Operatoren, um die gefundenen Stellen genauer zu analysieren (z.B. für Matching).
Neben der Detektion von Ecken wird auf häufig nach Regionen gesucht, die heller oder dunkler als die Umgebung sind (Blobs).
Es gibt eine Vielzahl verschiedener Algorithmen (z.B. [35], [15]) von denen einige in diesem Vortrag vorgestellt werden sollen.
Ein Überblicksartikel in [7] geht auf die verschiedenen Ansätze ein und zeigt die historische Entwicklung auf.
- The SURF Feature Descriptor
SURF (Speeded up robust features) [5] ist ein Algorithmus zur Extraktion und Beschreibung lokaler Bildmerkmale.
Die Methode ist eine Alternative zu SIFT (siehe unten) und verwendet ähnliche Ideen, sie ist aber deutlich jünger und insbesondere schneller.
- The SIFT Feature Descriptor
SIFT (Scale-invariant feature transform) [19] ist ein Algorithmus zur Extraktion und Beschreibung lokaler Bildmerkmale.
Zunächst werden markante Bildregionen gesucht (vgl. Interest Point Detectors), die anschließend mit einem Vektor aus gerichteten Intensitätsgradienten beschrieben werden.
Dieser so-genannte Deskriptor ist invariant gegenüber Rotation, Skalierung und bestimmten Beleuchtungsschwankungen und erlaubt damit ein sehr schnelles und robustes Auffinden von lokalen Bildbereichen.
Die Methode ist flexibel einsetzbar und wird für viele verschiedene Applikationen wie Registrierung von Bildern, Bilddatenbanken oder Tracking verwendet.
[21], [3], [4]
- Feature Matching & RANSAC
Wenn Bilder (teilweise) die gleiche Szene zeigen, finden sich darin viele gleiche oder ähnliche SIFT/SURF Deskriptoren.
Dadurch lassen sich Bildpositionen in Bild A entsprechende Positionen in Bild B zuordnen ( [10], [13]).
Dabei entstehen jedoch auch Fehlzuordnungen zwischen Bildbereichen, die zwar evtl. ähnlich aussehen, jedoch nicht identisch sind.
Mittels RANSAC ( [36], [23] Abschnitt 4.7) können diese Fehler gefunden werden, indem quasi nach der Mehrheitsmeinung der Feature-Zuordnungen gesucht wird.
- Geometry Estimation
Wenn mehrere Ansichten einer Szene sowie ein Szenenmodell vorliegen, kann die die geometrische Beziehung zwischen den Aufnahmen bestimmt werden.
Dies kann z.B. über die fundamentale Matrix erfolgen ( [23] Kapitel 9, 10).
Aus dieser Matrix kann die relative Kameratranslation und -rotation bestimmt werden (extrinsische Kameraparameter, siehe oben).
Im Vortrag sollen Methoden für verschiedene Szenarios vorgestellt werden wie z.B.:
Statisches Kamerazentrum, aber freie Rotation (Panoramaaufnahmen, [10]); freie Kameraposition und -lage mit planarer Szene; freie Kameraposition und -lage mit 3D-Modell der Umgebung [22].
Aus einem Szenenmodell lassen sich auch die internen Kameraparameter bestimmen.
Dadurch wird eine Vorab-Kamerakalibrierung unnötig.
Außerdem ist auch der umgekehrte Prozess möglich, nämlich die Erstellung eines 3D Szenenmodells durch Triangulation bei bekannten Kamerapositionen ( [14]).
- Image Projections & Re-sampling
Resampling von Bilddaten mit Objektivverzeichnung Bei der Aufnahme von Bildern muss man immer berücksichtigen, dass die meisten Objektive eine deutliche Verzeichnung besitzen. Das hat zur Folge, dass z.B. ursprünglich gerade Linien entweder nach außen (bei tonnenförmiger Verzeichnung) oder nach innen (bei kissenförmiger Verzeichnung) gebogen werden. Dabei nimmt im Normallfall die Verzeichnung von der Bildmitte nach außen hin zu. Will man nun einzelne Bilder miteinander kombinieren, muss diese Verzeichnung rückgängig gemacht werden, d.h. das Bild muss auf ein neues Abtastraster gebracht werden, das der Verzeichnung des Objektivs entspricht. Um dies erreichen zu können ist eine genaue Kenntnis der Objektiveigenschaften nötig, die aber entweder errechnet oder gemessen werden kann. Weiterhin erfolgt bei der Erzeugung von Panoramen eine Projektion der kombinierten Bilder auf die Innenseite eines Zylinders oder einer Kugel. Um dies zu erreichen muss eine Umtastung des erzeugten Bildes auf dieses verzerrte Abtastgitter erfolgen. [29], [8], [24]
- Texture Classification
Die meisten Bilder lassen sich sehr gut in einzelne Bereiche ähnlicher Textur einteilen. Dabei beschreibt eine Textur sich in ähnlicher Weise wiederholende Bildbereiche. Um den Aufbau einer Textur zu ermitteln, muss diese klassifiziert werden, d.h. es muss die Grundstruktur erfasst werden, und die Art und Weise, wie sich diese Grundstruktur wiederholt. Dies kann zum Beispiel über eine geometrische, eine statistische oder auch eine modellbasierte Beschreibung erfolgen [30].
- Texture Synthesis
Neben der Analyse und Klassifikation von Texturen spielt die Synthese von Texturen eine sehr große Rolle. Dabei erzeugt man ausgehend von der Grundstruktur und des Wiederholungsmusters Bildbereiche, die diese Textur beinhalten. Dies ist zum Beispiel dann wichtig, wenn in einem Bild eine natürlich wirkende Struktur erzeugt werden soll, oder wenn einzelne Bildbereiche gestört sind. In diesem Fall kann dann die Textur in der Umgebung der Störung analysiert werden um diese dann im Bereich der Störung zu synthetisieren. [12], [26]
- Error Concealment and Inpainting
Bei der Aufnahme und dem Zusammenfügen von Bildern kann immer der Fall auftreten, dass auf den Bildern Objekte enthalten sind, die im endgültigen Bild nicht vorhanden sein sollen. Ein anderes Problem beim Zusammenfügen von Bildern besteht darin, dass bei einer nicht perfekten Überlappung das Panorama Fehlstellen aufweist. Um solche Fehlstellen oder auch unerwünschten Bildbereiche zu beseitigen, können Extrapolationsalgorithmen verwendet werden, die das Bildsignal aus benachbarten ungestörten Bereichen in den gewünschten Bereich hinein fortsetzen. Somit ist es möglich ein für den Betrachter fehlerfreies Bild zu erzeugen. [27], [16]
- Seam Carving
Bei der üblicherweise verwendeten Skalierung von Bildern werden alle Bereiche eines Bildes gleichermaßen vergrößert oder verkleinert. Dies ist aber ungeeignet, wenn man ein Bild z.B. für ein kleines Display skalieren will, da dadurch auch die interessanten Bereiche oder Objekte entsprechend verkleinert werden. Mit Seam Carving [31], [9] existiert aber ein Verfahren zur intelligenten Skalierung von Bildern. Dabei erfolgt die Skalierung der Bilder inhaltsabhängig. So werden z.B. Bereiche, die gleichförmig sind, oder keine interessanten Objekte enthalten stärker gestaucht, und die interessanten Objekte in ihrer Originalgröße belassen.
- High Dynamic Range Imaging (HDR)
Vergleicht man Fotografien mit dem visuellen Eindruck, den man von einer Szene hat, kann man feststellen, dass auf der Fotografie in den dunklen, bzw. hellen Bereichen keine Details mehr erkennbar sind, da diese unter- bzw. überbelichtet wurden. Dies liegt daran, dass eine Kamera im Vergleich zum menschlichen Auge einen viel geringeren Dynamikumfang besitzt, d.h. es können deutlich weniger Helligkeitsunterschiede auf einmal erfasst werden. Um dies zu kompensieren wird bei High Dynamic Range Aufnahmen [32] aus mehreren Aufnahmen mit unterschiedlichen Belichtungszeiten eine neue Aufnahme errechnet, die einen größeren Dynamikumfang besitzt. Somit ist es möglich, sehr helle wie auch sehr dunkle Bildbereiche gleichzeitig darzustellen.
- Bundle Adjustment
Fotodatenbanken im Internet enthalten inzwischen eine enorme Anzahl von Aufnahmen beliebter Orte wie zum Beispiel Touristenattraktionen.
Gebäude wie das Brandenburger Tor oder Notre Dame in Paris wurden aus jeder denkbaren Perspektive in allen Details fotografiert.
Damit ist es möglich, die 3D-Struktur der fotografierten Objekte zu rekonstruieren, nachdem die verschiedenen Bilder zueinander in Bezug gebracht wurden (Feature Matching).
Allerdings müssen dafür auch die Kameraparameter (Position, Brennweite, etc.) aller Fotos bekannt sein.
Im Bundle Adjustment werden alle 3D Punkte und Kameraparameter als Variablen betrachtet und gemeinsam iterativ optimiert [6], [23], [28].
Am Schluss kann jedem Bild eine Kameraposition zugeordnet und eine 3D Punktwolke der Szene erstellt werden.
Dazu werden eine Vielzahl von Methoden kombiniert, weshalb dieser Vortrag vor allem die Möglichkeiten der Technik aufzeigen und eine Einführung bieten soll.
Eine offene Software zum Bundle Adjustment ist Bundler [1].
Projekt
Teil des Kurses ist ein Projekt, für das ca. 6 Sessions reserviert sind.
Darin sollen die in den Vorträgen erarbeiteten Themen zur Feature Detection und zur Image Registration in einem praktischen System ausprobiert und implementiert werden.
Es wird dabei mit direkt vor Ort im Sarntal aufgenommen Bildern gearbeitet.
Die unten genannten Themen werden in Teams von 2-3 Studenten separat bearbeitet und dann zusammengeführt.
Beschreibungen anzuzeigen
- Feature Extraction & Matching
Die SURF/SIFT Algorithmen zur Merkmalsdeskriptoren werden implementiert bzw. analysiert und auf eine Bilddatenbank angewandt.
Anschließend werden ähnliche Features in verschiedenen Bildern gesucht (Feature Matching) und dadurch ähnliche Bilder gefunden.
Relevante Vorträge: (3, 4, 5), 6
- Geometry Estimation
Anhand von Feature Matches zwischen ähnlichen Bildern (z.B. benachbarte Aufnahmen) werden Kamerageometrie und -parameter geschätzt.
Die Bilder werden dann zueinander registriert, d.h. in Deckung gebracht.
Matching-Fehler werden mit RANSAC identifiziert.
Relevante Vorträge: 1, 7, 8
- High Dynamic Range Imaging (HDR)
Ausgehend von mehreren Aufnahmen einer Szene mit unterschiedlichen Belichtungszeiten wird ein Bild mit einem sehr hohem Dynamikumfang errechnet werden. Um dieses Bild aber auch anzeigen zu können ist weiterhin eine Dynamikkompression nötig.
Relevante Vorträge: 2, 13
- Intelligent Image Scaling
Um Bilder intelligent mittels Seam Carving zu skalieren müssen in einem ersten Schritt die Bereiche eines Bildes identifiziert werden, die wenig Information enthalten. Danach werden schrittweise diese Bereiche entfernt, bis das Bild, die gewünschte Skalierung erreicht hat.
Relevante Vorträge: 9, 12
- Error Concealment and Inpainting
Bei der Aufnahme von Bildern kann es immer vorkommen, dass die Bilder auch ungewünschte Objekte oder Fehlstellen enthalten. Um diese zu entfernen werden Fehlerverschleierungs- bzw. Inpaintingalgorithmen angewendet. Für den Fall, dass man von einzelnen Bereichen mehrere Aufnahmen besitzt, wie das z.B. bei überlappenden Bereichen von Panoramen der Fall ist, kann auch versucht werden, die gestörten Bereiche aus beiden Bildern zu rekonstruieren.
Relevante Vorträge: 10, 11
- Adding an Artificial Bokeh-Effect (Depth of Focus)
Der Bokeh-Effekt ist ein in der Fotografie eingesetztes Mittel um Objekte in einer Aufnahme dadurch herauszustellen, dass die übrigen Bildbereiche unscharf dargestellt werden. Dies wird über die Steuerung der Tiefenschärfe bei der Aufnahme erreicht. Dabei macht man sich die Eigenschaft von lichtstarken Objektiven zu Nutze, dass diese nur Objekte in einer bestimmten Entfernung scharf darstellen können und nähere oder weitere entfernte Bereiche unscharf werden. Diesen Effekt kann man aber auch nachträglich in Bildern erzeugen, die eine sehr große Schärfentiefe besitzen, d.h. in denen alle Bereiche scharf abgebildet werden. Hierzu muss das Bild in das gewünschte Objekt und den Hintergrund aufgeteilt werden. Anschließend wird der Hintergrund weich gezeichnet um dort den Detailreichtum zu reduzieren und so mehr Beachtung auf das gewünschte Objekt zu ziehen. [2], [33] Relevante Vorträge: 1, 7
- Generation of Panorama Images
Auf den Wanderungen im Sarntal werden an imposanten Stellen Panoramaansichten mittels mehrerer separater Teilbilder fotografiert.
Nach erfolgreicher Geometrieschätzung erfolgt eine Zusammenführung der Teilbilder zu einem Panoramabild.
Die erzeugten Panoramas werden dann mit Geo-Tags versehen in Google Earth visualisiert, wodurch eine Art interaktives Tagebuch der Ferienakademie entstehen soll.
Relevante Vorträge: (1, 2), 7, 8
Beispiele

Zusammenfügen von Teilbildern (hier eingefärbt) zu einem Panorama

Ein Foto mit erweitertem Geo-Tag (Ort und Blickrichtung) in Google Earth

Entfernung von störenden Objekten aus einem Bild
Team
Dozenten
Prof. A. Kaup, Erlangen
Prof. E. Steinbach, München
Prof. B. Yang, Stuttgart (Gastdozent)
Assistenten
J. Seiler, Erlangen
N. Alt, München
Referenzen
- Snavely, N. Bundler: Structure from Motion for Unordered Image Collections. (Software). more..
- Staiger, U. So schrumpfen Fotos zu Spielzeuglandschaften. more..
- Morel, J-M. and Yu, G. ASIFT: A New Framework for Fully Affine Invariant Image Comparison. In SIAM Journal on Imaging Sciences, 2 (2): 438-469, 2009. doi..
- Turcot, P. and Lowe, D.G. Better matching with fewer features: The selection of useful features in large database recognition problems. In ICCV Workshop on Emergent Issues in Large Amounts of Visual Data, 2009.
- Bay, H.; Ess, A.; Tuytelaars, T. and Van Gool, L. Speeded-Up Robust Features (SURF). In Computer Vision and Image Understanding, 110 (3): 346-359, 2008.
- Snavely, N.; Seitz, S.M. and Szeliski, R. Modeling the world from internet photo collections. In International Journal of Computer Vision, 80 (2): 189-210, 2008.
- Tuytelaars, T. and Mikolajczyk, K. Local invariant feature detectors: a survey. In Found. Trends. Comput. Graph. Vis., 3 (3): 177-280, 2008.
- Aliaga, D. G. Capturing, Modeling, Rendering 3D Structures: Calibration. more..
- Avidan, S. Image Resize. more..
- Brown, M. and Lowe, D. Automatic Panoramic Image Stitching using Invariant Features. In International Journal of Computer Vision, 74: 59-73, 2007.
- Fairchild, M. D. A Color Scientist Looks at Video. more..
- Kwatra, V.; Lefebvre, S.; Turk, G. and Wei, L-Y. Example-Based Texture Synthesis, Course Notes for SIGGRAPH 2007. In SIGGRAPH, 2007.
- Omercevic, D.; Drbohlav, O. and Leonardis, A. High-Dimensional Feature Matching: Employing the Concept of Meaningful Nearest Neighbors. In Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on, pages 1-8, 2007.
- Gordon, I. and Lowe, D. What and Where: 3D Object Recognition with Accurate Pose. In Toward Category-Level Object Recognition, pages 67-82, Springer Berlin / Heidelberg, Lecture Notes in Computer Science 4170, 2006.
- Rosten, E. and Drummond, T. Machine learning for high-speed corner detection. In ECCV, Springer, 2006.
- Kaup, A.; Meisinger, K. and Aach, T. Frequency Selective Signal Extrapolation with Applications to Error Concealment in Image Communication. In Int. J. Electron. Commun. (AEUe) (59): 147-156, 2005.
- Rosenhahn, B.; Perwass, C. and Sommer, G. Pose Estimation of 3D Free-Form Contours. In International Journal of Computer Vision, 62 (3): 267-289, 2005.
- Sepp, W.; Fuchs, S. and Strobl, K. DLR CalLab and CalDe - The DLR Camera Calibration Toolbox. (Software). more..
- Lowe, D.G. Distinctive Image Features from Scale-Invariant Keypoints. In International Journal of Computer Vision, 60 (2): 91-110, 2004.
- Rosenhahn, B.; Perwass, C. and Sommer, G. Foundations about 2D-3D Pose Estimation.
- Brown, M. and Lowe, D.G. Recognising panoramas. , 2003.
- Fitzgibbon, A. W. Robust registration of 2D and 3D point sets. In Image and Vision Computing, 21 (13-14): 1145-1153, 2003. doi..
- Hartley, R. and Zisserman, A. Multiple view geometry in computer vision. Cambridge Univiversity Press, ISBN: 0521540518, 2003.
- Vass, G. and Perlaki, T. Applying and removing lens distortion in post production. In Second Hungarian Conference on Computer Graphics and Geometry, 2003.
- McCarthy, A. Color Imaging Workflow Primitives: Executive Summary. more..
- Ashikhmin, M. Synthesizing Natural Textures. In In ACM Symposium on Interactive 3D Graphics, pages 217-226, 2001.
- M. Bertalmio, G. S. V. C. and Ballester, C. Image Inpainting. In SIGGRAPH, 2000.
- Triggs, B.; McLauchlan, P.; Hartley, R. and Fitzgibbon, A. Bundle Adjustment — A Modern Synthesis. In Vision Algorithms: Theory and Practice, pages 153-177, Springer Berlin / Heidelberg, Lecture Notes in Computer Science 1883, 2000.
- Schuengel, F-M. Abbildungsfehler. more..
- Tuceryan, M. and Jain, A. K. Texture Analysis. In Handbook of Pattern Recognition and Computer Vision: 207-248, 1998.
- Avidan, S. and Shamir, A. Seam Carving for Content-Aware Image Resizing. In SIGGRAPH, 1997.
- Debevec, P. E. and Malik, J. Recovering High Dynamic Range Radiance Maps from Photographs. In SIGGRAPH, 1997.
- Merklinger, H. M. A Technical View of Bokeh. In Photo Techniques, 1997.
- Weng, J.; Cohen, P. and Herniou, M. Camera Calibration with Distortion Models and Accuracy Evaluation. In IEEE Transactions on Pattern Analysis and Machine Intelligence, 14: 965-980, 1992.
- Harris, C. and Stephens, M. A combined corner and edge detector. In Alvey vision conference, 1988.
- Fischler, M. A. and Bolles, R. C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. In Communications of the ACM, 24 (6): 381-395, 1981.
Letzte Änderung: 2010-08-13, 15:40
|  |
|