Weekly IMS Seminars

This page carries talk announcements for the weekly IMS seminars. — Talks usually talk place on Thursdays, 13:15 in the Seminar Room 188/2 (4th floor, HD0407, ext. 18869).

If you have any suggestions for topics or talks, please contact Michael Bleyer.

Q2/2010 Talks

Date Time By Topic
Thu, May 27 13:15 Markus Seidl A Unified Approach for the Detection of Gradual Transitions in Historic Material — 1. Diplomarbeitspräsentation; Betreuer: Matthias Zeppelzauer — This master thesis deals with the problem of the detection of gradual transitions in historic movies. The footage we use is from the soviet film maker Dziga Vertov. The historic material is different from contemporary material in technical quality (degraded contrasts, flickering, scratches, fungus etc.) and in editing (different styles and lengths of transitions, etc.). The knowledge of the temporal location of the shot boundaries in a movie is important for the analysis of the style of filmmaking of a certain director. Furthermore, the first step in automated content based analysis of video or film material is the detection of shot boundaries. This is an active research topic, and is seen as solved for the easiest to detect type of transitions, the cut. The detection of gradual transitions still is a field for many different approaches. These approaches aim at the detection of gradual transitions in contemporary material. To our knowledge no research about the detection of gradual transitions in historic material has been published so far. The steps towards successful shot boundary detection are a) selection and extraction of appropriate features, b) construction of the continuity signal, c) classification of the frames and d) post processing for verification. In the case of detection of gradual transitions the research focuses on two types of approaches: Unified approaches, i.e. one detector for all gradual transition types, and approaches that use specialized detectors for each gradual transition type. In this master thesis we give an extensive literature research and propose a unified approach for the detection of gradual transitions in historic material. In the experimental study we evaluate our approach against annotated Vertov footage as well as annotated contemporary material from the shot boundary detection task of the TRECVid evaluation. Our experiments show, that our approach is valid for historic material as well as contemporary material. We observe that the historic material requires the use of texture features in contrast to the contemporary material that in most of the cases requires the use of colour and luminance features. We verify that the main problem for gradual transition detection is motion which causes a continuity signal change comparable to the signal of a gradual transition.
Thu, May 27 13:15 Dominik Lepiz Visual Information Retrieval: Automatisierte Klassifikation von Snowboardclips — 2. Diplomarbeitspräsentation; Betreuer: Dalibor Mitrovic — Practical snowboard instructor training is an iterative process divided into two steps. In the first step, the future snowboard instructors are recorded on video performing on the slope. In the second step, these video recordings are analyzed and discussed with the focus on possible improvements of the future instructor’s personal snowboarding style. The future instructors then try to apply the improvements in the next iteration of the first step. This thesis presents a way of adequately supporting the second step by content-based classification and retrieval of snowboard videoclips. The theory of snowboarding defines several turn types which differ in severtity and are practiced step-by-step. Because rhythm and speed are the two main characteristics of different turn types, this thesis explores the feasibility to measure them via motion-detection and investigates how to deal with disturbing factors like camera shaking. The proposed method uses the output of optical flow analysis to compute the duration between two turns and the speed of the turn to classify the types of turns. The audience in theoretical snowboard lessons is ususally bigger than one person, but everyone needs individual feedback during analysis. As a result it is very important for trainers to be able to quickly present appropriate video samples - either from the same or from another person. This personalized feedback motivates the second presented method in this thesis. This method employs an established color analysis technique to distinguish which person is shown in the videoclips. The method enables trainers to select individual videoclips for presentation. In order to evaluate the acquired techniques and developed methods, they are applied on a manually generated test-set of videoclips which were recorded during several days of training by this thesis’ author. Turn type classification yields good results in computing the average number of frames between two shifts in direction (wide driven carving turns versus fast moving short turns) so 85% percent of videoclips are classified correctly (65% even clearly). The distinction of videoclips based on depicted persons is highly dependent on scenery and illumination, which disturbs classification results because color-matching fails (classification error-rate rises linearly with the number of analyzed videoclips).
Mon, May 10 11:00 Michael Bleyer Does Color Really Help in Dense Stereo Matching? — Test Talk, 3DPVT 2010 — This paper investigates the role of color in global stereo matching approaches. In our evaluation study, we build various energy functions by combining nine color spaces with four dissimilarity functions and test their performance on 30 ground truth stereo pairs. Our experiments start by computing the matching scores via the absolute difference of color values. As is consistent with previous studies, we observe that color-based matching clearly outperforms grey-scale matching. However, our key observation is that this improvement largely stems from considerably improved performance in radiometric distorted regions, i.e. regions where corresponding pixels have different intensities/colors in the two input images, which is e.g. caused by illumination variations. Hence, we claim that color basically serves the same purpose as radiometric insensitive measures, namely to reduce matching errors in radiometric distorted image areas. However, the important difference is that radiometric insensitive measures are considerably superior in this respect, which we demonstrate by using Mutual Information, ZNCC and Census as dissimilarity functions in our experiments. Interestingly, we observe that for these dissimilarity functions color even has a negative effect. Therefore, our suggestion is to not use color at all, but radiometric insensitive measures on grey-scale images, also on images where radiometric distortions seem to be very small.
Mon, May 10 11:00 Asmaa Hosni Near Real-Time Stereo With Adaptive Support Weight Approaches — Test Talk, 3DPVT 2010 — Algorithms based on the adaptive support weight strategy currently represent the state-of-the-art in local stereo matching. Unfortunately, their good-quality results come at the price of high computation times: As opposed to standard local algorithms, incremental computation via sliding windows is not applicable for adaptive support weight windows. This paper presents a method for considerably speeding up computation times of these methods. The key idea is to exploit the adaptive support weight windows for generating an explicit over-segmentation of the reference image in a fast way. Having this explicit segmentation, we can take advantage of a modified "segmentation-based" sliding window technique, which makes run time independent of the window size. In particular, we demonstrate our transformation scheme for the geodesic stereo matcher of \cite{Hosni09} that has recently produced excellent results. Our unoptimized GPU-based implementation processes 320x240 pixel images with 26 allowed disparities at 10 frames per second and achieves rank 32 out of 74 methods in the Middlebury online benchmark.
Thu, May 5 13:15 Markus Hörhan Automatische Erkennung von Gewaltszenen in Filmen — 1. Diplomarbeitspräsentation; Betreuer: Horst Eidenberger — The news very often reports about the bad influence that violence in movies has on children and young persons. Sometimes there are specialists in film industry who are looking for such violent scenes and censoring them. This is a time consuming task and therefore an automatic process would be nice. A computer program which solves this task in a fully automated fashion is imaginable in the moment because there are many different forms of violence and people have different opinions on whether a film scene is violent or not. In this work a method is proposed to classify film scenes as either containing or not containing violent content in a computer assisted manner. For this reason it is necessary to extract features which are characteristic for violent scenes. An adequate classifier splits the film scenes in violent and nonviolent scenes with respect to the chosen features. The program's output should be all the time spans in the observed film containing violence. Matlab is used for the implementation of the prototype because it has many methods to handle complex video- and audio processing. The relatively long time to process some calculation tasks in Matlab is not important because the final program is only a prototype.
Thu, Apr 29 13:15 Jürgen Kogler Silicon Retina-basierte Stereo Algorithmik Die Silicon Retina ist ein neuer Typ von Sensor und ist in seiner Funktionsweise dem menschlichen Auge nachempfunden. Konventionelle Kameras erfassen ein Bild mit einer definierten Bildwiederholrate und liefern die Pixelinformationen des kompletten Sensors. Bei einer Silicon Retina wird nur dann Information generiert, wenn eine Änderung in der Szene stattfindet, sprich eine Helligkeitsänderung in positiver bzw. negativer Richtung auftritt. Diese sogenannten „Events“ senden Ihre Adresse, Polarität und Zeitpunkt des Auftretens unabhängig voneinander.
State-of-the-Art Flächen- und Feature-basierte Stereo Matching Algorithmen schöpfen die gebotenen Möglichkeiten der Silicon Retina Technologie nur in unzureichendem Maße aus. Kommen diese zum Einsatz, sind entsprechende Vorverarbeitungsschritte unumgänglich, die die Potenziale der Silicon Retina stark verringern. Aus diesem Grund werden neuartige Stereo Matching Ansätze entwickelt und evaluiert, welche die Vorteile dieses Sensors nutzen können.
Thu, Apr 29 13:15 Rainer Planinc Modeling Sources and Sinks in Crowded Scenes by Clustering Trajectory Points Obtained by Video-based Particle Advection — 2. Diplomarbeitspräsentation; Betreuer: Margrit Gelautz, Norbert Brändle — This diploma thesis provides solutions to analyze dense crowded scenes in real-time, a still challenging research topic of visual surveillance. A real-time algorithm traces particles with the help of optical flow calculated between two consecutive frames, thus avoiding using individual people tracking. Analyzing sources and sinks of observed scenes can provide clues to semantic scene analysis. Sources and sinks are modeled by clustering trajectory start and end points. This thesis evaluates different clustering algorithms and their practicability in combination with a real-time particle advection algorithm on benchmark data.
Thu, Apr 22 13:15 Andreas Regner Neue Kameraperspektiven bei TV-Sportübertragungen — 2. Diplomarbeitspräsentation; Betreuer: Margrit Gelautz — In dieser Diplomarbeit wurde nach Wegen gesucht, TV-Sportübertragungen für den Zuseher attraktiver zu gestalten. Zu diesem Zweck beschäftigt sich die Arbeit zunächst mit den drei wichtigen Bereichen Film, Fernsehen und Live-Übertragungen, um mit Hilfe der Literatur und eigener Analysen herauszufinden, welche Kameraeinstellungen und zugehörige Hilfsmittel diese auszeichnen. Dadurch sollten wichtige Aspekte der Kameraführung erkannt und daraus abgeleitete Anwendungsmöglichkeiten für TV-Sportübertragungen identifiziert werden. Im praktischen Teil der Arbeit wurden Versuche mit Miniatur-Funkkameras durchgeführt, welche an Sportlern während der Ausübung einer Mannschaftssportart befestigt waren. Das Ziel war, Erkenntnisse bezüglich sinnvoller Aufnahmekonfigurationen bei den untersuchten Sportszenen zu gewinnen, wobei besonderes Augenmerk auf die immersive Wirkung bzw. das interaktive Erleben seitens des Betrachters gelegt wurde.
Thu, Apr 22 13:15 Markus Autengruber A Vision-Based System for the Detection of Fingertips and Evaluation of Multi-Touch Events on a Variable and Dynamic Interactive Surface — 1. Diplomarbeitspräsentation; Betreuer: Michael Mehling, Hannes Kaufmann — A Vision-Based System for the Detection of Fingertips and Evaluation of Multi-Touch Events on a Variable and Dynamic Interactive Surface Multi-touch interaction on tabletop surfaces has become a major trend in humancomputer interaction (HCI) research over the past years. As currently available systems are usually based on special touch-sensitive hardware, which is relatively expensive to build, limited to a certain size and inconvenient to use when operating large interactive surfaces, a lack of scalability and portability can be observed. Therefore, a vision-based system is presented, which exclusively relies on cheap and easy-to-handle video cameras and which should provide competitive results in comparison to common approaches. The detection of fingertips for further multi-touch event evaluation is performed by a combination of computer vision and image processing algorithms while the interactive surface may be variable in its size and moved around dynamically during its usage.

Q1/2010 Talks

Date Time By Topic
Thu, Mar 25 13:15 Lambert Frey Ein relationales Framework zur Verwaltung von videobasierten Trajektorien — 2. Diplomarbeitspräsentation; Betreuer: Margrit Gelautz, Norbert Brändle — Um Bewegungsmuster in Videoaufzeichnungen analysieren zu können, ist es notwendig viele Einzelbewegungen, die Trajektorien, zu untersuchen. Dabei fallen große Mengen an raum-zeitlichen Daten an, die in einer geeigneten Form gespeichert werden müssen. Ziel dieser Arbeit ist es eine Repräsentation von Trajektorien in einer Datenbank zu entwerfen und Funktionen zu implementieren, die eine Selektion von raum-zeitlichen Bereichen erlauben und Distanzen zwischen Trajektorien berechnen können. Eine Laufzeitevaluierung zeigt den Performancevorteil dieser Datenbank gegenüber der Speicherung in Textdateien.
Thu, Mar 18 13:15 Wolfgang Knecht Anti-aliased Deep Shadow Maps for multiple volumes and geometry using CUDA — 1. Diplomarbeitspräsentation — In der Computer Graphik sind Schatten sehr wichtig um den Realismus von 3D Szenen zu erhöhen. Herkömmliche Schattenalgorithmen sind allerdings nicht in der Lage auch Schatten für sehr feine Geometrie wie Haare oder halbtransparente volumetrische Objekte wie etwa Rauch in gewünschter Qualität zu generieren. In dieser Diplomarbeit werden Deep Shadow Maps mittels CUDA von nVidia implementiert. Weiters werden "Clustered Deep Shadow Maps" eingeführt. Dabei wird für eine Lichtquelle nicht wie gewöhnlich nur eine Deep Shadow Map erzeugt sondern mehrere, jeweils eine für mehrere zusammengefasste Objekte, wodurch diese die gesamte Auflösung der Deep Shadow Maps ausnutzen können. Zum einen soll es dadurch möglich sein hochqualitative Schatten von volumetrischen Objekten auf polygonale Geometrie und umgekehrt zu werfen und zum anderen sollen diese Schatten dank Hardwareunterstützung sehr schnell generiert werden.
Thu, Mar 11 13:15 Mathis Csisinko VITAL - The Virtual Environment Interaction Technique Abstraction Layer — Testtalk — Traditionally 3D interaction techniques (3DITs) are implemented in VR applications in a proprietary way on specific target platforms. Mixing 3DIT specific code with application code neither allows for reusability in other applications nor for exchanging 3DITs in a comfortable and flexible way. We propose an additional system software layer called Virtual Environment Interaction Technique Abstraction Layer (VITAL) targeted on platform and application independent (portable) 3DIT implementation. We describe the underlying concepts and provide details on how to integrate VITAL in VR frameworks. Furthermore, development mechanisms targeted on portability and general-purpose interfacing techniques with other system components are outlined and demonstrated in examples.
Thu, Mar 11 13:15 Andreas Regner Neue Kameraperspektiven bei TV Sportübertragungen — 1. Diplomarbeitspräsentation — Diese Diplomarbeit beschäftigt sich mit der Problematik, wie man TV Sportübertragungen für den Zuseher noch attraktiver gestalten kann und wie man ihm das Geschehen näher bringen könnte. Film und Fernsehen schaffen es auf eine eigene Weise dem Beobachter Spannung und Dramatik zu vermitteln. Diese bedienen sich dazu eigener Kamerapositionierungen und verwenden bestimmte Kamerawinkel. Diese Arbeit versucht herauszufinden, was die drei großen Gebiete Film, Fernsehen und Live Übertragung auszeichnet. Mit den Erkenntnissen sollen neue Ansätze für TV Sportübertragungen gefunden werden.
Im praktischen Teil werden Versuche mit Miniatur Funkkameras durchgeführt. Diese sind an Sportlern, während der Ausübung einer Mannschaftssportart, befestigt. Mit ihnen sollen Aufnahmen aus einer neuen Perspektive und einer zuvor nicht möglichen Position entstehen.
Thu, Feb 25 13:15 Wolfgang Jungmayer Feature Selection in Audio — Seminar Work — Audio features play an important part in the analysis and classification of signals. In this paper the complete process of a signal classification is explained, with the focus lying on the selection of relevant features for a given problem. Corresponding feature selection methods are presented and assessed. Different uses and problem definitions concerning the application of audio features are mentioned, too. Also presented are state-of-the-art algorithms, each of which has the goal to create an optimal set of features, which ultimately delivers a good performance in the subsequent classification.
Thu, Feb 18 13:15 Annette Mossel Real-time Tunneling Measurement based on an Infrared Optical Tracker (RTMIOT) — Test Talk WARM'10 — In this talk a system to perform tunneling measurement in real time based on optical infrared tracking is presented. This stereo measurement system will be able to track and determine the 3D-coordinates of several static as well as moving optical targets in real time and can be used to measure and monitor the tunnel advance. Our system is the first step towards the future goal of automated positioning and control of construction vehicles.
Thu, Feb 18 13:15 Ferdinand Pilz MINT (Multimodal Interaction on Tabletops) — Test Talk WARM'10
Thu, Feb 11 13:15 Christoph Rhemann Interactive Image Matting — PhD defense test talk — Image matting aims to extract a foreground object from a single natural image by recovering the partial transparency and corresponding color of the foreground object at each pixel in the image. The resulting transparency map is thereby denoted as alpha matte. The matting problem is severely ill posed, and in this thesis we focus on matting approaches that utilize user interaction to make the problem tractable.
There are three fundamental challenges in interactive image matting research that are addressed in this thesis: (i) Providing a fast and intuitive user interface; (ii) finding a good cost function for matting; and (iii) providing a benchmark that allows a quantitative comparison of matting results. In most previous approaches the user interacts with the algorithm by drawing an accurate trimap, which is a partition of the image into foreground, background and unknown regions. An accurate trimap is very tedious to create manually, hence we follow recent work and aim to automatically generate a trimap from very little user input. The novelty of our approach lies in a new cost function that describes the goodness of a trimap solution. Our cost function considers several image cues and incorporates four different types of priors that are used to regularize the result. We show that our method is fast and produces accurate results.
This thesis also addresses the problem of extracting an alpha matte from a single photograph, given a trimap. We improve on previous image matting approaches by assuming that the majority of partial transparencies are induced by the imaging process. Hence we exploit a model where alpha is the convolution of a binary segmentation with the camera's point spread function. Based on this model, we propose new matting algorithms that generate high-quality results even for images where our assumption is not met completely.
Finally, we introduce a new benchmark-test for image matting that enables a quantitative comparison of matting results. Our contributions are (i) a challenging, high-quality ground truth test set that builds the basis of our evaluation; (ii) a dynamic online benchmark system that allows other researchers to interactively analyze recent matting work and to complement the evaluation with new results; and (iii) perceptually motivated error metrics for image matting. We use this benchmark to confirm that our proposed matting algorithms outperform the current state-of-the-art.
Thu, Jan 28 13:15 Chris Lendl
Mario Habenbacher
ESEL: Electronic Student Equipment Loaning — Praktikumsvorstellung — Viele Lehrveranstaltungen bieten den Studenten die Möglichkeit an, für die Absolvierung der gestellten Aufgaben Equipment auszuleihen. Derzeit erfolgt der Verleih dieses Equipments größtenteils über Papier-Listen, per E-Mail oder direkten Kontakt am Institut. Dies stellt einen großen Aufwand an die Betreuer und Tutoren der Lehrveranstaltung dar. Im Zuge eines Praktikums wurde ein elektronisches Verleih-System entwickelt, mit dessen Hilfe der gesamte Ablauf von der Reservierung bis zum Verleih elektronisch abgewickelt werden kann. Die Studenten können mit Hilfe eines Online-Systems ihr gewünschtes Equipment aussuchen und reservieren. Das Handling der Reservierungen erfolgt komplett durch das System, welches eine erhebliche Erleichterung für die Betreuer darstellt und ihnen ermöglicht, sich auf wesentlichere Dinge in der Betreuung der Studenten zu konzentrieren.
Thu, Jan 28 13:15 Asmaa Hosni Geodesic Adaptive Support Weight Approach For Local Stereo Matching — Test Talk Computer Vision Winter Workshop — Local stereo matching has recently experienced large progress by the introduction of new support aggregation schemes. These approaches estimate a pixel’s support region via color segmentation. Our contribution lies in an improved method for accomplishing this segmentation. Inside a square support window, we compute the geodesic distance from all pixels to the window’s center pixel. Pixels of low geodesic distance are given high support weights and therefore large influence in the matching process. In contrast to previous work, we enforce connectivity by using the geodesic distance transform. For obtaining a high support weight, a pixel must have a path to the center point along which the color does not change significantly. This connectivity property leads to improved segmentation results and consequently to improved disparity maps. The success of our geodesic approach is demonstrated on the Middlebury images. According to the Middlebury benchmark, the proposed algorithm is the top performer among local stereo methods at the current state-of-the-art.
Thu, Jan 21 13:15 Johannes Spreitzer Programmierung von Multimediasensoren für mobile Informationsszenarien — Diplomarbeitsvortrag (2. Präsentation); Betreuer: Horst Eidenberger — This thesis deals with software development and media processing on mobile handsets running the Android operating system. It is centered round a practical project, which aims to develop a program that continually tracks and saves the device's location. Furthermore the program should implement a stepcounter and make it possible to create panoramaphotos. Additionally it should display all the collected data in an appropriate manner. At the outset the Android system with its basic concepts is introduced and the additional technologies drawn upon in the project are elaborated. These technologies include GPS-tracking, accelerometer-sensors, panorama-stitching and visualization-techniques as they come into operation on the mobile handset as well as on the web. Finally the practical project is modeled using graphical UML-diagrams and implemented, with the results achieved being discussed.
Thu, Jan 14 13:15 Markus Seidl A Unified Approach for the Detection of Gradual Transitions in Historic Material — Diplomarbeitsvortrag (2. Präsentation); Betreuer: Christian Breiteneder, Matthias Zeppelzauer — This master thesis deals with the problem of the detection of gradual transitions in historic movies. The footage we use is from the soviet film maker Dziga Vertov. The historic material is different from contemporary material in technical quality (degraded contrasts, flickering, scratches, fungus etc.) and in editing (different styles and lengths of transitions, etc.).
The knowledge of the temporal location of the shot boundaries in a movie is important for the analysis of the style of filmmaking of a certain director. Furthermore, the first step in automated content based analysis of video or film material is the detection of shot boundaries.
This is an active research topic, and is seen as solved for the easiest to detect type of transitions, the cut. The detection of gradual transitions still is a field for many different approaches. These approaches aim at the detection of gradual transitions in contemporary material. To our knowledge no research about the detection of gradual transitions in historic material has been published so far.
The steps towards successful shot boundary detection are a) selection and extraction of appropriate features, b) construction of the continuity signal, c) classification of the frames and d) post processing for verification. In the case of detection of gradual transitions the research focuses on two types of approaches: Unified approaches, i.e. one detector for all gradual transition types, and approaches that use specialized detectors for each gradual transition type.
In this master thesis we give an extensive literature research and propose a unified approach for the detection of gradual transitions in historic material. In the experimental study we evaluate our approach against annotated Vertov footage as well as annotated contemporary material from the shot boundary detection task of the TRECVid evaluation.
Our experiments show, that our approach is valid for historic material as well as contemporary material. We observe that the historic material requires the use of texture features in contrast to the contemporary material that in most of the cases requires the use of colour and luminance features. We verify that the main problem for gradual transition detection is motion which causes a continuity signal change comparable to the signal of a gradual transition.

Q4/2009 Talks

Date Time By Topic
Thu, Dec 10 13:15 Johannes Spreitzer Programmierung von Multimediasensoren für mobile Informationsszenarien — 1. Diplomarbeitspräsentation — Diese Arbeit beschäftigt sich mit der Software-Entwicklung und Medienverarbeitung auf mobilen Endgeräten unter dem Betriebssystem Android. Neben der Applikationsentwicklung und der Programmierung von zusätzlich in einem aktuellen Mobiltelefon verbauten Technologien wie Beschleunigungs- oder GPS-Sensoren, soll ein Teil auf die Medienverarbeitung innerhalb von Android fallen. Es sollen Methoden gefunden werden, Panoramafotos durch einfaches "Drüberziehen der Kamera" zu erstellen. Weiters sollen die Fotos und GPS-Daten direkt vom Endgerät aus ins Internet geladen und dort in geeigneter Weise visualisiert werden können.
Thu, Dec 10 13:15 Lambert Frey Effiziente Speicherung von Trajektorien — Diplomarbeitsvortrag (2. Präsentation); Betreuer: Margrit Gelautz, Norbert Brändle — Bei der Arbeit mit Trajektorien fallen schnell große Datenmengen, die sowohl zeitliche als auch räumliche Informationen beinhalten, an. Der Mangel an effizienten Speichermethoden für Bewegungsdaten ist vor allem bei Anwendungen, die diese Daten einlesen und verarbeiten, ein Problem. Werden die Trajektorien in simplen Textdateien abgelegt, so gibt es keine Möglichkeit, gezielt auf bestimmte Daten zuzugreifen. Diese Arbeit soll einen Überblick über die Möglichkeiten zur Speicherung in Datenbanken bieten. Wichtig ist hierbei vor allem die Abfragemöglichkeit nach bestimmten Vorgaben, die sowohl die zeitliche als auch die räumliche Dimension betreffen können. Es soll zum Beispiel möglich sein, Trajektorien zu selektieren, die sich innerhalb einer gewissen Distanz zu einem vorgegeben Pfad befinden. Dazu ist es notwendig eine Methode zur Berechnung der Distanz zwischen Trajektorien zu definieren. Verschiedene Ansätze zu dieser Berechnung sollen vorgestellt werden.
Thu, Dec 3 13:15 Rudolf Melcher Beyond Screens - A device-independent interaction paradigm for integrated pos-desktop environments — PhD thesis presentation — We identify and discuss an often neglected hurdle of individual’s IT infrastructures - the device and application dependence - and show that there is strong evidence for this hurdle viewed from several research perspectives. Our core hypothesis is that today’s infrastructures are no longer comprehensible and manageable by individual users. Thus, the full potential of the technology used by individuals is not leveraged. We argue for the need of a new approach which conceptually and cognitively unifies all types of technically mediated workspaces in terms of digital artifact use. As a consequence, we suggest and specify a conceptual architectural framework aiming to consistently resolve this issue.
In the first place we try to specify persistent and consistent user-centered techniques, which allow individuals to manage their artifact collections regardless of the specific devices and applications they are using. To achieve this, we build an architectural layer called SubFrame challenging the current file handling mechanisms. On this basis we demand persistent user-centered topologies for virtual artifacts to be rendered in all types of mediated work spaces, called ActionSpaces. Given both are realized we may see a lot of new possibilities in artifact handling better fitting cognitive capabilities and needs of the users. To many HCI fellows the idea to design a device-independent interaction paradigm seems infeasible. We will try to explain why and how it might be possible. By the “normative force of our own reasoning”, we consider our approach unavoidable and expect it to "revolutionize" common thinking about computing and interaction. In the long run, it may result in a paradigm shift towards genuine user-centeredness. But of course, there may be other possibilities to keep "pace" with the growing heterogeneity of user infrastructures - a discussion we want to provoke!
Thu, Nov 5 13:15 Stefan Hartlieb Segmentation von Szenen in historischen Dokumentarfilmen — Diploma thesis presentation — Szenensegmentation beschäftigt sich mit der Unterteilung eines Films in voneinander getrennte Einheiten. Gängige Algorithmen zur Segmentation eines Films in Szenen verwenden Eigenschaften, die in historischen Dokumentarfilmen entweder aus filmkompositions oder aus technischen Gründen nicht vorhanden sind. Die Arbeit stellt eine Implementation vor, der speziell für dieses Filmmaterial entwickelt wurde.
Bei der Szenensegmentation wird als erstes eine Schnitterkennung durchgeführt. Die dabei gefundenen Shots werden anhand eines Keyframes und Bildmerkmalen miteinander verglichen. Zwei Shots, die innerhalb einer gewissen Zeitspanne liegen, und ein Maß an Ähnlichkeit übersteigen, gehören, sowie auch die dazwischen liegenden Shots, zu einer Szene. Die Merkmale, die im Algorithmus für den Vergleich verwendet werden sind SIFT Keypoints, „Edge Change Ratio“ und blockbasierte Histogramme.
Durch das Finden von ähnlichen Shots entstehen Kernszenen mit dazwischen liegenden losen Bereichen (d.h. Shots, die noch keiner Szene zugeordnet wurden). Die losen Bereiche werden durch das rekursive Herabsetzen der Schwellwerte für die einzelnen Ähnlichkeitsmerkmale zugewiesen.
Ein weiterer Teil der Arbeit ist die Überprüfung der Merkmale mit verschiedenen Schwellwerten und so ihre Güte feststellen zu können. Die Güte definiert sich aus dem Verhältnis von fälschlich mit korrekt als Ähnlich klassifizierten Shots. Auch wird überprüft, wie weit die Auswahl des Keyframes Einfluss auf das Ergebnis hat.
Um eine vollständige Verifikation der Implementation durchführen zu können wurde der Algorithmus außer mit historischen Dokumentarfilmen auch mit „modernen“ Filmen getestet. Dies ermöglicht einerseits die Überprüfung der Implementation nach der Aufgabenstellung und anderseits einen Vergleich mit den in der Literatur vorgestellten Methoden.
Thu, Oct 15 13:15 Rainer Planic Modeling Sources and Sinks in Crowded Scenes by Clustering Trajectory Points Obtained by Particle Advection — Diploma thesis presentation — Individuelles Tracking in Menschenmengen stößt an seine Grenzen, sobald die Menschenmenge zu dicht wird. Ein Lösungsansatz besteht darin, die Menschenmenge mit Hilfe von Partikeln zu modellieren, welche auf Grund des optischen Flusses zwischen zwei aufeinanderfolgenden Videoframes bewegt werden (Partikeladvektion). Auf diese Weise ist es möglich, aus Flusspartikeln Trajektorien zu generieren. Quellen und Senken von Personenflüssen wie zum Beispiel Türen, Stiegenhäuser oder Stellen, an denen der Aufnahmebereich der Kamera betreten oder verlassen wird, werden durch Weiterverarbeitung der Trajektorien modelliert.
Ziel dieser Diplomarbeit ist die Optimierung der Trajektoriengewinnung mittels eines hierarchischen Verfahrens sowie die Modellierung der Quellen und Senken mittels geeigneter Clusterverfahren. Das erhaltene Wissen über Quellen und Senken dient dabei als Feedbackinformation zur zusätzlichen Verbesserung der Qualität der Trajektoriengewinnung.

Q3/2009 Talks

Date Time By Topic
Thu, Sep 24 13:15 Matthias Zeppelzauer Feature Selection in Environmental Sound Recognition — Test talk, 15 min — Given a broad set of content-based audio features, we employ principal component analysis for the composition of an optimal feature set for environmental sounds. We select features based on quantitative data analysis (factor analysis) and conduct retrieval experiments to evaluate the quality of the feature combinations. Retrieval results show that statistical data analysis gives useful hints for feature selection. The experiments show the importance of feature selection in environmental sound recognition.
Mon, Sep 14 13:15 Harald Jordan Runtime-Optimised Intra-4x4 Mode-Decision for H.264/AVC Video Encoding — Test talk, ISPA 2009 — Meeting room, first floor.
Mon, Sep 14 13:15 Michael Bleyer Temporally Consistent Disparity Maps from Uncalibrated Stereo Videos — Test talk, ISPA 2009 — Meeting room, first floor.
Thu, Sep 3 13:15 Nicole Brosch Transformation von nicht-photorealistischen Bild- zu Videoeffekten — Diplomarbeitsvortrag (2. Präsentation); Betreuer: Margrit Gelautz — Beim Erzeugen von nicht-photorealistischen Animationen aus echten Videosequenzen besteht eine große Herausforderung darin, zeitlich kohärente Ergebnisse zu erzeugen. Diese Arbeit gibt zunächst einen Überblick über verschiedene Ansätze, Kohärenz zu erzwingen, und erweitert danach eine bereits in der Lehre eingesetzte Bibliothek für Bild- und Videoverarbeitungsalgorithmen um einen cartoonartigen Bildeffekt sowie mehrere darauf aufbauende Videoeffekte.
Der implementierte Bildeffekt entwickelt einen an Basiseigenschaften von Cartoons orientierten Stil, den BenutzerInnen zusätzlich variieren können. Zu diesem Zweck führt eine erste Abstraktion eine Farbreduktion aus und entfernt Details. Weitere Schritte (Betonung von Kanten, Modifikation von Helligkeits- und Farbwerten, Variation von Schärfe und Kontrast) schaffen gleichzeitig Parameter, welche die Ausprägung der einzelnen Merkmale im Ergebnis bestimmen.
Die Videoeffekte bauen auf unterschiedliche, in der Literatur präsentierte Strategien für den Erhalt zeitlicher Kohärenz auf. Ein Videoeffekt versucht, angelehnt an global konzipierte Ansätze, mehr als nur ein Frame in die Farbreduktion einzubeziehen. Ein weiterer Effekt stellt eine Beziehung zwischen den Farben benachbarter Frames her. Ein dritter Videoeffekt führt, inspiriert durch Ansätze, die aufgrund von Differenzen zwischen benachbarten Frames Arbeitsschritte definieren, eine Entscheidungsfunktion ein, die darauf abzielt, räumliche Farbsprünge zu verhindern.
Um die Effektivität der implementierten Effekte zu verifizieren und zu vergleichen, werden Differenzen zwischen Frames untersucht. Ein zusätzlicher, bereits existierender Videoeffekt wird adaptiert und in die Vergleiche eingebunden. Schlussendlich wird der Mehrwert des Frameworks und insbesondere der implementierten Effekte für den Lehreinsatz analysiert.
Thu, Sep 3 13:15 Christian Ammer Bewegungsanalyse von Videos unter Berücksichtigung von Verdeckungen — Diplomarbeitsvortrag (2. Präsentation); Betreuer: Margrit Gelautz, Michael Bleyer — Die Aufgabe von Motion Estimation ist, Bewegungsbereiche in einem Video zu erkennen und jedem Bildpunkt eine Bewegung zuzuordnen. Es ist eine herausfordernde Aufgabe von Computer Vision, denn viele Anwendungen des Maschinellen Sehens lassen sich erst durch eine qualitativ hochwertige Bewegungsanalyse des Videos lösen. So sind die hohen Kompressionsraten in Videos mitunter auf die Bewegungskompensation zurückzuführen, welche durch Motion Estimation möglich wird. Eine automatische Erfassung und Identifizierung von Gegenständen oder eine dreidimensionale Szenenrekonstruktion sind Anwendungen, welche eine Bewegungsanalyse voraussetzen.
In dieser Arbeit wird ein Algorithmus auf Grundlage der Arbeiten von Jiangjan Xiao und Mubarak Shah entworfen, der eine kurze Videosequenz analysiert. Im Gegensatz zu anderen Arbeiten in diesem Bereich berücksichtigt der Algorithmus Verdeckungen. Das Ergebnis einer Analyse ist eine Ebenenrepräsentation des Videos, bei der jeder Ebene eine affine Bewegung zugrunde liegt.
Um die affinen Bewegungen zu finden, sucht der Algorithmus im ersten Schritt Featurepoints. Jeder Featurepoint wird als Saatpunkt im folgenden Region-Growing-Schritt verwendet. In jeder Region-Growing-Wachstumsphase werden die affinen Bewegungen mit dem Newton Näherungsverfahren bis zu einem bestimmten Punkt verfeinert. Ähnliche affine Bewegungen werden zu einer zusammengefasst. Im nächsten Schritt, dem Layer Assignment Schritt, wird eine Energiefunktion entworfen und durch das Minimale-Schnitt-Verfahren minimiert. Durch die Minimierung wird jedem Bildpunkt eine affine Bewegung zugeordnet, was die Lösung des Zuordnungsproblems darstellt. Die Energiefunktion enthält neben Daten- und Smoothnesskosten auch einen Term für Verdeckungen zwischen Bildern und einen Term für Verdeckungen zwischen Bildpaaren. Das Minimale-Schnitt-Verfahren wird seit einigen Jahren häufig für Computer Vision Aufgaben eingesetzt, da es sich in der Praxis gut bewährt.
Thu, Aug 13 13:15 Bernhard Holzer Modellbasierte Erstellung von Bilddatenbanken — Diplomarbeitsvortrag (1. Präsentation); Betreuer: Florian Seitner — Diese Arbeit befasst sich mit der Thematik, welche Informationen gängige Algorithmen zur menschlichen Analyse aus Bildern, wie zum Beispiel der Gestenerkennung oder der Objekterkennung, benötigen und wie diese Daten künstlich anhand von menschlichen 3D Modellen generiert werden können. Es werden zunächst die erwähnten Algorithmen hinsichtlich der benötigten Daten der jeweiligen Anwendung zum Trainieren, Evaluieren und Visualisieren untersucht. Weiters wird ermittelt, welche Datenbank bereits existiert und in welcher Hinsicht die einzelnen Algorithmen unterstützt werden. Aufbauend auf dieser Analyse, wird eine Anwendung entwickelt, die anhand eines menschlichen 3D-Modells automatisch menschliche Posen generiert und die benötigten Daten für die Algorithmen in Form einer Datenbank erstellt. Die Funktionalität und Qualität der generierten Datenbank wird anhand einer konkreten Anwendung, einem Objektdetektor, evaluiert.
Thu, Aug 6 13:15 Sylvie Chambon
Guest researcher
Overview on her work
Thu, Aug 6 13:15 Roland Gross Evaluation of Competing Data Terms for the Stereo Correspondence Problem — 2. DA Vortrag (in English); Betreuer: Michael Bleyer — Im Moment verwenden viele Stereo Matching Algorithmen (global sowie lokal) nur Intensitätswerte um Disparitätsbilder zu berechnen. Aktuelle Studien zeigen jedoch, dass die Verwendung von Farbinformation die Robustheit und Ergebnisqualität der Matchingkostenberechnung erhöhen kann. Dies zeigt sich besonders deutlich an radiometrisch verzerrten Basisdaten. Einfache Beispiele für radiometrische Verzerrungen sind unterschiedliche Belichtungszeiten oder Beleuchtungsverhältnisse. Die Diplomarbeit beschäftigt sich mit der Frage, ob die Verwendung von Farbinformation und radiometrischen Transformationen bessere Ergebnisse als herkömmliche intensitätsbasierte Ansätze liefern kann. Dazu werden fünf Farbräume (Graustufen, RGB, AC1C2, I1I2I3, LUV), sechs radiometrische Transformationen (Mittelwert, Marr-Hildreth Operator, Rank, SoftRank, Bilaterale Subtraktion), vier Kostenberechnungsverfahren (Summe absoluter Differenzen, Birchfield Tomasi, Normalisierte Kreuzkorrelation, Hierarchische Transinformation) und zwei Optimierungsverfahren (Lokal, Global) in einer Evaluierung auf zehn Testdatensätzen untersucht. Weiters wird untersucht, ob eine Verwendung von Gewichten in radiometrischen Transformationen, normalisierter Kreuzkorrelation und Aggregation zu besseren Ergebnissen führt. Dabei wird auch ein Vergleich zwischen der Gewichtsberechnung nach Yoon und geodätischen Gewichten angestellt. Die Ergebnisse der Evaluierung zeigen, dass die Verwendung von Farbinformation, radiometrischen Transformationen und Gewichten die Ergebnisqualität signifikant erhöhen.
Thu, Jul 9 13:15 Richard Kloibhofer,
Martin Riederer
Life Logging im Überblick — 30min + kurze Diskussion; Betreuer: Matthias Zeppelzauer — Life Logging beschäftigt sich mit der Speicherung und Segmentierung von Daten, welche von einem Benutzer gesammelt werden. Meistens werden dabei Video, Audio und weitere Sensordaten aufgezeichnet. Life Logging wird mittlerweile von vielen Institutionen erforscht, wobei bisher noch kein marktreifes Produkt vorhanden ist. Im Rahmen dieser Bachelorarbeit wollen wir einen Einblick in verschiedene Life Logging Systeme geben und dabei die verschiedenen Methoden vergleichen. Ein Schwerpunkt wird auf die Segmentierung der Daten gelegt. Dabei werden automatisch die wichtigsten Ereignisse bei der Aufzeichnung gefiltert und indiziert.
Thu, Jul 2 13:15 Stefan Hartlieb Film Analysis – Scene Segmentation — Diplomarbeitsvortrag (1. Präsentation); Betreuer: Dalibor Mitrovic — Ein Shot ist ein Ausschnitt aus einem Film, der mit einer Kamera kontinuierlich aufgenommen wurde. Eine Szene besteht aus mehreren zusammengehörenden Shots bei denen sich die handelten Personen, bzw. die räumliche Umgebung nicht ändert. Ziel der Diplomarbeit ist es einen Algorithmus zu entwickeln, der einen Film in Szenen segmentieren kann. Die dahinterliegende Idee ist es ähnliche Shots wiederzuerkennen. Der Vortrag soll den Workflow zur Wiederfindung von Shots und die dabei zu verwendeten Merkmale beschreiben. Auch wie bei Sequenzen von nicht ähnlichen Shots, sowie bei Einstellungen die keiner Szene zuzuschreiben sind, vorgegangen werden soll wird erörtert

Q2/2009 Talks

Date Time By Topic
Thu, Jun 25 13:15 Matthias Zeintlinger Schreiben mit dem Brain Computer Interface — Diplomarbeitsvortrag (2. Präsentation); Betreuer: Christian Breiteneder, Matthias Zeppelzauer, Günter Edlinger; 20 min + 5 min Diskussion — Im Zuge der Diplomarbeit wurde ein P300-Speller entwickelt, der es ermöglicht Zeichen, Worte und ganze Sätze allein mit der Kraft der Gedanken zu schreiben ohne Aufwendung von Muskelkraft. In diesem Vortrag wird, nach einer kurzen Darstellung des P300-Prinzips, die Verarbeitungskette für die EEG-Signale des Spellers beschrieben. Weiters wird ein neuer Klassifikationsansatz zur automatischen Erkennung der Benutzeraktivität und zur Bestimmung der notwendigen Trials pro Buchstabe präsentiert. Der so entwickelte Speller wurde in einer Evaluierungsphase mit freiwilligen gesunden Benutzern getestet. Die Ergebnisse der Evaluierung werden im Vortrag präsentiert.
Thu, Jun 18 13:15 Stefan Oppl Ein Tabletop Interface zur Unterstützung expliziter Articulation Work — Dissertationspräsentation; 45 min. — In der heutigen Arbeitswelt ist Interaktion zwischen Akteuren eine inhärenter Bestandteil jedes Arbeitsvorgangs. Diese Interaktion muss zwischen den beteiligten Personen abgestimmt werden, um die Zielerreichung zu gewährleisten. Der Vorgang dieser Abstimmung wird als "Articulation Work" bezeichnet und läuft - zumeist unbewusst - immer dann ab, wenn in Interaktionen neue oder unklare Situationen auftreten oder etablierte Vorgehensweisen aufgrund geänderter Rahmenbedingungen nicht mehr anwendbar sind. Werden die Veränderungen zu groß, reicht unbewusste - implizite - Articulation Work nicht mehr aus; der Abstimmungsvorgang muss explizit angestossen und unterstützt werden. Ein wesentlicher Teil eines expliziten Abstimmungsvorgangs ist das Offenlegen der unterschiedlichen Sichten auf den betroffenen Arbeitsvorgang durch alle Beteiligten und die Entwicklung eines gemeinsamen Verständnisses, auf dem aufbauend neuen Formen der Interaktion gefunden werden können. Ziel der hier vorgestellten Arbeit ist es, diesen Abstimmungsvorgang technologisch zu unterstützten. Methodisch basiert der Ansatz auf Strukturlegetechniken, die verwendet werden können um individuelle Wahrnehmungen und Erklärungsmodelle realer Phänomene (wie Arbeitsabläufen) zu externalisieren und kollaborativ abzustimmen. Strukturlegetechniken arbeiten mit physischen, direkt manipulierbaren bedeutungstragenden Knoten und Kanten, aus denen sich im Laufe des Prozesses ein diagrammatisches Modell bildet. Dieses Modell wird jedoch rasch sehr groß und komplex, so dass eine technologische Unterstützung des Modellierungsvorgangs wünschenswert ist. Dazu wurde eine digital augmentierte Modellierungsoberfläche entwickelt, die den Modellbildungsvorgang verfolgt und unterstützen soll. Durch die dadurch digital vorhandene Modellrepräsentation wird außerdem eine Archivierung und Weiterverwendung der Modelle ermöglicht. Im Rahmen der Arbeit wurde das System auf Basis der zugrundeliegenen Ansätze konzipiert, technisch umgesetzt und evaluiert. Im Vortrag werden nach einer konzeptuellen Einführung das System und dessen Unterstütungsfunktionalität vorgestellt. Abschließend wird über die ersten Ergebnisse der durchgeführten empirischen Studien berichtet.
Mon, Jun 15 t.b.a. Michael Bleyer A Stereo Approach that Handles the Matting Problem via Image Warping — Test talk CVPR 2009 — We propose an algorithm that simultaneously extracts disparities and alpha matting information given a stereo image pair. Our method divides the reference image into a set of overlapping, partially transparent color segments. Each segment pixel is assigned an alpha value and color. The disparity inside the segment is modeled via a plane. The goodness of alphas, colors and disparity planes is measured by a new energy function. Its basic idea is to use the three parameters for generating artificial views representing the left and right images. If alphas, colors and disparity planes are correct, these artificial images should be very similar to the real ones. For generating the artificial right view, we warp all pixels of the left into the geometry of the right image using the disparity planes. We introduce the assumption of constant solidity in order to correctly model how pixels' alpha values are affected by the warping operation. Experimental results on the Middlebury set show that our algorithm gives good results in comparison to the state-of-the-art in stereo matching.
Wed, Jun 10 14:00 Olivia Nemethova Patenting Inventions in Europe: Why and How? In this presentation I would like to provide answers to questions related to patenting, which I was asking myself during my PhD studies at TU Wien: What is an invention and how to identify a patentable invention? Are computer implemented inventions patentable? Although I will particularly focus on the European patent law, I will also point out some interesting differences to other national laws. In order to decide on whether to file a patent or not, the value and a possible exploitation of the patent has to be considered. I will thus provide hints to deciding in the dilemma of many researchers whether to patent or rather publish in a scientific paper. Furthermore, I will present the procedure of obtaining a patent including requirements, approximate timing, and possibilities of speeding up the proceedings. Finally, I will briefly summarize the forms of industrial property other than patents.
Thu, Jun 4 13:15 Branislav Micusik Matching and 3D Reconstruction in Urban Environments — Dr. Branislav Micusik, http://ai.stanford.edu/~micusik/ (senior research scientist at AIT, Austrian Institute of Technology, former research scholar at George Mason University and Stanford University, USA); 45 min — Indoor and outdoor urban environments possess many regularities which can be efficiently exploited and used for general image parsing tasks, matching, or 3D dense reconstruction from multiple widely separated views. These environments exhibit often shadows, lack textured areas, or contain repetitive textures which multiply the ambiguities in standard computer vision pipelines. During my talk I will consider those specific environments and show the way we tackle the aforementioned problems.
First, I will present an approach for detecting rectilinear structures and demonstrate their use for wide baseline stereo matching, planar 3D reconstruction, and computation of geometric context. Second, I will focus on a dense stereo method utilizing properties of piecewise planarity and restricted number of plane orientations to suppress 3D reconstruction and matching ambiguities. We show how the utilization of the scene priors yields more accurate and visually plausible results in many urban scenes compared to the standard general methods.
Fri, May 29 10:00 Prof. Elisabeth André
Augsburg University
Towards Emotional Sensitivity in Human-Computer Interaction — TU Wien, Hörsaal EI 8, Gußhausstr. 25-29, Stiege 1, EG — See http://www.informatik.tuwien.ac.at/events/forschung/174 for details
Mon, May 18 11:00 Mirza Ciric
Johannes Fromm
Virtualisierungsstrategien für IMS — IMS Technical Talks — Virtualisierung ist eine Schlüsseltechnologie um Kosten und Administrationsaufwand von IT-Systemen zu reduzieren. Dabei werden die Ressourcen eines Rechnersystems (Host) aufgeteilt und von mehreren unabhängigen virtuellen Betriebssysteminstanzen (Guests) genutzt. Wir planen eine Umstellungen unserer jetztigen IT-Infrastruktur am IMS und wollen die vielen physischen Rechner in Zukunft als virtuelle Maschinen realisieren. In diesem Seminar wollen wir unsere Vorhaben vorstellen und mit euch diskutieren.
Thu, Apr 30 13:00 Neslihan Orta Reisemanagement-Schulung — Quästur/Lohnverrechnung
Mon, Apr 20 11:00 Petra Kölndorfer Kinetosis / Motion Sickness: A New Approach for Adaptation in Virtual Reality — Diplomarbeitsvortrag (2. Präsentation); Betreuer: Hannes Kaufmann — Kinetose ist der medizinische Begriff für Bewegungskrankheit. Er stammt aus dem Griechischen und bedeutet “sich bewegen”. In dieser Diplomarbeit sind die Effekte der Bewegungskrankheit und von Cybersickness beschrieben. Dieses Thema wird auf Basis von bestehenden Arbeiten diskutiert, in denen frühere Ansätze zu diesem Thema aufgezeigt werden. Kinetose entsteht, wenn die Informationen, die alle Teile des Gleichgewichtsorgans - Ohren, Muskeln und Augen - zum Gehirn senden, inkonsistent sind. Es existieren drei Haupttheorien, die alle versuchen die genauen Mechanismen dieser Krankheit zu ergründen. Neben diesen Theorien gibt es auch noch andere Faktoren, die Cybersickness hervorrufen. Die Symptome dieser Krankheit sind sehr verschieden, zum Beispiel angestrengte Augen, Kopfschmerzen oder Ubelkeit. Der praktische Teil dieser Arbeit stellt die Hypothese auf, dass Adaption in kurzer Zeit möglich ist. Um diese These zu uberprüfen, wurde eine virtuelle Umgebung erstellt, in der die Testpersonen vier Tage trainiert wurden. Das Training bestand daraus, dass die Personen ein maximal 25 Minuten langes Replay von einem Autorennspiel anschauen mussten. An jedem der vier Tage war eine Sitzung. Ein Fragebogen wurde erstellt, der die Ergebnisse quantifizieren soll. Die daraus entstandenen Sickness Scores wurden analysiert und aufgrund dieser Daten wurde eine Schlussfolgerung gezogen. Am Ende gibt es einen kleinen Exkurs zu zukünftigen Forschungsfeldern.

Q1/2009 Talks

Date Time By Topic
Thu, Mar 26 13:15 Jürgen Pucher Erstellen eines Standard Datensatzes für die Evaluierung von Alpha Matting Algorithmen und Aufbereitung der Resultate für die Lehre — Diplomarbeitsvortrag (2. Präsentation); Betreuer: Margrit Gelautz, Christoph Rhemann — Image Matting ist das Problem der Trennung von Vorder- und Hintergründen in digitalen Bildern. Um die Resultate von Matting Algorithmen vergleichen zu können, wurden in vergangenen Arbeiten meist qualitative Vergleiche anhand einiger Matting Resultate verwendet. Um einen quantitativen Vergleich von Matting Algorithmen zu ermöglichen, ist ein Bilddatensatz mit korrespondierenden Referenzlösungen nötig. In kürzlich publizierten Arbeiten wurden mehrere solche Bilddatensätze mit Referenzlösungen vorgestellt. Allerdings hat sich bislang keiner dieser Datensätze als Standard für den Vergleich von Matting Algorithmen etablieren können. Dies ist unter anderem dadurch bedingt, dass keiner dieser Datensätze in ein vollautomatisches Online-Benchmark-Verfahren eingebunden ist. Ein umfangreicher Online-Benchmark sollte idealerweise auf einer großen Anzahl von Testbilder durchgeführt werden. Allerdings ist dies mit einem sehr hohen Rechenaufwand verbunden. Daher ist das Ziel dieser Arbeit, aus einem kürzlich vorgestellten Datensatz repräsentative Bilder auszuwählen, die für den Vergleich von Matting Algorithmen verwendet werden können. Die Schwierigkeit besteht darin, die Variation des gesamten Datensatzes im kompakten Datensatz abzubilden. Um repräsentative Bilder auszuwählen wurden für alle Bilder Resultate mit mehreren Matting Algorithmen berechnet. Durch den pixelweisen Vergleich der resultierenden Alpha Matte mit der Referenzlösung wurde eine Fehlerrate ermittelt. Die Bilder wurden ihrem Inhalt entsprechend in Kategorien eingeteilt und diejenigen Bilder aus der jeweiligen Kategorie ausgewählt, die einen hohen Schwierigkeitsgrad aufweisen. Ein weiteres Ziel dieser Arbeit ist es, den Forschungsbereich Matting sowie die Ergebnisse dieser Arbeit für die didaktische Anwendung aufzubereiten. Dies wurde in Form einer E-Learning Plattform realisiert. Durch den gezielten Einsatz verschiedener Hilfsmittel des Systems kann der Lernprozess sinnvoll unterstützt und ein positiver Lernerfolg erreicht werden.
Thu, Mar 19 14:00 Andreas Rauber
(IFS, TU Wien)
Quick Overview of MIR Activities We'll review the feature vector sets Rhythm Patterns (RP), Rhythm Histograms (RH) and Statistical Spectrum Descriptors (SSD) and provide an outlook on current activities wrt. feature extraction from audio. Then we'll take a look at some of the applications, particularly the PlaySOM and PocketSOM interfaces for exploring music collection, with a brief glance at other areas of activity such as source separation, 3D worlds for music, chord detection, audio segmentation, depending on interest. Details on the various aspects, as well as some demo software, are available from the web at http://www.ifs.tuwien.ac.at/mir.
Thu, Mar 12 13:15 Tobias Schleser Face Detection in Historic Documentaries With a Cascaded Classifier — Diplomarbeitsvortrag (2. Präsentation); Betreuer: Christian Breiteneder, Matthias Zeppelzauer — The presentation covers a face detection system that is based on a cascaded classifier. The face detector is trained and evaluated in the context of historic documentaries by the Soviet filmmaker Dziga Vertov. The historic films bear image deficiencies including flicker, scratches, dirt, image vibrations, bad lighting and low contrast. We describe how the detection framework is adapted to the material and provide detailed results for several sample scenes from the documentaries. Additionally, the performance of the training and detection stages are presented.
Thu, Mar 5 13:15 Pamela Rott Evaluierung von Fehlermetriken für Image Matting — Diplomarbeitsvortrag (2. Präsentation); Betreuer: Margrit Gelautz, Christoph Rhemann — Image Matting zielt darauf ab, ein Vordergrundobjekt aus einem beliebigen Bild herauszulösen, welches als eine Kombination aus Vorder- und Hintergrund beschrieben wird. Das Resultat eines Mattingverfahrens ist eine Alpha Matte, welche den Einfluss des Vorder- sowie Hintergrundes an jedem Pixel im Bild definiert. Die Vielzahl der Mattingverfahren bringt Resultate von unterschiedlicher Qualität hervor. Um die visuelle Qualität eines Bildes festzustellen, können sowohl subjektive als auch objektive Evaluierungsverfahren eingesetzt werden. Der Mensch spielt hier eine wesentliche Rolle, da das menschliche Auge Kriterien zur Beurteilung heranzieht, die entscheidender sein können als die pixelweise Differenz zum Referenzbild. Subjektive Evaluierungsverfahren in Form von Benutzerstudien sind jedoch sehr aufwändig, weshalb automatisierte Berechnungen notwendig sind. Diese Berechnungen werden aber nur dann erfolgreich sein, wenn die Bewertung des Menschen damit korreliert. Deshalb sollten in die automatisierten Berechnungen Faktoren einfließen, die erheblichen Einfluss auf die visuelle Qualität von Matting Resultaten haben und das menschliche visuelle System berücksichtigen. In dieser Studie werden Faktoren wie die räumliche Verbundenheit (Connectivity), der Gradientenverlauf und die auftretenden Artefakte im Vorder- und Hintergrund herangezogen und durch eine Auswahl an Probanden sowie automatisierte Berechnungen bewertet. Anschließend werden die Resultate der Probanden und der automatisierten Berechnungen verglichen. Die Auswertung der Studie hat gezeigt, dass Objekte mit starker Verbundenheit und niedrigem Gradientenverlauf von den Probanden tendenziell als visuell hochwertig eingestuft werden. Die dafür entwickelten automatisierten Fehlermaße korrelieren mit den Resultaten der Probanden und dementsprechend mit der visuellen Wahrnehmung. Bei der im Vorfeld getroffenen Annahme hingegen, dass Artefakte im Hintergrund störender wirken als im Vordergrund, konnte im Rahmen dieser Studie keine Einigkeit unter den Probanden festgestellt werden.
Thu, Feb 26 13:15 Martha Kaltenecker Vereinheitlichung von Stereo und optischem Fluss in einem Energieminimierungsansatz — Diplomarbeit (1. Präsentation); Betreuer: Michael Bleyer, Margrit Gelautz — Um automatisiert Tiefeninformation aus Videos zu gewinnen, muss eine bewegte Szene aus zumindest zwei leicht unterschiedlichen Perspektiven zur selben Zeit mit kalibrierten Videokameras gefilmt werden. Durch eine zeitlich unabhängige Ermittlung von Tiefe für jedes individuelle Stereo-Framepaar, können Artefakte in Form von Flackern (z.B. durch das Auftreten von Bildrauschen) im 3D-Video entstehen. Ziel dieser Diplomarbeit ist es, Stereo und Optical Flow in einer einzigen Energiefunktion zu formulieren. Auf diese Weise werden die resultierenden Tiefenbilder aufeinanderfolgender Frames in zeitliche Abhängigkeit gebracht. Eine wesentliche Herausforderung ist es, eine derartige Energiefunktion zu optimieren. Durch die Hinzunahme des Optical Flow entsteht eine sehr große Label-Menge (Menge aller möglichen Richtungen und Geschwindigkeiten, mit denen sich ein Bildpunkt bewegen kann, und Menge der Disparitäten). Mit neuartigen Optimierungsalgorithmen, wie Log-Cuts, ist es jedoch möglich, die Energiefunktion zeiteffizient zu optimieren.
Thu, Feb 19 13:15 Roland Gross Evaluierung von farbbasierten Dissimilaritätsmassen in radiometrisch verzerrten stereoskopischen Bildern — Diplomarbeit (1. Präsentation); Betreuer: Michael Bleyer, Margrit Gelautz — Im Moment verwenden viele Stereo Matching Algorithmen (global sowie lokal) nur Intensitätswerte um Disparitätsbilder zu berechnen. Aktuelle Studien zeigen jedoch, dass die Verwendung von Farbinformation die Robustheit der Matchingkostenberechnung erhöhen kann. Dies zeigt sich besonders deutlich an radiometrisch verzerrten Basisdaten. Einfache Beispiele für radiometrische Verzerrungen sind zum Beispiel unterschiedliche Belichtungszeiten oder Beleuchtungsverhältnisse. Die Diplomarbeit beschäftigt sich mit der Frage, ob die Verwendung von Farbinformation bei der Berechnung von Dissimilarität in radiometrisch verzerrten Bildern bessere Ergebnisse liefern kann als herkömmlich, intensitätsbasierte Verfahren. Dazu werden sechs Matchingkostenberechnungsverfahren (sampling‐insensitive absolute difference, LoG filter, Rank filter, Mean filter, hierarchical mutual information, normalized cross‐correlation) um die Verwendung von Farbinformation erweitert und anschließend evaluiert. Desweiteren werden sogenannten Support Weights implementiert und ebenfalls mit radiometrisch verzerrten Bildern evaluiert.
Thu, Feb 19 13:15 Michael Birsak,
Michal Domanski,
Michael Hanzl
Cloth Interaction and Visualisation in a VR Environment — Praktikumspräsentation; Betreuer: Mathis Csisinko — Das Ziel dieser Arbeit ist es mit Tüchern in einer Echtzeit-Virtual-Reality-Umgebung zu interagieren. Dazu wurde eine Applikation für die Virtual- und Augmented-Reality-Umgebung Studierstube entwickelt. Dabei werden unter Zuhilfenahme der Physik-Engine Nvidia PhysX Tücher und deren Verhalten simuliert. So ist es möglich mit selbst entwickelten Datenhandschuhen, die die Schnittstelle zwischen Mensch und Maschine darstellen, diese simulierten Tücher zu greifen und mit ihnen zu jonglieren, als würden diese tatsächlich in realer Form existieren. Um die Tücher zu sehen, trägt der Benutzer ein Head-Mounted Display (HMD).
Thu, Feb 12 13:15 Harald Jordan Optimized Intra-Mode Decision for Real-Time H.264/AVC Video Coding — Diplomarbeit (2. Präsentation); Betreuer: Margrit Gelautz, Florian Seitner, Michael Bleyer — The inherent coding parameters of the high-complexity video-compression standard H.264/AVC are superior to all previously developed video encoding standards. The aims of the video compression standard H.264/AVC are to achieve better compression efficiency and even higher image quality compared to its predecessors (MPEG-2). The most significant improvements described in this standard are mainly due to the variable block size motion estimation & compensation by further using sub-pixel accuracy and the enhanced Intra mode prediction process. This increased encoding performance thus requires complex algorithms and methods implicating modern and powerful micro-computers to facilitate real-time procession of high resolution video streams. Currently the market takes this into account by offering specialised and quite often limited solutions realised in ASICs or functional blocks inside application-processors. Thus the subject H.264 requires fairly long-term efforts in research and development for gaining high sophisticated and creative advances in video compression. The purpose of this thesis is to analyse and furthermore optimise the compression methods defined in H.264 for an efficient application in the automation and in automotive areas whereas the optimisation is with respect to improvements of the runtime-behaviour. Hence the main focus thereby is on increasing the efficiency of the H.264 Intra-Only encoding. To achieve these aims it is necessary to carefully study the behaviour of the encoding techniques, develop new methods for saving computational load and simulate the resulting algorithms. A further task is to proof the practical and scientific relevance of the gained conclusions. In the course of these investigations at least two approaches are implemented and tested to further proof the theoretical fundamentals.
Thu, Feb 5 13:15 Biljana Jovic Untitled talk by Biljana Jovic, guest researcher from Belgrade University
Thu, Jan 15 13:15 Aksel Filipovic Musikgenreklassifikation mit Hilfe von Hidden Markov Modellen — Diplomarbeit (2. Präsentation) — Bei diesem Vortrag handelt es sich um die Endpräsentation der Magisterarbeit Musik-Genreklassifikation mit Hilfe von Hidden Markov Modellen. Neben Hidden Markov Modellen im allgemeinen werden die Modellen mit kontinuierlichen Beobachtungssequenzen im besonderen erklärt. Zusätzlich werden die Parameter für die Klassifikation von Musik mit Hilfe von diesen Modellen detailiert diskutiert und Resultate in dieser Magisterarbeit präsentiert.
Thu, Jan 15 13:15 Petra Kölndorfer Kinetose / Motion Sickness - A new appoach for adaptation in Virtual Reality — Diplomarbeit (1. Präsentation)
Thu, Jan 9 13:15 Markus Seidl A Unified Approach for the Detection of Gradual Transitions in Historic Film Material — 15min + 5min Diskussion — The master thesis deals with the problem of shot boundary detection (SBD) in old B/W footage: The footage of the soviet film maker Dziga Vertov. The first step in automated content based analysis of video material is the detection of shot boundaries. This is an active research topic, and is seen as solved for the easiest to detect type of transitions, the cut. The detection of gradual transitions (GTs) still is a field for many different approaches. The steps towards successful SBD are a) selection and extraction of appropriate features, b) construction of the continuity signal and c) classification of the frames. In the case of detection of GTs two approaches are researched: Unified approaches, i.e. one detector for all GT Types, and approaches that use specialized approaches for each GT Type. In this master thesis, a unified approach will be developed. For a) special properties of the Vertoff footage have to be considered: The material is old, not restored and in contrast to most test footage for GT approaches in B/W. The features have to be selected to deliver a representation of the frames that is not sensitive to flickering, fungus, artefacts, etc.. Regarding b), motion of camera and/or objects as well as illumination changes are the big challenges. The continuity signal will be constructed using a similarity matrix and filtering this along the diagonal, as it is used in many approaches. In c) the question of thresholding vs. classification has to be answered. In literature, most unified approaches use classification with kNN or SVMs.

Q4/2008 Talks

Date Time By Topic
Thu, Dec 18 13:15 Harald Jordan Optimized Intra-Mode Decision for Real-Time H.264/AVC Video Coding — Diplomarbeit, 1. Talk; Betreuer: Florian Seitner, Michael Bleyer, Margrit Gelautz — The achieved coding efficiency of H.264/AVC is superior to all previously developed video encoding standards. Unfortunately this increased encoding performance requires complex algorithms and methods implicating modern and powerful micro-computers to facilitate real-time procession of video streams. The purpose of this diploma thesis is to propose and develop methods as well as algorithms concerned with the reduction of encoding-efforts. The main focus thereby is on the efficiency increase for H.264 Intra-Only encoding. To achieve these aims it is necessary to carefully study the behaviour of the encoding techniques, simulate the operation method of the developed improvements and proof the practical and scientific relevance of the gained conclusions.
Thu, Dec 18 13:15 Pamela Rott Evaluierung von Fehlermetriken für Image Matting — Diplomarbeit (1. Präsentation) — Image Matting beschäftigt sich mit dem Herauslösen eines Vordergrundobjektes aus einem beliebigen Originalbild. Als Resultat eines Matting Algorithmuses erhält man eine Alpha Matte, die den Vorder- sowie den Hintergrund des Originalbildes definiert. Um diese Alpha Matte zu erhalten, werden unterschiedlichste Segmentierungs- bzw. Mattingverfahren eingesetzt. Um in weiterer Folge die Qualität der Alpha Matte festzustellen, wird die Abweichung der Resultate von einer Referenzlösung mit Hilfe von Fehlermetriken berechnet. Hauptaugenmerk dieser Arbeit ist es festzustellen inwieweit diese Fehlermetriken der visuellen Wahrnehmung entsprechen.
Thu, Dec 11 13:15 Anita Bogner Evaluierung und Entwurf von Epipolarrektifizierungsverfahren zur Verwendung in einem Stereovisionframework — Diplomarbeit (1. Präsentation) — Epipolarrektifizierung ist ein Verfahren aus dem Gebiet der Computer Stereo Vision, dessen Ziel es ist Stereobildpaare so zu transformieren, dass zusammengehörende – also demselben Objektpunkt entsprechende – Bildpunkte in den „rektifizierten“ Bildern auf einer horizontalen Linie liegen. Das „Korrespondenzproblem“ (das Finden korrespondierender Bildpunkte), wird unter dieser Voraussetzung wesentlich vereinfacht und nachfolgende Stereo Matching Verfahren beschleunigt. Inhalt der Diplomarbeit ist die (Nach-)Implementierung eines Epipolarrektifizierungsverfahren in C++, sowie Integration dieses Verfahrens in ein bestehendes Stereovisionframework. Anschließen soll auch die Qualität der Rektifizierungsergebnisse anhand von Ground-Trouth Daten evaluiert und mit anderen Verfahren verglichen werden. Ziel ist es zu untersuchen, wie sich verschiedene Faktoren, wie etwa die Qualität der als Input für die Rektifizierung notwenigen Punktkorrespondenzen, auf die Qualität der Rektifizierungsergebnisse auswirken.
Thu, Dec 4 13:15 Georg Gerstweiler,
Emanuel Vonach
Konstruktion eines aktiven Motion Tracking Suit für den Einsatz in sportpädagogischen VR-Anwendungen
Thu, Dec 4 13:15 Matthias Zeintlinger Schreiben mit dem Brain Computer Interface — ~20 Minuten + Demo von Firma G-Tec — Die Vorstellung, Dinge allein mit Kraft unserer Gedanken steuern/bewegen zu können, übt schon seit jeher eine Faszination auf die Menschen aus. Diese Vision mit Hilfe des Computers in die Realität umzusetzen, damit beschäftigt sich das Forschungsumfeld des Brain Computer Interface (BCI). So ist es zum Beispiel bereits möglich, den Mauscursor am Computer zu bewegen, am Computer zu schreiben, eine Smarthome-Umgebung zu kontrollieren oder eine künstliche Armprothese zu steuern - und das ohne sprichwörtlich auch nur einen Finger zu rühren, allein mit der Kraft unserer Gedanken. Was dafür notwendig ist, wie der Computer es überhaupt schaffen kann, Gedanken zu lesen und in entsprechende Aktionen umzusetzen und welche Vor- und Nachteilen sich daraus ergeben wird in diesem Vortrag erläutert. Nach einem kurzen Überblick über die vier Hauptansätze des BCI und dem derzeitigen State of the Art wird das eigentliche Thema meiner Diplomarbeit, das Schreiben mit dem BCI, fokussiert und dessen Funktionsprinzip detaillierter beschrieben. Um sich ein Bild der Theorie machen zu können hat sich die Firma g.tec medical engineering GmbH, mit deren Zusammenarbeit die Diplomarbeit durchgeführt wird, bereit erklärt, eine kleine Demonstration ihres bisherigen unter MATLAB® lauffähigen Spellers vorzuführen.
Thu, Nov 6 13:15 Asmaa Hosni English Text to Arabic Sign Language Translator — Report on previous work
Thu, Oct 16 13:15 Simone Tschann Kinematographie: Ein Vergleich von Rollfilm und High Definition — Diplomarbeit, 2. Vortrag — Film ist wohl eines der letzten analogen Medien, die noch nicht von der vollkommenen Digitalisierung erfasst wurde. Doch die rasante Entwicklung, besonders in den letzten Jahren macht es schwer, die Videotechnik aus den Kinos fern zu halten. In diesem Vortrag geht es um einen Vergleich der analogen und digitalen Filmtechnik in der Produktion. Geprägt durch Kornrauschen über ein ganzes Jahrhundert wird das analoge Kinobild durch die Digitaltechnik plötzlich in Frage gestellt. Welche Qualitätsunterschiede gibt es, wo liegen die Vor- und wo die Nachteile? In Diskussionen über analog und digital steht dann Auflösung und Schärfe meist an erster Stelle. Dieser Punkt ist aber nur einer von vielen, der bei einem Vergleich der beiden Technologien berücksichtigt werden soll. Beginnend bei der kleinsten Einheit steht das Korn gegenüber dem Pixel. Das Bild jedoch als Ganzes betrachtet sind der Kontrast, die Farbe, die Schärfentiefe und auch das Licht mögliche Kritikpunkte für eine Technologie. Ursache dieser Unterschiede liegt schon bei der Aufnahmetechnik. Doch die rasante Entwicklung der Digitaltechnik versucht sich immer mehr an die der Analogen anzugleichen, oder diese sogar zu übertreffen.
Thu, Oct 16 13:15 Jürgen Pucher Erstellen eines Standard Datensatzes für die Evaluierung von Alpha Matting Algorithmen und Aufbereitung der Resultate für die Lehre — 1. Diplomarbeitsvortrag — Unter "Matting" versteht man das Trennen von Vorder- und Hintergrund eines Bildes. Um alpha matting Algorithmen quantitativ vergleichen zu können, ist ein Standarddatensatz mit entsprechenden Refernzlösungen wesentlich. Ziel dieser Arbeit ist die Erstellung eines Referenzdatensatzes, der eine möglichst große Variation an natürlichen Bildern in einem kompakten Datensatz abbildet.
Thu, Oct 9 13:15 Thomas Pintaric ISMAR 2008 — Conference Report

Q3/2008 Talks

Date Time By Topic
Thu, Sep 25 13:15 Marie-Theres
Tschurlovits
Dynamic Differential Geometry in an Educational Augmented Reality Application — Diplomarbeits-Endvortrag — In this thesis a number of geometry software packages leading both to static and dynamic constructions and their particular features will be presented. Afterwards Construct3D a 3D dynamic geometry construction tool will be introduced. It is based on the Augmented Reality System Studierstube. Construct3D's greatest advantage compared to other dynamic geometry software is the possibility for users to see the real environment augmented with virtual content with the aid of a head mounted display. That gives the users, mainly high school and university students, the opportunity to actually construct, explore and interact with three dimensional content in "real" 3D space. The practical part of this thesis was the implementation of a number of new functions for Construct3D. Several tools have been developed to enhance the understanding of the term curvature of curves and surfaces. To complement the already available sweep function of Construct3D helical and general sweeps have been implemented.
Thu, Aug 28 11:00 Christoph Rhemann Improving Color Modeling for Alpha Mattin — Test talk BMVC — 15 min talk + 15 min discussion — In this work we addresses the problem of extracting an alpha matte from a single photograph given a user-defined trimap. A crucial part of this task is the color modeling step where for each pixel the optimal alpha value, together with its confidence, is estimated individually. This forms the data term of the objective function. It comprises of three steps: (i) Collecting a candidate set of potential fore- and background colors; (ii) Selecting high confidence samples from the candidate set; (iii) Estimating a sparsity prior to remove blurry artifacts. We introduce novel ideas for each of these steps and show that our approach considerably improves over state-of-the-art techniques by evaluating it on a large database of 54 images with known high-quality ground truth.
Thu, Jul 7 13:15 Aksel Filipovic Musikgenreklassifikation mit Hilfe von Hiden Markov Modelen — Dieser Vortrag soll die allgemeine Verwendung von Hidden Markov Modelen in Bereich der Musikgenre- klassifikation näher erklären, state-of-the-art Genreklassifikation mit Hidden Markov Modelen geben, den Ansatz und verwendete Features kurz darstellen und das verwendete MIRFramework und HMM Toolboox kurz präsentieren.

Q2/2008 Talks

Date Time By Topic
Thu, Jun 26 13:15 Michael Bleyer Evaluation of Different Methods for Using Colour Information in Global Stereo Matching Approaches — ISPRS 2008 paper by Michael Bleyer, Sylvie Chambon, Uta Poppe, Margrit Gelautz — 20 min. — Global algorithms currently represent the state-of-the-art in dense stereo matching. These methods first set up an energy function. The energy function is then subject to optimization, which is typically achieved via graph-cuts or belief propagation. In this paper, we concentrate on the energy modelling aspect. An experimental study that focuses on the role of colour in stereo energy functions is presented. We evaluate the performance of various forms for using colour and compare it against grey-scale matching. Colour is thereby represented in nine different colour systems. The $L_1$ and $L_2$ distances are evaluated for computing the colour differences in the selected systems. We embed the resulting energy functions into two stereo algorithms and test them on 30 ground truth test image pairs. The results of our benchmark show that colour information, in general, leads to a significant performance gain over using intensity only. According to our evaluation results, the selection of the applied colour space is of specific importance in global stereo matching.
Thu, Jun 26 13:15 Stephan Petzl Billboard Substitution in Soccer Videos — 15 min. — In dem Vortrag geht um das möglichst automatisierte Ersetzen von Bandenwerbung in Fußballübertragungen. Dabei gehe ich auf diverse Ansätze zur Lösung des Problems ein und gebe einen kurzen Einblick in die von mir entwickelte Testumgebung.
Thu, Jun 12 13:15 Jakob Rieckh Scalable Video Coding (SVC) for Peer-to-Peer Streaming Pulsar - developed by the distributed computing group of the ETH Zurich - is a completely decentralized peer-to-peer system for live and on-demand streaming. By now it is only possible to broadcast a video stream at a fixed and unchanging bit rate. To change this shortcoming the propagation of a scalable bit stream would be desirable. The so called Scalable Video Coding (SVC) standard is used to encode the video as a scalable bit stream.
Thu, Jun 5 13:15 Thomas Wagner Automatic Speaker Change Detection Automatic Speaker change detection is an important field, especially for discussions broadcast on TV. It is important, that every discussant has the same time to speak. With automatic speaker change detection it is easy to make a memorandum of the talking-times. This paper gives an overview about different audio/video features and techniques used for speaker change detection. There are different criteria for analyzing the audio and the video stream. The combination of an audio and a video criterion achieves more reliable results, than procedures, that are based either on audio or on video features. These theoretical criteria will be implemented as a full independent application. Different TV discussions will be used for testing the combination of audio and video analysis.
Thu, May 29 No seminar… Room occupied.
Thu, May 15 13:15 Matthias Zeintlinger Query by Humming — 15 min Vortrag + 5 min Diskussion — Query by Humming (QbH) ist ein Begriff aus dem Bereich Music Information Retrieval (MIR) und beschreibt ein Suchproblem. Ziel ist es, zu einer vom Benutzer gesummten bzw. gesungenen Melodie die zugehörige Musikdatei aus einer Menge von im Computer gespeicherten Liedern zu finden. Wie bei nahezu allen inhaltsbasierten Suchproblemen ist die richtige Auswahl der Features, der Repräsentation dieser Features und des Vergleichsalgorithmus' entscheidend für eine effiziente und erfolgreiche Suche. Für jeden dieser drei Teilbereiche wird die Kernfunktionalität der derzeit gängigen Methoden im Ansatz beschrieben um so ein Verständnis für die Funktionsweise (und Probleme) einer QbH-Applikation zu vermitteln.
Thu, May 8 13:15 Christian Schönauer Skeletal Structure Generation for Optical Motion Capture — Epilog test talk; takes place in the meeting room on the first floor Motion capture systems today have to deliver high quality motion data, while being flexible and easily adaptable to different actors. Therefore, accurately determining parameters of a subject's skeletal structure is crucial. Inferring these values automatically from optical motion capture data without additional measurements, however, is a challenging task. This thesis describes the steps necessary to calculate the joint positions and limb lengths using data from a passive optical tracking system. The algorithm is a multi-stage process that includes the tasks of automatic marker labeling, limb-wise clustering of markers and calculation of joint positions. Finally an estimate of the topology and the parameters of the articulated structure are computed. Since the topology is inferred from the data, no model has to exist in advance. This in turn makes the implemented system flexible enough to capture not only human motions, but motions of an arbitrary articulated structure, without any adaptations or additional effort. The core functionality of the system, which is the skeleton fitting task, is done using a distance function, that is applied to marker positions. This function then is minimized by a non-linear minimization algorithm. Tests of the system have been performed with human motion capture data, artificially generated data sets and a construction of rods linked with articulations. The results show high accuracy for the artificial data. For the tracked data sets also satisfactory outcome is produced.
Mon, Apr 28 11:00 Tobias Schleser Face Detection and Face Recognition in Monochromatic Film — The Face Detection and Face Recognition problems receive considerable attention among researchers. While detection is the basis for recognition and aims for detecting all faces in an image regardless of their shape or three dimensional position, the latter focuses on recognizing the same face in different images. In my thesis I will target the difficult material of monochromatic Vertov films which date back to the 1930s. Unsteady camera motion, flicker and the missing color information are some of the challenges. For the detection problem, my first focus, I will implement Jones’ and Viola’s approach, Robust Real-time Object Detection (2001), as it is reported to work robustly and fast. I will present first efforts and outcomes in my talk.
Thu, Apr 24 13:15 Wolfgang Fuchs Erkennung von Sprecherwechseln — Seminararbeit + Bakk Präsentation; 15 + 5 min
Thu, Apr 24 13:15 Markus Autengruber Image Matting and Composite Image — Ersatztermin für Seminararbei; 20min — Dieser Vortrag widmet sich dem akkuraten Extrahieren von digitalen Bildinhalten (Image Matting) sowie der darauf folgenden Komposition von verschiedenartigen Bildinhalten (Composite Image). Im Zusammenhang mit der Vorstellung und Beschreibung dieses Forschungsgebiets erfolgt eine Evaluierung vorhandener Methoden bzw. Algorithmen anhand der Diskussion von Bildbeispielen.
Thu, Apr 10 13:15 Clemens Helm Symmetry detection in image — 15 min — Symmetry has become an important feature in robot vision and other active vision systems, as it plays a decisive role in human perception of their environment. Therefore many systems require efficient symmetry detectors to appreciate images the way we would do. Navigation issues and detection of attentional points are only some of the versatile challenges that symmetry detection algorithms have to cope with. This paper focuses on discussing different approaches and thoughts on detecting symmetries and their relevancy to practice.

Q1/2008 Talks

Date Time By Topic
Thu, Mar 27 13:15 Julian Stöttinger,
PRIP
Interest and Boring Points
Thu, Feb 28 13:15 Markus Autengruber Ersatztermin für Seminar aus Medieninformatik
Thu, Feb 21 13:15 Christian Ammer Ableiten von affinen Bewegungen aus Videos — 2. Diplomarbeitspräsentation; 20 + 10 min — Methodisches Extrahieren von Bewegungsinformationen aus Videosequenzen ist eine Grundlage für viele Anwendungen, wie Videokompression, 3D Modellierung und andere. Im Vortrag wird ein Verfahren vorgestellt, das affine Bewegungsparameter aus einer kurzen Videosequenz extrahiert. In einem weiteren Schritt wird jeder Pixel einer Ebene mit bestimmter affiner Bewegung zugeordnet. Für die Extraktion der affinen Parameter wird der KLT Feature Tracker, eine Level Set Methode, Region Growing und Region Merging eingesetzt. Für das Zuweisen der affinen Bewegungsparameter zu allen Pixeln der Videosequenz wird ein Graph Cut Verfahren verwendet. Im Vortrag werden die einzelnen Verfahren vorgestellt.
Thu, Feb 14 13:15 Michael Bleyer Simple but Effective Tree Structures for Dynamic Programming-based Stereo Matching — Work Report; 30 + 10 min — This work describes a fast method for computing dense stereo correspondences that is capable of generating results close to the state-of-the-art. We propose running a separate disparity computation process in each image pixel. The idea is to root a tree graph on the pixel whose disparity needs to be reconstructed. The tree thereby forms an individual approximation of the standard four-connected grid for this specific pixel. An exact optimum of a predefined energy function on the applied tree structure is determined via dynamic programming (DP), and the root pixel is assigned to the disparity of optimal costs. We present two simple tree structures that allow for the efficient calculation of all trees' optima with only four scanline-based DP passes. These simple trees are designed to capture all pixels of the reference frame and incorporate horizontal and vertical smoothness edges in order to weaken the scanline streaking problem inherent in DP-based approaches. We evaluate our results using the Middlebury test set. Our algorithm currently ranks at the eighth position of approximately 30 algorithms in the Middlebury database. More importantly, it is the currently best-performing method that does not use image segmentation and is significantly faster than most competing algorithms. Our method needs less than a second to determine the disparity map for typical stereo pairs.
Thu, Feb 7 13:15 Johannes Wallner Informationsvisualisierung mit offenen Webstandards — Praktikumspräsentation; 20 + 10 min — Anhand mehrerer Fallstudien zu ausgewählten Methodiken der Informationsvisualisierung soll gezeigt werden, dass zu derer Umsetzung die offenen Webstandards SVG und X3D effektiv eingesetzt werden können. Die strukturellen Möglichkeiten der beiden Modellierungssprachen sollen dabei nach Möglichkeit voll ausgeschöpft werden. Die Ergebnisse der Fallstudien sind zufrieden stellend und bezeugen großes Potenzial für die Informationsvisualisierung.
Thu, Jan 31 13:15 Bernhard Fölsner Bildsegmentierung: Eine auf Eye-Tracking basierende Evaluierung — 30 min — Wahrnehmungspsychologische Grundsätze und physisch bedingte Einschränkungen des Menschen, beeinträchtigen seine Wahrnehmung (interpretierte Konstanzen schaffen Klarheit und Eindeutigkeit). Eine Begriffsklärung und kurze theoretische Einführung bilden die Grundlage für die Präsentation der Studienauswertung. Vorstellung der gesamten Studie (Herangehensweise mit Aufbau bis zur Analyse) und ihrer zu Grunde liegenden Daten (Auswahl an Eye-Tracking Bildern).
Thu, Jan 24 13:15 Florian Seitner A High-Level Simulator for the H.264/Avc Decoding Process in Multi-Core Systems — Test-Talk, SPIE 2008 — H.264 as a new-generation video coding algorithm is becoming increasingly important for international broadcasting standards such as DVB-H and DMB. In comparison to its predecessors MPEG-2 and MEPG-4 SP/ASP, H.264 achieves improved compression efficiency at the cost of increased computational complexity. Real-time execution of the H.264 decoding process poses a large challenge on mobile devices due to low processing capabilities. Multi-core systems provide an elegant and power-efficient solution to overcome this performance limitation. However, efficiently distributing the video algorithm among multiple processing units is a non-trivial task. It requires detailed knowledge about the algorithmic complexity, dynamic variations and inter-dependencies between functional blocks. The objective of this paper is an investigation on the dynamic behavior of the H.264 decoding process and on the interaction between the main decoding tasks in the context of multi-core environments. We use an H.264 decoder model to investigate the efficiency of a decoding system under various conditions (e.g. different FIFO buffer sizes, bitstreams, coding features and bitrates). The gained insights are finally used to optimize the runtime behavior of a multi-core decoding system and to find a good trade-off between core usage and buffer sizes.
Thu, Jan 24 13:15 Angelika Preißler Implementierung eines historischen 3D-Weltatlanten auf der Basis von X3D — 2. Diplomarbeitspräsentation; 20 min + Diskussion — Ein wichtiges Prinzip von Web 2.0 ist die aktive Beteiligung von Benutzern als Produzenten von Inhalten. Wikis sind ein Vertreter des Web 2.0 und stellen genau diese Funktionalität den Benutzern zur Verfügung. Die vorliegende Arbeit beschäftigt sich mit der Umsetzung eines historischen 3D-Weltatlanten. Die grafische Visualisierung erfolgt mittels X3D. Die Datenbasis wird durch ein Wiki verwaltet und kann durch Benutzer erweitert und bearbeitet werden, wobei die geografischen Daten direkt in den Wikitext als XML eingebettet werden. Anhand von Links, dem Grundelement eines Wikis, werden die geografischen und historischen Strukturierungen vorgenommen. Die Transformation von XML zu X3D erfolgt durch XSL. Durch die Offenheit des Systems und der Verwendung von bekannten Umgebungen wird die Grundlage für eine umfangreiche Erweiterung der historischen Datenbank geschaffen.
Thu, Jan 17 13:15 Christian Schönauer Test-Talk Diploma Exam — 10 min — Motion capture systems today have to deliver high quality motion data, while being flexible and easily adaptable to different actors. Therefore, accurately determining parameters of a subject's skeletal structure is crucial. Inferring these values automatically from optical motion capture data without additional measurements, however, is a challenging task. This thesis describes the steps necessary to calculate the joint positions and limb lengths using data from a passive optical tracking system.
The algorithm is a multi-stage process that includes the tasks of automatic marker labeling, limb-wise clustering of markers and calculation of joint positions. Finally an estimate of the topology and the parameters of the articulated structure are computed. Since the topology is inferred from the data, no model has to exist in advance. This in turn makes the implemented system flexible enough to capture not only human motions, but motions of an arbitrary articulated structure, without any adaptations or additional effort. The core functionality of the system, which is the skeleton fitting task, is done using a distance function, that is applied to marker positions. This function then is minimized by a non-linear minimization algorithm.
Tests of the system have been performed with human motion capture data, artificially generated data sets and a construction of rods linked with articulations. The results show high accuracy for the artificial data. For the tracked data sets also satisfactory outcome is produced.
Fri, Jan 11 10:30 Dalibor Mitrovic Content-based Analysis of Early Black and White Films — 20+10 minutes; Talk and discussions — This talk takes place in the CG-Konversatorium... Seminarroom E186 - Favoritenstraße/ Stiege 1, 5th floor.

Q4/2007 Talks

Date Time By Topic
Thu, Dec 20 13:00 Anton Schöffmann Evaluation and Implementation of Improved Edge Detection Methods for an Industrial Robot Sewing Process — 2. Diplomvortrag; 30 min — Details (PDF)
Thu, Dec 13 13:15 Simone Tschann Kinematographie: Ein Vergleich von Rollfilm und High Definition — 1. Diplomarbeitspräsentation; 20 min (+ 10 min Diskussion) — Die Digitalisierung des Films entwickelt sich mit rasanter Geschwindigkeit und versucht sich der traditionellen Filmtechnik zu stellen. Im Verlauf der Präsentation wird ein Konzept dargestellt, wie ein Vergleich zwischen Rollfilm und High Definition umgesetzt werden kann, mit dem Ziel heraus zu finden, inwiefern die digitalen Technologien den Tod des physischen Films, wie wir ihn seit über hundert Jahren kennen, einleiten, oder ob sie lediglich eine Unterstützung im Produktionsablauf darstellen. Nach einer Grundlagenforschung der beiden Technologien werden die technischen, ästhetischen und wirtschaftliche Eigenschaften auf Vergleichbarkeit überprüft und mit Hilfe von Interviews auf Praxisnähe untersucht.
Thu, Dec 13 13:15 Nicole Brosch Color Reduction Effect — 1. Diplomarbeitspräsentation — Die Video Effect Library ist eine Sammlung von Algorithmen zur Bild- und Videoverarbeitung, die bereits für die LU Videoverarbeitung verwendet worden ist. Im Rahmen dieses Frameworks soll ein neuer Bildeffekt und auf diesem aufbauend ein Videoeffekt implementiert werden.
Der Bildeffekt versucht durch Farbreduktion mittels K-Means Clustering und Kantenerkennung einem Bild ein Cartoon-artiges Aussehen zu verleihen. Parameter wie z.B. Qualität und Anzahl der gewählten Farben im Bild sowie diverse Farbfilter erlauben es, den Bildeffekt zu beeinflussen.
Der Videoeffekt verhindert abrupte Farbänderungen, indem für jeden Frame ähnliche Startzentren gewählt und mehrere Nachbarframes mitgeclustert werden können. Zusammengehörende Cluster werden erkannt und deren Farbwerte gemittelt.
Neben den Eigenschaften des eigentlichen Videoeffekts können via Keyframeanimation auch die Bildeffekt-Parameter über die Zeit hinweg verändert werden.
Mon, Dec 3 11:00 Dr. Regine Bolter,
FH Vorarlberg
Mehr Frauen in die Informatik! — IEEE Gastvortrag — Regine Bolter, Studiengangsleiterin der Informatik an der Fachhochschule Vorarlberg, möchte mit Ihnen diskutieren, welches Berufsbild des Informatikers in den Köpfen der Gesellschaft und gerade auch bei jungen Mädchen existiert, was bereits jetzt am Beispiel der FH Vorarlberg getan wird, um dieses Bild auch im Hinblick auf mehr Informatikerinnen zu verbessern und welche Maßnahmen dazu noch notwendig und sinnvoll wären.
Thu, Nov 22 13:00 Sabine Berger,
Florian Scherz,
Markus Autengruber
AnyTracker — 20 minutes; Bachelor project presentation — Das Projekt "AnyTracker" besteht aus zwei Teilen: (1) Der erste beschäftigt sich mit der Aufnahme von einzelnen Bildern aus einem Videostream, um diese in einer Datenbank zu speichern und zusätzliche Kommentare dazu ablegen zu können. Anwendungsgebiet: Etwa ein Touristenführer-Programm, mittels dem Bilder von berühmten Locations zusammen mit interessanten Hintergründen zu diesen gespeichert werden können. (2) Der zweite Teil beschäftigt sich schließlich mit der Echtzeit-Analyse eines Input-Video-Streams und dessen Vergleich mit bereits in der Datenbank abgelegten Bildern, um vorhin gespeicherte Kommentare zu den gerade gefilmten Locations wieder aufrufen zu können. Anwendungsgebiet: Vorhin genanntes Touristenführer-Programm soll jedes Mal, wenn man die Kamera auf eine bereits gespeicherte Location richtet, die dazu abgelegten Hintergrundinformationen automatisch anzeigen. — Beide Teile wurden in einem von uns gestalteten UI realisiert und werden mithilfe einer marktgängigen PC-Kamera präsentiert.
Thu, Oct 18 13:15 Andreas Poppernitsch,
Martin Schreiber
Recognizing and Identifying Commercials in TV Streams — 30 minutes; Bachelor thesis presentation — Details (PDF)
Thu, Oct 11 13:00 Anton Schoeffmann Evaluation and Implementation of Improved Edge Detection Methods for an Industrial Robot Sewing Process — 20 min (+ 10 min discussion); Diploma thesis presentation — Details (PDF)
Thu, Oct 4 13:00 Dieter Mayrhofer Pen-based Electronic Medical Record on a Tablet PC in a Medical Practice — 30 minutes; Diploma thesis presentation — One of the main areas the future of pen operated Tablet PCs is seen in is the medical sector. Some hospitals already use tablets for their work, but one medical facility where Tablet PCs are hardly used so far is in medical practices. There are only a few software developers who create software for this need, but often it is adapted regular PC software which fails to provide some useful pen-based features.
This work aims to create a completely new prototype of pen-based EMR (Electronic Medical Record) software on a Tablet PC using new technologies such as C# and WPF (Windows Presentation Foundation). Some of the special features include using gestures for navigation, providing an image annotation tool where the user can write directly on the picture and modify the ink, using it as a communication device, adding audio comments to a record and recognizing handwritten text.
The first part contains some examples which describe medical software for Tablet PCs already on the market and which institutes already have tablets in use. In the main part the developing of the prototype and its usage is described. The final chapter discusses the work and the results gained from the test persons.

Q3/2007 Talks

Date Time By Topic
Mon, Sep 10 10:00 Bernhard Fölsner Bildsegmentierung und eine auf eye-tracking basierende Evaluierung — 20 minutes; Diplomarbeit (1. Vortrag)
Thu, Aug 23 14:00 Alfred Inselberg Multidimensional Visualization and its Applications — Zemanek HS

Alfred Inselberg - School of Mathematical Sciences, Tel Aviv University, Israel & Senior Fellow in Visualization, San Diego SuperComputing Center, USA

The desire to understand the underlying geometry of multidimensional problems motivated several visualization methodologies to augment our limited 3-dimensional perception. After a short overview, Parallel Coordinates are rigorously developed obtaining a 1-1 mapping between subsets of Euclidean N-space and subsets of 2-space. It leads to representations of lines, flats, curves, intersections, hypersurfaces, proximities and geometrical construction algorithms. Convexity can be visualized in ANY dimension as well as non-orientability (Moebius strip) and other properties of hypersurfaces. This is a VISUAL Multidimensional Coordinate System with applications to Air Traffic Control, Visual and Automatic Data Mining, Interactive Models of Complex Systems.

PS: Do not be intimidated by this formal description. The speaker is also well known for his numerological anecdotes and palindromic digressions.
Mon, Jul 16 11:00 Ulrich Pöschl Referenzimplementierung eines "Server-based Computing" Szenarios — 30 minutes — Diese Arbeit befasst sich mit den Microsoft Terminal Services unter Windows Server 2003 und beleuchtet Vor- und Nachteile sowie technische Hintergründe und Einsatzmöglichkeiten dieser Lösung im Wienerberger-Konzern.
Besondere Rücksicht wird bei den Betrachtungen auf die Themen Multi-Language, Verfügbarkeit der Dienste, Bandbreitenverbrauch und Drucklösungen genommen. Eines der Kernstücke der Arbeit bildet ein für die Labortests eigens entwickelter auf Linux basierender Bandbreitenbeschränker zur Simulation eines künstlichen Netzwerkflaschenhalses. Die speziellen Anforderungen der Wienerberger AG erfordern ein spezielles Konzept und ergeben besondere Probleme, die sich nicht aus Standardkonzepten ableiten lassen und daher der vorliegenden Untersuchung bedurften.

Q2/2007 Talks

Date Time By Topic
Thu, Jun 21 13:15 Robert Neuner Geo-spezifische Metadaten in Bildern: Gewinnung, Speicherung und Anwendungsszenarien — 45 minutes + discussions; Diploma thesis presentation — Details (PDF)
Thu, Jun 14 13:15 Martin Pichlmair Perpetual Prototypes: Interaktive Kunst zwischen Spiel und Versuchsanordnung — 30 minutes + discussions
Thu, Jun 14 13:15 Michael Müller Intuitive Benutzerschnittstellen für das interaktive Museum im Zeitalter des Web 2.0: Annotationen ohne Tastatur und Maus am Beispiel der Nintendo Wiimote — 30 minutes + discussions; Diploma thesis presentation (first talk) — Details (PDF)
Thu, May 31 13:00 Florian Seitner A Macroblock-Level Analysis on the Dynamic Behaviour of an H.264 Decoder — 20 minutes; Test Talk for IEEE International Symposium on Consumer Electronics (ISCE 2007) — This work targets the optimization of multiprocessor H.264 decoder implementations. We have extended the simulator of a multi-core VLIW media processor to enable cycle-accurate function profiling on a sub-macroblock level, which allows measuring the effects of coding modes on the computational complexity with very fine granularity. This knowledge helps the system designer to optimize the system performance and memory sizes to reduce system costs.
Thu, May 31 13:00 Dominik Lepizh Automatische Klassifikation von Snowboard-Schwüngen — Diploma thesis presentation (first talk)