„KI ist keine Science Fiction, sondern ein Schweizer Taschenmesser, das jeder benutzen sollte"

Ein Interview mit Eugen L. Gross, Gründer & Geschäftsführer von aiconix

 

Eugen Gross hat langjährige Erfahrung in vielen Bereichen der TV- und Bewegtbildproduktion sowohl auf der kreativen als auch der technischen Seite. Er hat eine Ausbildung zum Kameraassistenten in Wien gemacht, als Kameramann hauptsächlich für Shows und Unterhaltungsformate gearbeitet, war SNG Operator und Ü-Wagenleiter, hat selbst produziert und Regie geführt.

Aufgrund der Veränderung des Marktes und der Digitalisierung der Medien sah er die Notwendigkeit einer beruflichen Veränderung. Neben vielen kleineren Workshops hat er sich in Köln zum Producer fortgebildet und anschließend an der Hamburg Media School den Zertifikatslehrgang „Executive MBA in Media Management“ absolviert. Seine fundierte Berufserfahrung konnte er dort durch ein praxisnahes Studium erweitern. Aus seiner Masterarbeit ist das Unternehmen aiconix entstanden.

Im Interview mit Gunnar Brune von AI.HAMBURG erklärt Eugen Gross, wie man Daten KI-gestützt nutzen kann, um besseren Content zu erstellen. Dabei geht es um Speech-to-Text-Anwendungen, die es ermöglichen Texte später semantisch auszuwerten. Desweiteren erläutert er den Stand der KI im Bereich der Bilderkennung und wie sie zur Analyse der Werbewirkung genutzt werden kann.


Weitere Neuigkeiten aus dem KI-Kosmos gibt es übrigens regelmäßig
über den AI.Hamburg Newsletter  – jetzt anmelden! 


Gunnar Brune/AI.Hamburg: Herr Gross, Sie waren Kameramann und jetzt setzen Sie Künstliche Intelligenz für die Analyse von Videos ein. Was machen Sie und wie kam es dazu?
Eugen L. Gross: Ich bin als Kameramann komischerweise immer an Daten interessiert gewesen. Ich glaube, ich war der Einzige, der eine Pivottabelle gemacht hat, um auszuwerten, wie viele Tage ich gearbeitet habe, wie viele Reisetage ich hatte usw. Das hat mich immer interessiert. Ich war immer technisch affin, zeitweise war ich Ü-Wagenleiter und sogar ein bisschen Satellitentechniker. Ich komme nicht vom „Film“. Das habe ich zwar ganz früher gemacht, genau genommen komme ich vom Fernsehen. Ich bin der klassische Fernseh-Fuzzi. Meine Welt, das war die Show klassische Unterhaltung. 20:15 Uhr, Vorhang auf für die Red Hot Chili Peppers, auch Thomas Gottschalk und Anne Will.

Gunnar Brune/AI.Hamburg: Sie haben vor allem Live-TV gemacht?
Eugen L. Gross: Ja, ich habe natürlich auch Dokus gemacht. Ich habe zum Beispiel eine Produktionsfirma für eine Langzeit-Doku in Kiel gehabt. Aber mein Daily Business war über viele, viele Jahre die Unterhaltung. Ich habe 80 Konzerte gemacht von Tokio Hotel bis Helene Fischer, von Marianne und Michael bis zu den New Yorker Philharmonikern. Ich habe alle Talks gemacht von Harald Schmidt bis Anne Will und Beckmann. Ich habe auch einen Berufsverband für Fernseh-Kameraleute mitgegründet.

Gunnar Brune/AI Hamburg: Und jetzt arbeiten Sie nicht mehr mit der Kamera, sondern mit Künstlicher Intelligenz. Wie sind Sie dazu gekommen?
Eugen L. Gross: Durch meinen MBA in Media Management kam ich auf die Frage, wie man Daten besser nutzen kann. Ich bin der Meinung, Daten werden aktuell zu viel für den Vertrieb genutzt und zu wenig, um besseren Content und bessere Produkte zu entwickeln. Man muss einfach alle Faktoren zusammenbringen, und das geht nur mit Künstlicher Intelligenz. Und mit dieser Idee habe ich aiconix gegründet.

Gunnar Brune/AI Hamburg: Was ist Ihr spannendstes Projekt gerade?
Eugen L. Gross: Das Spannendste ist immer das Aktuellste. Spracherkennung, also Speech-to-Text ist im Moment das, worum sich fast alles dreht. Vieles beginnt mit Speech-to-Text. Vertrieblich: Die Kunden beginnen mit Speech-to-Text. Auch die Inhalte eines Videos werden heute anhand des Textes erkannt, dabei ist egal, wie das Bild aussieht. So ist das heute, dazu kann ich später noch mehr erzählen. Gerade bei Kurzformaten transportiert die Sprache die Informationen. Wenn ich Sprache in Informationen bzw. Text umwandeln kann, dann kann ich sie semantisch analysieren und ich kann Topics extrahieren. Dafür benötigt man Speech-to-Text und wir haben da in alle Richtungen Lösungen. Wir haben ein Frontend und bieten eine API, also eine Schnittstelle an. Außerdem haben wir einen Slackbot. Und, hier sind wir Vorreiter, wir machen das auch live. Wir machen das schon für den Hessischen Landtag. Wir bewerben uns gerade für ein Projekt im Deutschen Bundestag. Wir haben Anfragen von Staatsanwaltschaften, der Polizei, oder der Bundespressekonferenz. Bei letzterer geht es zum Beispiel um Live-Untertitel. Damit ist Speech-to-Text für uns auch betriebswirtschaftlich gerade besonders wichtig. Wir sind dabei Cloud-agnostisch und deshalb breit aufgestellt. Wir sind im Oracle-Startup-Programm, sind gerade eine Partnerschaft mit Microsoft eingegangen, wir nutzen parallel Amazon, Google, viele kleine Provider und sind für alles offen.

Gunnar Brune/AI.Hamburg: Sie nehmen also den Sound auf, erfassen die Texte und dann laufen sehr, sehr schnell semantische Analysen?
Eugen L. Gross: Fast, es läuft sehr, sehr schnell Speech-to-Text. Wenn du Semantik haben möchtest, ist das ein extra Call. Du musst erstmal den Text bekommen und den schickst du nochmals zu einem anderen Provider und kannst über den dann die Topics extrahieren. Dabei ist extrem interessant, bei längeren Videos oder Podcasts Inhaltsverzeichnisse mit Zeitangabe anzulegen. Mich wundert, dass das vor uns meines Wissens noch keiner gemacht hat! Ein Podcast ist ein gutes Anwendungsbeispiel. Bei einem langen Podcast, der 60 Minuten dauert, möchte ich doch nicht die 60 Minuten durchhören, um den einen Punkt zu finden, der mich interessiert. Ich möchte gerne wissen, dass es in den ersten zehn Minuten ein Intro gibt, in den zweiten zehn Minuten geht es – zum Beispiel – um eine Berufsbeschreibung und in den dritten zehn Minuten geht es um AI. Ich möchte mir vielleicht nur die dritten zehn Minuten mit dem Thema AI anhören. Ich möchte auch nicht alle 20 Folgen eines Podcasts anhören, wenn nur die Folge 14 mein Interesse AI betrifft. Spotify hat gerade ein großes Projekt ausgeschrieben, an dem man als Entwickler teilnehmen kann. Hier geht es um die Frage, welche Möglichkeiten es gibt, thematisch in die einzelnen Folgen hineinzugehen.

Nehmen wir an, du warst bei einem langen Webinar oder bei einer Konferenz, die acht Stunden gedauert hat. Am Ende wird ein Video zur Verfügung gestellt. Du kannst dich an einen besonders interessanten Vortrag erinnern, oder es wurde eine spannende Sache gesagt, aber du kannst nicht Control-F drücken und die Suchfunktion zu aktivieren, um auf dieses Stichwort zu springen. Du hast meistens auch keinen Überblick über die Themen. In diesen Anwendungen ist noch viel Musik drin und es beginnt alles mit Speech-to-Text.

Weiterlesen!


AI.Hamburg ist Gründungsmitglied der AI4Germany Initiative, bei der sich führende Initiativen im Bereich Künstliche Intelligenz (KI) zusammenschliessen, um die lokale Wirtschaft und Gesellschaft in Deutschland aktiv bei der Anwendung von künstlicher Intelligenz zu unterstützen – und damit Deutschland ins KI-Zeitalter zu begleiten. Ganz konkret fördert AI.Hamburg den breiten Einsatz von künstlicher Intelligenz und insbesondere des maschinellen Lernens in Unternehmen im Norden durch Erfahrungsaustausch und Wissensvermittlung auf einschlägigen AI Events wie dem AI InfoBreakfast und verschiedenen Workshop-Formaten.

Der AI.Hamburg Newsletter versorgt dich regelmäßig mit Neuigkeiten aus dem KI-Kosmos – jetzt anmelden!