Der Air Check – Wie wir KI beigebracht haben, Werbung zu hören

Mit Technologien wie Audio-Fingerprinting und einer spezialisierten Agentic-Pipeline machen wir das Unstrukturierte messbar.

Podcast-Werbung ist ein Paradoxon: hochemotional in der Wirkung, aber technisch oft ein „schwarzes Loch“. Wer als Marke heute bei den großen Namen der Podcast-Szene bucht, investiert in Vertrauen und Aufmerksamkeit. Doch während wir im Performance-Marketing jeden Klick auf die vierte Nachkommastelle tracken können, endete die Transparenz bei Audio-Ads lange Zeit am Play-Button.

Das Problem ist die schiere Masse. Allein im deutschsprachigen Raum entstehen jeden Monat über 60.000 Stunden Audio-Content. In diesem unstrukturierten Datenstrom Werbespots manuell zu finden, zu dokumentieren und zu bewerten, ist für Agenturen und Brands schlichtweg nicht skalierbar. Hier setzt Allcasts an.

Vom Prototyp zum Marktführer: Die Allcasts-Story

Die Geschichte von Allcasts ist eng mit Protofy verknüpft. Wir verstehen uns als Outcome Agency – wir bauen Dinge nicht nur, weil sie technisch möglich sind, sondern weil sie ein Problem lösen. Allcasts ist im „Geburtsort Protofy“ entstanden: hier wurde die erste Hypothese formuliert, der erste Prototyp gebaut und die technologische Basis für das gelegt, was heute den Markt für Audio-Analysen verändert.

Mittlerweile ist Allcasts erwachsen geworden. Das Unternehmen operiert heute vollkommen unabhängig am Markt und fokussiert sich mit einem spezialisierten Team auf die komplexen Bedürfnisse der AdTech-Branche. Für uns bei Protofy ist Allcasts der ultimative Beweis: Aus validierten Prototypen und einer mutigen technologischen Vision können echte, marktfähige Unternehmen entstehen, die ganze Branchen professionalisieren.

Warum eigentlich „Air Check“?

In der klassischen Radiowelt war der „Air Check“ ein Standard: Man nahm die Sendung auf, um nachträglich zu prüfen, ob die Moderation saß, die Übergänge passten und – vor allem – ob die Werbung wie gebucht ausgestrahlt wurde. Bei einer Million Episoden pro Monat ist dieser Prozess jedoch unmöglich manuell zu bewältigen.. Wir haben den Air Check digitalisiert und automatisiert. Wenn wir heute von einem Air Check sprechen, meinen wir die KI-gestützte Gewissheit, dass ein Spot genau dort lief, wo er hingehört.

Der Maschinenraum: Technologie für unstrukturierte Daten

Um Werbung in Podcasts zu erkennen, reicht es nicht, einfach ein Transkriptionstool über ein Audio-File laufen zu lassen. Werbung ist vielfältig: mal vorproduziert, mal vom Host frei gesprochen (Native Ads), mal dynamisch eingefügt. Um hier eine Genauigkeit zu erreichen, die für das Reporting von Brands wie HelloFresh oder Disney+ ausreicht, haben wir tief in den Tech-Stack gegriffen:

Custom AI-Modell „Bob“: Ein spezialisiertes Modell, das nicht nur auf Text, sondern auf Audio-Mustern trainiert wurde.
Audio-Fingerprinting: Wir analysieren Wellenformen, um bekannte Werbespots auch in massiv unterschiedlichen Audio-Umgebungen wiederzuerkennen.
Agentic-Pipeline: Das Science Enrichment Center (SEC) von Allcasts nutzt eine Kette von spezialisierten KI-Agenten, die von der Discovery über die Transkription bis zur Error-Detection und Sponsor-Extraktion alles autonom steuern.
Skalierbare Infrastruktur: Wir nutzen Hochleistungsserver mit AMD Ryzen-Prozessoren und GPU-Clustern, um Millionen von Wörtern und tausende Stunden Audio täglich zu verarbeiten, ohne dass die Kosten für die Cloud-Infrastruktur linear mitwachsen.

Präzision durch Human in the Loop

Der Weg zu einem Modell, das Nuancen in der Stimme und Werbe-Kontexte erkennt, führt über hochwertige Daten. Unser Ansatz war von Tag eins an: AI by default, but Human in the Loop.

Phase 1: Das Fundament. Zu Beginn hat ein spezialisiertes Team über 100.000 Episoden-Sequenzen händisch gelabelt. Menschen haben gehört und markiert: Wo fängt die Werbung an? Wo hört sie auf? Diese „Gold-Standards“ waren das Futter für das initiale Training von Bob.
Phase 2: Der Feedback-Loop. Wir haben ein System gebaut, in dem die KI Vorschläge macht und das Team diese validiert oder korrigiert. Jede Korrektur floss unmittelbar zurück in den Trainingsprozess. So lernte das Modell Muster statt nur Wörter.
Phase 3: Skalierung durch Unsicherheit. Heute ist Bob so weit, dass er den Großteil der Arbeit autonom erledigt. Das menschliche Urteilsvermögen (Judgment) setzen wir gezielt dort ein, wo die Konfidenz des Modells unter einen kritischen Wert fällt. Diese Grenzfälle werden automatisch an Expert*innen ausgespielt – und deren Entscheidung macht die KI für das nächste Mal noch schlauer.

Outcome: Messbarkeit schafft Handlungsfähigkeit

Durch diese Symbiose aus menschlicher Expertise und maschineller Geschwindigkeit hat Allcasts den Air Check industrialisiert. Marken wissen nun innerhalb von Minuten nach der Veröffentlichung einer Episode, ob ihre Kampagne wie vereinbart gelaufen ist, wie hoch der Share of Voice im Vergleich zum Wettbewerb ist und in welchem Kontext ihre Botschaft platziert wurde.