Back to posts

Kapitelmarken in der Volltextsuche

Hiho Ihr alle!

Im letzten Update hab ich erzählt, das es jetzt eine anständige Volltextsuche gibt. 

Die bringt mir aber herzlich wenig, wenn es wenig Text gibt :) Anders formuliert: Mehr Text, bessere Suchergebnisse. Das ist zwar sehr verknappt dargestellt und sicher diskussionswürdig, aber ich glaube es dürfte wenig Diskussion darum geben, dass Kapitelmarken etwas sind, das man unbedingt im Suchindex haben möchte.

Die hatte ich bisher nur in Form der Podlove Simple Chapters im Index, was die Menge der Podcasts, für die die Kapitelmarken durchsucht werden recht übersichtlich gehalten hat.

Alle Podcasts, die ihre Kapitelmarken nur im Audio vorhalten, waren außen vor. Das ändere ich gerade.

Der Ablauf ist im Grunde simple: Audio holen, Kapitelmarken suchen, in den Index werfen und gut. Was in der Theorie simpel ist, ist in der Praxis zumindest aufwändig und langwierig. 2,5 Millionen Episoden hat's in der Datenbank bisher und wenn ich die alle untersuchen will, dann dauert das. 

Wie ich das aber gerne mache, habe ich das Ganze parallelisiert und auf eine größere Kiste geworfen, die ich mir für diesen Zweck kurz angemietet habe. Dort laufen jetzt (bisher) fünf Tasks parallel, die diesen Job übernehmen. Nach meinen konservativen Berechnungen wird das ca. eine Woche dauern. Überschaubar, immerhin und vor allem stetig wachsend.

Mal sehen, wie gut das am Ende funktioniert, aber ich bin sicher, dass es sehr hilft. Ich glaube sogar, dass eine Kapitelmarke das Beste ist, was einem Suchindex passieren kann, vorausgesetzt, die Marke hat das Thema des Kapitels wirklich im Titel.

Abwarten, Tee trinken und den Logfiles zuschauen. 

Zu verdanken habe ich das Euch, denn die 5 bis vll 10€, die das kostet, habt Ihr beigetragen. Danke!