Towards the identification of information needs in conversational search dialogues
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 14 | |
Author | ||
License | CC Attribution - NonCommercial - NoDerivatives 3.0 Germany: You are free to use, copy, distribute and transmit the work or content in unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/52974 (DOI) | |
Publisher | ||
Release Date | ||
Language | ||
Producer | ||
Production Year | 2021 | |
Production Place | Regensburg |
Content Metadata
Subject Area | |
Genre |
00:20
Computer animation
01:03
Computer animation
01:19
Program flowchart
03:11
Computer animation
07:13
Computer animation
Transcript: German(auto-generated)
00:00
Ja, hallo und herzlich willkommen zur Präsentation meiner Masterarbeit. Es ist auch schon wieder ein paar Jahre her, dass ich die fertig gestellt habe und die wurde damals von David Elsweil und Bernd Ludwig betreut und befasst sich, wie man hier auf der Titelfolie schon erkennen kann, in irgendeiner Weise mit Essen und Konversationen.
00:21
Zu Beginn will ich mit einem Beispiel starten, um die ganze Arbeit zu motivieren. Also, Sie alle haben sicherlich schon mal irgendwas mit Sprachassistenten gemacht oder sind damit irgendwie in Berührung gekommen. Sei es jetzt auf dem Handy mit Siri oder mit Amazon Alexa oder Google Home.
00:41
Ich persönlich habe das erste Mal Google Home bei einem Kollegen zu Hause kennengelernt sozusagen. Der hatte eine smarte Lampe und konnte über Google Home die Lichtfarbe dieser Lampe steuern. Ich habe dann so etwas gesagt wie, ok Google, ändere die Lichtfarbe von Weiß auf Rot
01:00
und Google Home hat das dann auch getan und das Zimmer war auf einmal rot erleuchtet. Also, das Beispiel zu Beginn zeigt jetzt einfach mal, wie einfache Befehle gut von solchen Sprachassistenten verarbeitet werden können. Also, das ist überhaupt kein Problem für die. Sie kommen auch mit relativ kurzen Interaktionen klar.
01:26
Beispiel wäre hier jetzt die Buchung eines Bahntickets. Mal angenommen, ich als Nutzer möchte von Regensburg nach München fahren und dafür ein Bahnticket buchen. Würde ich sagen, hey Google, ich möchte ein Bahnticket von Regensburg nach München buchen. Ok, an welchem Tag?
01:41
15. März 2021. Um wie viel Uhr möchtest du losfahren? 8.30 Uhr. Also, was dieser Dialog darstellen soll, ist, dass Sprachassistenten in der Lage sind sehr, sehr einfache Aufgaben auszufüllen oder zu erfüllen und umzusetzen im Grunde.
02:03
Und was man hier auch sieht, was Google Home hier macht, wenn es nachfragt, an welchem Tag, um wie viel Uhr möchtest du losfahren. Das ist ein Beispiel für sogenanntes Slot Filling. Also, das ist eine Technik, bei der Sprachassistenten fehlende Informationen durch Nachfragen holen
02:22
oder vom Nutzer noch extrahieren sozusagen. Also, es fehlt eben noch, um die Buchung eines Tickets abzuschließen, der Tag und die Uhrzeit. Was dieses Beispiel aber auch zeigt, ist, dass dieses Informationsbedürfnis des Nutzers, nämlich er will eine Bahnverbindung suchen und ein Ticket buchen, sehr, sehr klar formuliert ist.
02:43
Und wenn es jetzt darüber hinausgeht, also wenn ein Benutzer ein wages Informationsbedürfnis hat und eine längere Konversation mit solchen Sprachassistenten stattfindet, dann sind die Grenzen des Möglichen erreicht. Dann können Sprachassistenten aktuell eben nicht das zugrunde liegende Bedürfnis
03:02
oder das zugrunde liegende Informationsbedürfnis vom Nutzer extrahieren. Dazu fehlen einfach die Mittel momentan noch. Um diesem Problem zu begegnen, wurde 2017 von Radlinski und Creswell das sogenannte Conversational Search Framework vorgeschlagen. Die sagen eben oder argumentieren, dass durch einen sogenannten Mixed Initiative Dialog,
03:24
bei dem sowohl Nutzer als auch System, die Gesprächsinitiativen ergreifen können, komplexe und vage Informationsbedürfnisse zutage gefördert werden. Also, dass durch Konversation das zu Beginn vage Informationsbedürfnis deutlich wird und am Ende ein Ergebnis dem Nutzer präsentiert wird, mit dem er zufrieden ist.
03:48
Wichtig dabei, oder als wichtig dabei, achten Sie, dass Systeme in der Lage sind, die aktuellen Nutzerbedürfnisse, die aktuellen Informationsbedürfnisse irgendwie zu modellieren, während der Konversation.
04:00
Und Sie sagen auch, dass der Kontext eine wichtige Rolle spielt, um Informationsbedürfnisse, die während so einer Konversation auftreten, auch richtig zu verstehen. Was wurde in dem Bereich bisher gemacht? Also jetzt, wenn wir uns auf das Modellieren von Nutzerbedürfnissen fokussieren,
04:20
wurde bisher nur in generischen Domänen, unspezifischen Bereichen untersucht, welche Informationsbedürfnisse auftreten. Also es wurde jetzt noch nicht in einer konkreten Domäne dieses Framework versucht anzuwenden. Also es ist nur theoretisch, aber es macht eben auch Sinn, eine bestimmte Domäne genauer zu betrachten und da dann auch zu untersuchen,
04:42
welche Informationsbedürfnisse auftreten können und welche Bedürfnisse der Nutzer hier überhaupt hat, um dann für eine bestimmte Domäne auch mal irgendwann in der Zukunft so ein funktionierendes und gut funktionierendes, vor allem gut funktionierendes Conversational Search System zu bauen.
05:01
Dieser Aspekt hat mich in meiner Masterarbeit motiviert und interessiert und ich habe mir die Kochdomäne als Untersuchungsgegenstand ausgesucht, eben aus dem Grund, da hier viele verschiedene und auch komplexe Informationsbedürfnisse existieren, die passend eben für Conversational Search sind
05:25
und das Kochen an sich auch ein komplexer Vorgang ist. Also auf jeden Fall komplexer als dieses Buchungsbeispiel, das ich vorher erläutert habe. Es leiten sich dann zwei Forschungsfragen ab. Die erste beschäftigt sich mit den Informationsbedürfnissen,
05:42
die in solchen Situationen auftreten, also welche Informationsbedürfnisse treten in Kochsituationen auf. Und Forschungsfrage zwei, da geht es darum, können diese Informationsbedürfnisse anhand der Nutzerausserungen identifiziert werden? Also kann ein System, wenn eine Nutzerausserung vorliegt,
06:01
auch das zugrunde liegende Informationsbedürfnis erkennen? Da zu dem damaligen Zeitpunkt noch kein Datenkorpus, kein Conversational Search Datenkorpus vorlag, habe ich das selbst erhoben, jetzt für den Bereich des Kochens. Und das lief im Grunde so ab. Ich bin mit einer Box Zutaten zu 45 Versuchspersonen geradelt
06:25
und gab ihnen die Aufgabe daraus, irgendwas zu kochen, was sie zuvor noch nie gekocht haben. Ich als Versuchsleiter hatte meinen Laptop mit Internetzugang natürlich und konnte alle Fragen, die so während des Kochvergangs auftraten,
06:42
irgendwie beantworten und habe eben versucht, Sprachassistenz zu leisten. Es war eine In-Situ-Studie mit 45 Personen. Daraus entstanden sind sehr gute Gerichte. Es war Spargelzeit damals.
07:01
Das heißt, es gab viele Spargelgerichte, wie hier ein Spargel-Grazzin oder Spargel mit Sauce Hollandaise und Tomaten. Und nachdem ich bei allen Versuchspersonen war, hatte ich am Ende um die 39 Stunden Audio-Material und musste es jetzt irgendwie transkribieren.
07:21
Ich habe natürlich nicht alles transkribiert, zumal teilweise auch Smalltalk drin war, das jetzt nicht für mich relevant war. Ich habe eigentlich nur die direkten Anfragen an das System, also an mich, transkribiert. Ich habe weiterhin dialectale Ausdrücke ins Standarddeutsche übersetzt. Also die Versuchspersonen stammten alle aus Regensburg und Umgebung
07:41
und aus der nördlichen Oberpfalz. Da komme ich her. Das heißt, wir haben jetzt sehr stark Dialekt gesprochen und man muss das auch irgendwie ins Hochdeutsche übersetzen, sonst versteht man es nicht. Und die Syntax der Äußerungen wurde aber nicht verändert. So basierend auf diesen Transkrippen habe ich dann qualitative Datenanalyse betrieben,
08:03
habe also versucht herauszufinden, welche verschiedenen Informationsbedürfnisse es gibt jetzt in diesen Conversational Search Umgebungen. Also ich hatte meine Äußerungen und durch iterativen Coding-Prozesse habe ich dann Informationsbedürfnisse extrahiert und insgesamt,
08:23
wie man hier in der Grafik sieht, waren es 27 verschiedene Kategorien. Ich möchte jetzt auch nur kurz ein paar Beispiele nennen. Also die Amount-Kategorie, umfasste Fragen bezüglich der Menge, wie man sich vorstellen kann und darin enthalten waren Äußerungen,
08:41
wie steht dabei, wie viele Zwiebeln das dann sind, ein Viertel Esslöffel. Dann andererseits wurden auch viele Fragen gestellt nach irgendwelchen Rezepten, die man kochen kann. Also ist auch irgendwie klar, wenn man irgendwie Zutaten hat und man sagt, okay, koche ich irgendwas damit, weiß ja nicht jeder gleich welches Rezept.
09:00
Also kamen Äußerungen wie hey Alex, schlage mir ein Gericht mit roten Linsen und Tomaten vor. Oder auch gut, dann wäre meine erste Frage, was ich hauptsächlich mit Spargel und Kartoffeln machen könnte. Dann gab es noch einige Äußerungen, die ich mit Procedure gelabelt habe, wo es darum ging, was mache ich am Anfang, was kommt danach noch rein, soll ich den
09:24
Celery schälen, ja oder nein. Wo es also um den Ablauf oder um den Kochvorgang an sich geht, also um das Handwerkliche sozusagen. Ja, um jetzt noch ein bisschen den oder das Korpus
09:40
zu beschreiben, habe ich eine deskriptive Statistik noch mit dabei. Also wie man sieht, die Klassen sind sehr, sehr stark ungleich verteilt. Insgesamt waren es wie gesagt 27 verschiedene Informationsbedürfnis Kategorien. Pro Kategorie gab es im Schnitt so um die 62 Queries und insgesamt im kompletten Experiment wurden 1662 Äußerungen,
10:06
die ein Informationsbedürfnis abbilden, ja konnten da gefunden werden und pro Testperson wurden im Schnitt so um die 37 Suchanfragen gestellt. Da die Daten so ungleich verteilt
10:22
sind, wurden für das anschließende Kassifikationsexperiment auch nur die in einer, wenn ich jetzt eine Klasse habe, in der nur zwei, drei Äußerungen drin sind,
10:41
damit kann ein Kassifikator nicht viel anfangen. Also das ist wenig aussagekräftig dann. Und ja, wie habe ich die Daten aufbereitet? Also ich habe eine Äußerung wie zum Beispiel wie viel mehr, die habe ich dann, diese ganzen Äußerungen habe ich dann in Word Embeddings mit Word2veg konvertiert sozusagen kurz zur Terminologie Word Embeddings, sind in der Lage,
11:08
Äußerungen und Wörter vor allem als Vektoren darzustellen und diese Vektoren spiegeln dann auch eine gewisse Semantik wieder. Also Vektoren, die Word Vectors oder ja Word Vektoren,
11:20
die ähnlich oder nah beieinander liegen im Vektoraum, haben ähnliche Bedeutung. Wenn sie weiter entfernt sind im Vektoraum, ist die Bedeutung unterschiedlicher. Also so, jetzt mal ganz vereinfacht gesagt, kann man sich das vorstellen. Als Machine Learning Algorithmus wurde ein Random Forest Classifier verwendet, aus dem Grund, da die Literatur das auch so vorgeschlagen hat,
11:43
dass man Word Embeddings, wenn es jetzt um so Konversationsdaten geht, eben sehr gut performen, zusammen mit Random Forest Klassifikaturen. Ja, zu guter Letzt habe ich dann noch eine 10-Volt Cross-Validation durchgeführt, um mein Ergebnis ein bisschen zu validieren. Ja, nun zur Vorhersage der Informationsbedürfnisse. Ich habe dann
12:08
eine Accuracy von circa 40 Prozent erreicht. Wie man hier an der Confusion Matrix auch sehen kann, wurde viel falsch klassifiziert zur Procedure Klasse hin, die ja sehr dominant war,
12:23
mit Ausnahme jetzt von Amount. Das konnte ziemlich robust vorhergesagt werden, aber der Rest, das war wahrscheinlich auch zu erwarten, wurde nicht so gut klassifiziert eben, weil Procedure, weil da sehr viele Daten vorlagen. Aus dem Grund habe ich dann auch versucht, durch Resampling zu überprüfen, ob das was bringt oder ob ich da die Klasse, die Accuracy
12:47
nach oben treiben kann. Ich habe es auf 64 Prozent noch geschafft, aber wie man schon sieht, die unteren Klassen, also Knowledge Time Report und Appearance, performen eben sehr
13:00
schlecht oder haben sehr schlecht performt. Da sind wenige Äußerungen drin und jetzt performen sie sehr gut nach dem Resampling, was ein Zeichen für Overfitting ist. Also das ist auch nicht aussagekräftig oder sehr stark aussagekräftig, diese 64 Prozent. Ich habe dann noch geschaut, welche Wörter wurden verwendet. Es kommen sehr, sehr viele Stoppwörter vor
13:24
und nur sehr wenig Inhaltswörter oder Autosemantika, wie man sagt. Also man hat hier Spargel, man hat Wasser, man hat Kartoffeln und man hat Minuten. Und ansonsten hat man eigentlich nur Stoppwörter. Ich habe dann noch einmal versucht, die 50 häufigsten
13:43
Wörter für die Klassifikation zu nutzen, kam dann auf 43, 44 Prozent und nach Entfernen der Stoppwörter auf nur noch 32 Prozent, was für mich dann den Schluss zuließt, dass Stoppwörter in solchen Conversational Search Dialogen eine inhaltstragende oder
14:00
ja doch tragende Rolle spielen und den Dialog auch strukturieren, was auch die Literatur im Bereich der Pragmatik, der Linguistik zeigt, dass sogenannte Diskursmarker schon wichtig sind, um Äußerungen zu verstehen. Ja, wie kann man das Ergebnis bewerten? Also
14:20
Informationsbedürfnisse können prinzipiell vorhergesagt werden, aber noch nicht sehr gut. Dafür braucht man noch mehr Daten und Stoppwörter tragen zum Verstehen an Informationsbedürfnisse bei, aber die genaue Rolle dieser Stoppwörter, die muss man in der Zukunft noch weiter untersuchen. Das heißt als Future Work ist noch Folgendes zu tun und das
14:46
untersuche ich jetzt auch gerade im Rahmen meines Promotionsprojektes. Man muss und das habe ich jetzt getan, eine detaillierte Informationsbedürfnisse Taxonomie für den Kochbereich erstellen, um dann auch genau zu verstehen, welche Abhängigkeiten zwischen den Informationsbedürfnissen existieren und dann bekommt man ein tieferes Verständnis dafür,
15:07
welche Bedürfnisse Nutzer beim Conversational Search performen sozusagen beim Kochen eben hat. Und wie wir eben gesehen haben, Stoppwörter spielen eine Rolle, also spielen auch eine
15:20
Rolle beim Kontext, also ist es auch irgendwie wichtig und weitere Kontextfaktoren in die Vorhersage einzubeziehen und das noch genau zu untersuchen, das mache ich jetzt auch gerade bei meiner Diss und das ist sozusagen das Future Work, das ist zu erledigen gilt.
15:41
Ja zum Schluss, um nochmal auf die Anfangsfolie zurückzukommen, waren alle Gerichte sehr gut, mit Ausnahme der Biersuppe hier rechts oben, die war wirklich fürchterlich, wenn irgendjemand irgendwelche Rezepte haben möchte, kann er sich gerne um mich wenden, ansonsten freue ich mich jetzt auf Ihre Fragen und die Diskussion, vielen Dank.