spacerspacerspacer

Tagging revisited

Einerseits weil ich es versprochen hatte und andererseits weil gestern del.icio.us von Yahoo! gekauft wurde und damit Yahoo! mit Flickr und del.icio.us zwei der wohl momentan wichtigsten Social Software Applikationen "besitzt" deren zentrales Konzept Tagging ist. Eine grundlegende Einführung ist hier und bei Wikipedia zu finden.

Was bedeutet es überhaupt ein Objekt (eine URL, ein Foto, einen Weblogbeitrag, etc.) zu taggen? Aus meiner Sicht geht es dabei um die Identifikation von wichtigen Begriffen (Konzepten) im Zusammenhang mit dem Inhalt. Es geht darum dem Objekt eine Bedeutung, einen Sinn zuzuweisen. Dieser Sinn kann vielfältig sein, ist immer subjektiv auf den Erfahrungshorizont der Person zugewiesen die das Objekt tagged. Es ist eine Art Kategorisierung, ein "labelling" mit sinngebenden Begriffen.

Dabei hat ein Paper von Golder / Huberman unlängst einige sehr interessante Faktoren im Zusammenhang mit Tagging analysiert. Die meisten Tags, in der Reihenfolge der Häufigkeit, haben laut Studie folgenden Sinn:
  • Zu identifizieren welchen Inhalt (thematisch oder personell) ein Objekt hat
  • festzuhalten woher ein Objekt stammt oder welcher Art es ist
  • dem Objekt einen Ursprung (einen "Besitzer") zu geben
  • die bereits gewählten Tags weiter zu verfeinern und verdichten
  • Referenzen auf eigene Kategorien (mystuff, work, etc.)
  • Aufgabenorientierte Tags, wie toread, toblog, etc.
Das zeigt deutlich, dass nicht wie manchmal angenommen, Tags ausschließlich aus Metakategorien bestehen, sondern sehr oft wesentliche Konzepte des Inhaltes in Tags abgebildet werden. Meine Hypothese ist, dass die meisten Tags als Worte im Objekt oder dessen Quelle vorkommen (wenn es textuell ist, mit Quelle ist zB im Falle einer URL die Website gemeint). Oftmals wird auch argumentiert, dass Tags auch nur eine Form von Kategorisierung wären, der Unterschied liegt jedoch im Aufwand den es bedarf um ein Objekt zu taggen und dem es in eine Kategorie einzuordnen.

Rashmi Sinha hat eine interessante Zusammenfassung dieses Aspektes, denn es ist in der Tat einfacher sich ein Objekt anzusehen und die Konzepte die dabei im Kopf aktiviert werden zu notieren als ein Objekt zweifelsfrei und eindeutig einer Kategorie zuzuordnen. Kategorien sind meistens ausschließend (ein Element kann nicht in zwei Kategorien sein) und sind über die Zeit relativ starr. Tags sind flexibler und erlauben der/dem User/in mehr Anpassung an zeitliche Veränderungen. Wie auch das Beispiel von del.icio.us zeigt, können Tags auch für andere Dinge verwendet werden (zB die Zuweisung zu anderen Personen bei del.icio.us/for).

Doch natürlich haben auch Tags Nachteile und Probleme, die deutlich werden wenn man eine der bereits genannten Applikationen verwendet. Da wäre zum einen das Problem mehrere Bedeutungen und/oder Schreibweisen für ein Wort (auch Mehrzahl/Einzahl), auch als Polysemie und Homonymie bezeichnet. Manchmal würde man auch gerne Spezialisierungs- und Generalisierungsbeziehungen festhalten, Tags sind ein flacher Raum. Die Anzahl der Tags wächst relativ stark und User/innen haben meist wesentlich mehr Tags zu verwalten als typischerweise Kategorien, ein Grund für das häufige Argument, dass Tags chaotisch und unübersichtlich sind. Auch die Einstiegsbarriere ist relativ hoch, da der Nutzen von Tagging (ähnlich wie Weblogs) eher durch das Erleben vermittelt werden kann als durch bloßes Erzählen. Vermutlich werden die meisten User/innen Tags auch eher inkrementell einsetzen, also ab einem gewissen Zeitpunkt beginnen Tags zu nutzen und nicht alle bereits bestehenden Inhalte (Objekte) zu taggen. Wer will schon seine gesammelten Bookmarks oder seine gesammten Digitalfotos nachträglich mit verschlagworten.

Gerne verwendete Elemente in User Interfaces (auch begünstigt durch das Aufkommen und die Verbreitung von AJAX) sind, neben anderen Vereinfachungen (wie Bulk Editing, In-Place Editing), Vorschläge aus
  1. dem eigenen Tagraum, oder
  2. den Tags anderer Personen (zB del.icio.us Recommendations).
Diese Vorschläge helfen die Anzahl an Tags überschaubar zu halten und den Prozess des tagging weiter zu vereinfachen. Die Möglichkeit mit Tags einen Raum über ein soziales Netzwerk aufzuspannen, sich also jene Objekte anzusehen die andere Personen mit selben Tags versehen haben, Cluster aus den verwendeten Tags zu erstellen und auch über die Objekte eine Verknüpfung zu erstellen ("wer hat ebenfalls dieses Objekt getagged"). Diese soziale Dimension des "Social Tagging" ist mit Sicherheit einer der spannendsten Aspekte an Tagging (Obwohl die Untersuchung von Golder / Huberman einen generellen Eigennutzen unterstellt und die Anzahl der Tags je User/in keinem Zusammenhang mit der Anzahl der Objekte hat, sondern eher mit dem generellen Verhalten des Users zu tun hat).

Wir haben vor etwa 8 Monaten mit der Entwicklung einer Technologie begonnen, deren erstes nach außen sichtbares Ergebnis tagthe.net ist. Das Ziel dieses Webservices ist es automatische Mechanismen (Algorithmen) einzusetzen um den Inhalt von textuellen Objekten zu analysieren und die wichtigsten Konzepte zu extrahieren. Warum? Weil wie oben festgestellt, die meisten Tags den Inhalt betreffen und damit vermutlich schon mal im Text vorkommen. Das sieht auf den ersten Blick einfacher aus, als es ist, vor allem wenn man diesen Task relativ performant durchführen möchte und auch nur die wirklich relevanten Tags rausfiltern will. Dabei werden Statistiken eingesetzt um den Satzaufbau zu analysieren und wenn möglich auch Unterschiede festzustellen ob es sich bei dem Begriff um Personen, Orte oder generelle Konzepte handelt.

Das spannendste an Tags ist definitiv die Verwendung. Tags sind Filter, die beliebig kombiniert werden können, und werden als Navigationsmetapher verwendet. Die soziale Dimension (auch öfter als Folksonomies bezeichnet) macht ebenfalls einen großen Nutzenaspekt aus.

Egal wie man über das Konzept des Tagging denkt, die Anzahl der Firmen die in ihren Services Tags einsetzen wächst täglich:

Google (Gmail [hier als Labels bezeichnet], Google Base, Picasa [ebenfalls als Labels], im Google Reader und in der Search History), Yahoo! in MyWeb 2.0, Flickr und del.icio.us, alle Social Bookmarking Services wie Furl, Simpy oder das höchst interessante Dogear von IBM, RSS Reader wie Rojo oder feedlounge, seit neuestem Amazon, natürlich Technorati, die gerade aufkommenden Video Sharing System wie YouTube, für Apple's mail.app gibt es ein Plugin namens MailTags und in zahlreichen Blog Hosting Services von Typepad bis Wordpress.

Einige Services bieten ähnliche Dienste wie tagthe.net, jedoch mit anderer Ausrichtung: Tagcloud basiert auf dem der Term Extraction API von Yahoo! und Tagyu, welches soziale Tags von zahlreichen Services als Ergebnis liefert und damit zwar Tags entdeckt die nicht unbedingt im Text vorkommen müssen, aber auch nur bedingt mit dem Inhalt zu tun haben.

Bleibt also spannend, was sich im Fall des Tagging noch entwickeln wird. Ich würde mich ja wie ein Kleinkind freuen wenn ich meine (ohnedies vollkommen unstrukturierten) hierarchischen Ordner auf der Festplatte endlich loswerden könnte.
Dieser Beitrag wurde am Samstag, 10. Dezember 2005, 18:43 verfasst und hat 7 Kommentare. Sie können ihn kommentieren oder über Trackback sowie den Permalink darauf Bezug nehmen.



Kommentare
#   12. Dez, 10:44   Johannes Lerch
Bezüglich Filesystemen/Ordnerstruktur auf der Festplatte empfiehlt sich wieder mal der Jakob Nielsen:

http://www.useit.com/papers/filedeath.html
#   12. Dez, 14:17   michi
wow, hatt herr nielsen der das tatsächlich schon 96 geschrieben? oder bloss rückdatiert? :-)
#   22. Dez, 20:22   ossi1967

Aus irgendeinem Grund bekomme ich immer ein ungutes Gefühl in der Magengegend, wenn heutzutage der Begriff „tagging“ auftaucht. Ich bin mir nicht ganz sicher, ob es mir gelingen wird, das Gefühl zu konkretisieren.

Vor allem hängt es wohl mit dem oft krampfhaften Versuch zusammen, dem Tagging durch möglichst ausführliche Definitionen einen revolutionären, modernen Touch zu verleihen und vor allem Gegensätze zu bekannten Ordnungskonzepten (wie z.B. dem Kategorisieren) zu konstruieren. Was Tagging bedeutet, verrät ein Blick ins Wörterbuch: dem Ding ein Schildchen umhängen. Nicht mehr, nicht weniger. Diese Definition befindet sich in überraschender Übereinstimmung mit dem Gebrauch von Tags in den bekannten Web-Applikationen. Keine Rede ist da weit und breit von der „… Identifikation von wichtigen Begriffen (Konzepten) im Zusammenhang mit dem Inhalt …“ oder dem Sinn, der „… subjektiv auf den Erfahrungshorizont der Person zugewiesen [ist], die das Objekt tagged.“ Ein Tag kann auf „rmblfrz“ heißen und absolut und bewußt sinnfrei am bezeichneten Objekt kleben. Das ist die Ausgangsbasis.

Es gibt meiner Ansicht nach zunächst grundsätzlich kein Ordnungssystem, das man nicht auch als Tagging bezeichnen könnte. Selbst das in diesem Zusammenhang oft bemühte Dateisystem auf der Festplatte kann als „tagging“-System begriffen werden: Der Datei fstab ist das Tag /etc/ zugewiesen. Auf dem Objekt „Datei“ klebt sozusagen ein Zettel mit der Aufschrift „/etc/“ in der Bedeutung „zu finden in“. In den Systemen wie del.icio.us haben Tags (Zettel) keine definierte Bedeutung, werden aber meist im Sinne von „ist in der Kategorie“ verwendet. (Wir nähern uns bei der meist übersehenen Bedeutung eines Tags übrigens gefährlich schnell den altbekannten RDF-Triples Subjekt-Prädikat-Objekt. Bei der Tagging-Diskussion wird das Prädikat zu oft ignoriert.)

Was häufig als Alleinstellungsmerkmal der Tagging-Systeme dargestellt wird, ist die Möglichkeit, einem Objekt verschiedene Tags gleichzeitig zuzuweisen. Der von Dir zitierte Artikel von Rashmi Sinha versucht, daraus den entscheidenden Unterschied zum Kategorisieren zu konstruieren; er übersieht dabei nur, daß es absolut keine Eigenart des Kategorisierens ist, Dinge ausschließlich der einen oder der anderen Kategorie zuzuweisen. Das kann vorkommen: manchmal, weil es gewünscht ist; öfter, weil das Design des Ordnungssystems schlecht durchdacht ist; hin und wieder, weil es einfacher zu handhaben ist. Immer schon aber gab es die Möglichkeit, Dinge in verschiedenen Kategorien gleichzeitig abzulegen. Auch hier ist das Beispiel mit dem Dateisystem noch gültig: Es bedarf nur eines Hard-Links, und schon liegt fstab zusätzlich auch in /root/admin/todo/. Eine Datei, zwei „Tags“.

Genau diese Offenheit (im Grunde ist ja alles auch Tagging, Tagging ist der kleinste gemeinsame Nenner aller Ordnungssysteme) ist es nun scheinbar, die das Tagging in seiner allgemeinsten Form besonders attraktiv macht, nach dem Motto: Wir hängen dem Ding irgendein Schildchen um. Was auf dem Schildchen zu stehen hat, ob darauf überhaupt irgendetwas stehen muß, ob es bemalt oder einfach leer ist, das alles ist von der Definition des Begriffes nicht vorgegeben. Tatsächlich scheint es nun vor allem diese letzte Eigenschaft zu sein, die die Leute an del.icio.us & Co. anzieht. Womit wir es zu tun haben, ist das Ausbrechen aus den wenigen, fix vordefinierten Kategorien (Webportale, dmoz.org) in eine Welt der unzählbaren, unüberblickbaren Individualkategorien. Das kann nun ein Vor- oder Nachteil sein, jedenfalls ist es neu und fasziniert im Moment viele Menschen.

Aus diesem letzten Punkt ergibt sich der aus meiner Sicht inhaltlich wichtigste Gegensatz, dem man zum absolut freien Tagging in der jetzt meist verwendeten Form konstruieren kann - und gleichzeitig die größte Entwicklungsmöglichkeit für derartige Systeme in der Zukunft: Der Gegensatz zum freien Tagging ist das Taggen mit einem kontrollierten Vokabular. Das ist zwar als Prinzip bekannt und wird in der Praxis auch eingesetzt, würde aber del.icio.us-User im Moment wohl massiv verstören. Gleichzeitig enthält es enormes Potential, wäre das verwendete Vokabular nur groß genug: Nur durch ein kontrolliertes Vokabular können Beziehungen zwischen den Tags hergestellt werden, kann das Problem der Polysemie gelöst werden und können (vor allem!) Tags sprachneutral dargestellt und genutzt werden: Ich tagge mein Bild mit „Hund“, der Brite sucht „Dog“ und findet es trotzdem.

Die Herausforderung der Zukunft wird es also sein, die Tags sowohl in ihrem Verhältnis zum Objekt (bzw. eigentlich Subjekt *g*) als auch in ihrer inhaltlichen Bedeutung zu definieren, ohne dabei das subjektive Gefühl des freien Taggens für den Benutzer zu zerstören. Definieren der Tags in ihrem Verhältnis zum Objekt meint hier zum Beispiel: Bezeichnet das Tag die Kategorie, zu der ein Ding gehört? Oder die Person, die mir das Ding genannt/gegeben hat? Oder bezeichnet es den Ort, an dem das Ding zu finden ist? Die inhaltliche Bedeutung des Tags zu definieren würde ermöglichen, bei der Suche nach „Kleidung“ auch Treffer zu finden, die ursprünglich mit „Unterwäsche“ oder „trousers“ bezeichnet wurden. Ich glaube, daß dabei die Erstellung/Verwaltung des kontrollierten Vokabulars fast noch die kleinere Hürde darstellen würde, hier sind Vorarbeiten vorhanden (Wordnet). Das User-Interface zu konzipieren wäre das Problem: Wie erkläre ich dem zukünftigen flickr, in welchem Verhältnis „48.2201“ zum hochgeladenen Foto steht, wenn das Ergebnis lauten soll „Breitengrad des Wohnorts der Person, die die Aufnahme gemacht hat“?

#   23. Dez, 00:10   smi
Danke für den langen Kommentar, ich antworte darauf, versprochen, allerdings erst in den nächsten Tagen. Wenn etwas mehr Ruhe ist. Sind einige spannende Punkte drinnen.
#   23. Dez, 18:36   kinomu
Bei der Suche nach "Kleidung" auch "Unterwäsche" und "trousers" zu finden wäre mit Hilfe von Artificial Intelligence auch ohne nähere Definition des Taggenden möglich. Auch mit Polysemie liesse sich leichter leben: suche ich nach "Rock, Kleidung, Frau", so erkennt die intelligente Software, dass ich eher nach Bildern/Texten suche, die mit weiteren Tags wie Stoff, Leder, Hintern, getragen, Farbname... als mit laut, Tour, CD, Karten, Schlagzeug... versehen sind. Forschung und Entwicklung in diesem Bereich sind nicht mehr ganz am Anfang, von einem Einsatz (in Suchmaschinen, Bildagenturen, Bibliotheken oder anderen Bereichen) ist mir aber nichts bekannt, vielleicht wären die Anforderungen an die Hardware noch zu hoch. (Diese Software "weiss", in welche Kategorien Dinge gehören, welche Eigenschaften sie haben, zB Rose: Pflanze, häufig Geschenk, hat Stacheln --> Stacheln (der Rose): Berührung schmerzhaft, man kann bluten --> was sind Schmerz, Blut... sie "kennt" alle offiziellen Ortsbezeichnungen und deren geographische Lagen (cf. Google Maps), häufige (Vor)Namen usw.)

Von einer einfachen Übersetzung halte ich nichts, denn mit "Rock" kann die Musikrichtung gemeint sein, das Kleidungsstück für Frauen, oder ein Sakko. Um "Rock" halbwegs sinnvoll übersetzen zu können, wäre wieder AI nötig: welche anderen Tags wurden verwendet, welche Wörter kommen im Text vor bzw. was ist auf dem Bild zu erkennen?
Oder aber die Benutzer würden immer gefragt, welche Bedeutung sie meinen. Das würde aber das Taggen verlangsamen und weniger komfortabel machen, die Benutzer würden weniger (gerne) taggen.

Im Übrigen ist kein objektives, von der Person des Taggenden unabhängiges Taggen möglich, da es (vermutlich) keine zwei Menschen gibt, deren Kognitionen identisch sind. Es ist lediglich Kompatibilität möglich, wenn zwei Menschen die gleiche Sprache sprechen, einen ähnlichen Erfahrungshorizont haben, ähnliche Ziele verfolgen etc. Tags stehen also nicht in einer direkten Beziehung zum getaggeden Objekt, sondern sind Zuschreibungen des Nutzers, die anderen unsinnig erscheinen können. (Und auch dem Taggenden selbst: wer hat sich nicht schon gewundert, was die von einem vor Monaten oder Jahren auf ein Zettelchen gekritzelten Zahlen oder Worte bedeuten sollen?)
#   27. Dez, 10:37   ossi1967

kinomu, vielleicht hab ich mich nicht ganz eindeutig ausgedrückt: ich hatte weder die (nachträgliche) übersetzung von tags im sinn noch irgendetwas wie „objektives taggen“. mir ist schon klar, daß ein von frau lehner als „geil“ beschreibener junger mann von ihrer kollegin marion maximal ein „milchbubi“ zugeschrieben bekommt. um solche dinge gehts ja auch nicht.

es geht darum, einerseits zu kennzeichnen, ob frau lehner mit „geil“ die wirkung des mannes auf ihre person oder seinen offensichtlichen erregungszustand meint. darum, ob marion „milchbubi“ als bezeichnung für den typen auf den foto verwendet oder einfach nur deswegen, weil sie das bild von ihrem ex bekommen hat, den sie mittlerweile „milchbubi“ nennt.

andererseits sind „geil“ und „milchbubi“ keine inhaltlichen konzepte, sondern nur strings. marion vertippt sich, schon wird ein „milhbubi“ draus. anstatt nun zu versuchen, aus diesen wirren strings bedeutungen abzuleiten und diese bedeutungen am ende womöglich noch zu übersetzen, sollte idealerweise (in 500 jahren…) ein kontrolliertes vokabular von konzepten und bedeutungen zur verfügung stehen, das nur am user interface in die worte der jeweiligen benutzersprache umgewandelt wird. (wobei wir hier wahrscheinlich wirklich in erster linie eher kulturelle als technische schwierigkeiten zu erwarten haben.)

das user interface könnte aussehen wie dieses experimentelle google-interface, in der dropdown-liste würden statt der anzahl der treffer umschreibungen für die gemeinte bedeutung stehen. machbar ist es. fehlt dann nur mehr ein interface zur zuordnung der beziehung, in der tag und objekt zueinander stehen.

#   31. Dez, 18:14   kinomu
Dein Beispiel mit dem Foto gefällt mir, denn vor vielen Jahren, als sich die elektronische Übertragung und Speicherung von Pressefotos durchzusetzten begann, hat sich das International Press Telecommunications Council schon Gedanken darüber gemacht: Frau Lehner könnte einige der IPTC-Felder ausfüllen. Wenn ihr Ex der Fotograf war, schreibt sie seinen Namen in das Feld "Copyright Notice", ist er abgebildet, dann verwendet sie "Keywords" etc. - aber ich glaube zu verstehen, dass du das umfassender meinst.
(Mich beeindruckt bei IPTC gerade die Einfachheit: für die wichtigsten Beschreibungen gibt es eindeutig definierte Felder, eventuell zusätzlich benötigte Informationen lassen sich in anderen unterbringen.)

Ob ein "kontrolliertes vokabular von konzepten und bedeutungen" sinnvoll ist, hängt vom Zweck des Taggens ab: wenn ich nur für mich oder eine kleine Gruppe tagge und selbst erfundene Wörter oder Codes verwenden möchte, ist das natürlich überflüssig. Ansonst kann ich mir schwer etwas besseres vorstellen, trotz aller Probleme.