Bei der Verschlagwortung von Bildern und anderen Medien geht es hauptsächlich darum, welche Objekte auf diesen zu sehen sind. Bis vor ein paar Jahren bedeutete das mühsames Eintippen und monotones Arbeiten. Zum Glück sind diese Zeiten vorbei. Wenn es sich nicht gerade um Bildmaterial mit Spezialthemen handelt, werden abgebildete Objekte mit hoher Zuverlässigkeit erkannt. Das sind z.B. alltägliche Gegenstände wie ein Stuhl, eine Bohrmaschine oder ein Fahrrad. Die Erzeugung automatischer Schlagwörter funktioniert in der Praxis also schon sehr gut. Insbesondere in der Stockfotobranche hat sich die Technologie schon mehrere Jahre bewährt.
Technische Hürden
Wenn man eine exakte Bestimmung von Fabrikat, Marke oder Typ benötigt, werden natürlich auch hier individuelle Trainingsvorgänge notwendig.
Beim Erkennen biologischer Arten (z.B. von Insektenarten) kommt maschinelles Sehen häufig an seine Grenzen, da die Unterscheidungsmerkmale sehr nuanciert und subtil sein können.
Erwähnenswert ist auch das Phänomen, dass völlig verschiedene Gegenstände starke optische Ähnlichkeiten aufweisen können. So bekannt, dass man von einem Meme sprechen kann, wurde in diesem Zusammenhang die Collage chihuahua or muffin (von Karen Zack), zu finden hier: karenzack.com/work/recognition-series.
Ähnlichkeiten dieser Art stellen für Objekterkennungsroutinen Herausforderungen dar, die durchaus bewältigt werden können. Auch das Erkennen verwendeter Stilmittel ist mit Deep-Learning-Methoden möglich. Fraglich bleibt jedoch, inwiefern Bildkonzepte und andere Bedeutungsebenen maschinell erfasst werden können. Bis Computer mit hoher Verlässlichkeit Bildaussagen erkennen und ausgeben können, werden also vermutlich noch ein paar Jahre vergehen müssen.