Technologie
XSEARCH Linguistik
Das wortweise Indexieren von Text und die Verknüpfung mit Boolescher Logik führt gerade bei einer komplexen Sprache wie dem Deutschen zu ungenügenden Resultaten bei der Suche.
Schon einfache Wortkreationen wie "Zylinderkopfdichtung" oder "Bezugsscheinabgabe" sowie zahlreiche unregelmäßige Beugungen (Haus-Häuser) setzen dem Finden schnell Grenzen. Häufig benutzte Methoden wie Bayesian oder der Porter Algorithmus helfen in der deutschen Sprache nur marginal, da sie nicht die komplexe Struktur des Deutschen berücksichtigen.
Nur mit Hilfe lexikalischer Analysen und morphologischer Methoden speziell für das Deutsche können signifikante Verbesserungen im Information Retrieval erzielt werden. X-SEARCH Linguistik ist die mehrsprachige Erweiterung für nahezu jede Search-Engine.
XSEARCH Linguistik liegt ein nahezu vollständiges Vollformenlexikon zugrunde, das von anerkannten sprachwissenschaftlichen Experten über mehr als 25 Jahre entwickelt wurde und in vielen nationalen und europäischen Projekten mit großem Erfolg eingesetzt wird. Das Vollformenlexikon deckt nahezu den gesamten Bereich der deutschen Sprache ab:
- Grundwortschatz von rund 1 Millionen Einträgen
- zusätzlich rund 150.000 Synonymeinträge
- zusätzlich rund 1 Millionen Komposita
- Wortklasseninformationen Part of Speech
- alte und neue Rechtschreibung
- Umlautvariationen
- Mehrwortbegriffe und Abkürzungen
- Schweizer Variante für sZet
- Eigennamen, Länder- und Ortsbezeichnungen
- Komposita Algorithmus
Kompositazerlegung
Zusammengesetzte Worte wie "Aluminiumfabrik" werden in die Begriffe "Aluminium" und "Fabrik" zerlegt und die Bestandteile ebenfalls gesucht.
Lemmatisierung
Grundformreduktion und Expansion aller Flexionen wie
"gehen, ging, gegangen"
"groß, größer, am größten"
"Gang, Gänge".
Erweiterte Flexionen
Viele Begriffe werden abgekürzt oder mal mit und ohne Trennstrich geschrieben. Das erweiterte Flexionslexikon findet "zum Beispiel" aber auch "z. B.", "zB" oder "knowhow" und "Know-how".
Derivation
Zerlegung oder Erweiterung auf sinnhafte Begriffe: "Gottheit" sucht auch nach "Gott", aber nicht nach "heit", da dieses Wort nicht existiert.
Umlautvarianten
Die Suche nach "Übel" findet auch "Uebel".
Neue Rechtschreibung
Die Suche nach "Delphin" findet auch "Delfin".
Synonyme und Wortfamilien
X-SEARCH Linguistik stellt rund 140.000 Synonymeinträge zur Verfügung. So findet die Suche nach "Bank" auch "Bankhaus" oder "Geldinstitut". Auch Mehrwortbegriffe wie "Frankfurter Allgemeine Zeitung" und "F.A.Z." können abgebildet werden.
Wortklassifizierung (Part of Speech tagging POS)
Zu jedem Wort ist eine Wortklasse hinterlegt, wie Substantiv, Adjektiv, Verb, Adverb, Ortsangabe, Mehrwortbegriff oder Name. Mit Hilfe dieser Informationen können Softwareapplikationen aus dem Bereich Data Mining, Clustering oder Kategorsierung wesentlich verbessert werden. Knowledge Discovery Lösungen können mit X-SEARCH Linguistik verstehen, in welchem Kontext der gesuchte Begriff steht und mit welchen Inhalten das Dokument sich beschäftigt.

