Computerlinguistik ist das Studium der maschinellen Verarbeitung natürlicher Sprachen. Sie erarbeitet die theoretischen Grundlagen der Darstellung, Erkennung und Erzeugung gesprochener und geschriebener Sprache durch Maschinen und untersucht praktische Anwendungen wie:
Klassifikation und die Informationssuche in Schriftdokumenten unter Beachtung der Vielfalt von Ausdrucksformen natürlicher Sprachen (Textaufbereitung, Text Mining, Text Retrieval);
maschinelle und computerunterstützte Übersetzung zwischen natürlichen Sprachen;
Umwandlung zwischen gesprochener und geschriebener Sprache (Spracherkennung);
Dialogführung in der Kommunikation zwischen Mensch und Maschine.
Erstellung und Nutzung elektronischer Lexika;
Rechtschreibkorrektur und Grammatikprüfung von Texten;
Die Computerlinguistik ist ein Forschungsgebiet, das Kenntnisse und Methoden aus sehr unterschiedlischen Forschungsdisziplinen benötigt:
aus der Allgemeinen und der Theoretischen Sprachwissenschaft die Begriffe zur Beschreibung von Sprachen auf den Ebenen der Wortbildung (Morphologie), des Satz- und Textaufbaus (Syntax), der Bedeutung (Semantik) und der Verwendungsweise (Pragmatik);
aus der Informatik verschiedene Programmiersprachen und Methoden ihrer Übersetzung in maschinennahe Sprachen, Datenstrukturen, effiziente Speicher- und Suchverfahren, sowie Programmiermethodiken;
aus der Mathematischen Logik -zur Modellierung von Bedeutungen- verschiedene logische Formelsprachen und deren Interpretationen sowie Beweisverfahren;
aus der Mathematik und Phonetik statistische Verfahren;
aus der Kommunikationswissenschaft und Kognitionspsychologie Erkenntnisse über Dialogstrategien und Aufmerksamkeitssteuerung.
Der Schwerpunkt der Lehre und Forschung am CIS liegt auf der Verarbeitung geschriebener Sprache. Das Studium versucht alle Bereiche der Computerlinguistik abzudecken. Schwerpunkte der Forschung sind Information Retrieval (v.a. Internetsuchmaschinen), und logische Programmiersprachen.
Wegen der zunehmenden Bedeutung der elektronischen Informationsverarbeitung - Texte werden heute weitgehend nur noch in elektronischer Form verwaltet - werden in einigen Softwarefirmen große Anstrengungen unternommen, anwendungsreife Produkte anzubieten, in denen sprachliches Wissen verfügbar gemacht wird. Z.Z. wichtige Anwendungsbereiche für computerlinguistische Methoden sind: maschinelle Übersetzung, Text Retrieval/Mining für Intranet und Internet (z.B. Internet Suchmaschinen), automatische Textzusammenfassung, automatische Textgenerierung aus elektronischen Daten u.a. .