Ugrás a tartalomra
science.uni-obuda.hu logó
  • Címlap
  • Szerzők
  • Kulcsszavak
Címlap » Publications

Language Identification Using Global Statistics of Natural Languages

CímLanguage Identification Using Global Statistics of Natural Languages
Közlemény típusaConference Paper
Kiadás éve2005
Oldalszám243-255
SzerzőkWindisch, G., and L. Csink
Konferencia neve2nd Romanian-Hungarian Joint Symposium on Applied Compuational Intelligence
ÉvfolyamProceedings
Konferencia helyszíneTimisoara
Összefoglalás

This article is about a new method which makes it possible to identify the
language of a written document. The method is based on the analysis of simple descriptive
statistics of the given text. These simple statistical features include things like average word
length or consonant congestion.
In order to measure the effectiveness of the method an application has been developed
which can classify English, Hungarian, German, Spanish, Croatian, French and
Norwegian documents by analysing the average word length, the ratio of certain
characters, word endings and consonant congestion.

Jelenlévő felhasználók

Jelenleg 0 felhasználó és 79 vendég van a webhelyen.