Uyghur Tokenizer

A simple word level tokenizer for Uyghur (Arabic-based alphabet). This project includes:

Tokenizer library (requires .Net Framework 2.0 or latter).
A demo tool for tokenizing local text files on your PC.

تېكىست ھۆججەتلەردىكى ئۇيغۇرچە سۆزلەرنى سۈزۈپ ئېلىشقا ئىشلىتىلىدىغان ئاددىي كود ۋە ئەپچىل قۇرال. تۆۋەندىكىلەر ھازىرلاندى:

ئۆزىڭىزنىڭ پروگراممىلىرىدا ئىشلىتەلەيدىغان dll ھۆججىتى (.Net قۇرۇلمىسىنىڭ 2.0 دىن يۇقۇرى نەشرىگە بېقىنىدۇ)
بەلگىلەنگەن مۇندەرىجە ئىچىدىكى ھۆججەتلەردىن سۆزلەرنى ئاپتوماتى سۈزۈپ ئالىدىغان ئەپچىل قۇرال.

Using Library

Add UyghurTokenizer.dll as reference in your .Net project.

UyghurTokenizer.dll ھۆججىتنى تۈرىڭىزگە قىستۇرۇپ تۆۋەندىكى ئۇسۇللار ئىشلىتىڭ.

        string textToTokenize = "Uyghur content";
        UyghurTokenizer tokenizer = new UyghurTokenizer();
        string[] tokens = tokenizer.GetTokens(textToTokenize);

or

        List<string> tokens = new List<string>();
        IEnumerator<string> iter = GetTokenIterator(inputText);
        while (iter.MoveNext())

Using Demo Tool

Please follow the instruction on tool UI.

كۆزنەكتىكى كۆرسەتمىلەر يويىچە مەشغۇلات قىلىڭ.

Online demo: http://lab.uyghurdev.net/Uyghur-Tokenizer/Default.aspx

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
Distribution		Distribution
UnitTest		UnitTest
UyghurTokenizerDemoTool		UyghurTokenizerDemoTool
UyghurTokenizerLibrary		UyghurTokenizerLibrary
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
Uyghur Tokenizer.sln		Uyghur Tokenizer.sln
UyghurTokenizer.zip		UyghurTokenizer.zip

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Uyghur Tokenizer

Using Library

Using Demo Tool

About

Releases

Packages

Languages

License

mardan/Uyghur-Tokenizer

Folders and files

Latest commit

History

Repository files navigation

Uyghur Tokenizer

Using Library

Using Demo Tool

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages