All languages are NOT created (tokenized) equal!

This project compares the tokenization length for different languages. For some tokenizers, tokenizing a message in one language may result in 10-20x more tokens than a comparable message in another language (e.g. try English vs. Burmese).

This is part of a larger project of measuring inequality in NLP. See the original article 'All languages are NOT created (tokenized) equal' on Art Fish Intelligence.

Settings

Select Tokenizer

Data Source

The data in this figure is the validation set of the Amazon Massive dataset, which consists of 2033 short sentences and phrases translated into 51 different languages. Learn more about the dataset from Amazon's blog post.

Data loaded: 105716 rows

Select Languages (max 6)

Afrikaans Albanian Amharic Arabic Armenian Azerbaijani Bengali Burmese Catalan Central Khmer Chinese Danish Dutch English Finnish French Georgian German Hebrew Hindi Hungarian Icelandic Indonesian Italian Japanese Javanese Kannada Korean Latvian Malay (macrolanguage) Malayalam Modern Greek (1453-) Mongolian Norwegian Bokmål Persian Polish Portuguese Romanian Russian Slovenian Spanish Swahili (macrolanguage) Swedish Tagalog Tamil Telugu Thai Turkish Urdu Vietnamese Welsh

Show histogram

Visualizations

Token Distribution

Shortest vs Longest Languages

Example Texts

·

Built with Gradio logo

·

·