Skip to content
global 53 3

Türkçe NLP için hangi tokenizer öneriliyor?

Türkçe metinler için sentencepiece vs BPE karşılaştıran bir deneyim paylaşımı arıyorum. BERT-Türkçe tokenizer veya kendi eğittiğiniz tokenizer'lar için tavsiyeniz var mı?

Bizim deneyimimizde sentencepiece + 32k vocab Türkçe için en iyi sonucu verdi. BPE kelime köklerini bozma eğiliminde.

Skor: 0

BERTurk tokenizer'ı baseline olarak iyi. Domain-specific (hukuk, sağlık) için kendi tokenizer'ını eğitmek gerekebilir.

Skor: 0

Teşekkürler, sentencepiece ile deniyorum.

Skor: 0