global 53 3
Türkçe NLP için hangi tokenizer öneriliyor?
Türkçe metinler için sentencepiece vs BPE karşılaştıran bir deneyim paylaşımı arıyorum. BERT-Türkçe tokenizer veya kendi eğittiğiniz tokenizer'lar için tavsiyeniz var mı?
Bizim deneyimimizde sentencepiece + 32k vocab Türkçe için en iyi sonucu verdi. BPE kelime köklerini bozma eğiliminde.
Skor: 0
BERTurk tokenizer'ı baseline olarak iyi. Domain-specific (hukuk, sağlık) için kendi tokenizer'ını eğitmek gerekebilir.
Skor: 0