非英語の方がというのはマジで微妙で、とはいえ文字種がそこまで多くなければSentencePieces的なトークナイザー使うんだったらそこまで差異はないだろという気がするんだが(元々の言語資源の量に依存するところはあると思う)、日本語や中国語みたいなやつはそもそも文字の異なりが多くなりうるので他言語に比べてスパースになりそうな雰囲気あるじゃんとなる