非英語の方がというのはマジで微妙で、とはいえ文字種がそこまで多くなければSentencePieces的なトークナイザー使うんだったらそこまで差異はないだろという気がするんだが(元々の言語資源の量に依存するところはあると思う)、日本語や中国語みたいなやつはそもそも文字の異なりが多くなりうるので他言語に比べてスパースになりそうな雰囲気あるじゃんとなる
非英語の方がというのはマジで微妙で、とはいえ文字種がそこまで多くなければSentencePieces的なトークナイザー使うんだったらそこまで差異はないだろという気がするんだが(元々の言語資源の量に依存するところはあると思う)、日本語や中国語みたいなやつはそもそも文字の異なりが多くなりうるので他言語に比べてスパースになりそうな雰囲気あるじゃんとなる
GNU social JP is a social network, courtesy of GNU social JP管理人. It runs on GNU social, version 2.0.2-dev, available under the GNU Affero General Public License.
All GNU social JP content and data are available under the Creative Commons Attribution 3.0 license.