Gensim を使い、まずはハッシュタグ分析からやってみようかな。bag-of-words だし。Anacondaライブラリにはいっているから、簡単にインストできるだろう。LDA (Latent Dirichlet Allocation)でトピックモデルの解析をするのかな。
データつまりtweet, toot, noteなどが大量に必要。Fediverse の Relayを使ってデータ集め。許可されるかどうか、その前にこちらにそのための技術とリソースがそろうかどうか。
Gensimにはword2vecなども実装されているそうだから、それも使えるようになるとよいな。
実際のスタートは来年になりそう。
#NLP #Gensim #topicmodel #トピックモデル #LDA #word2vec #AI
Embed Notice
HTML Code
Corresponding Notice
- Embed this notice
sumiyaki (sumiyaki@misskey.cloud)'s status on Wednesday, 15-Nov-2023 01:19:14 JST
sumiyaki