Conversation
Notices
-
Embed this notice
(類目の検索サービスを維持するのがだんだんしんどくなってきたので、データセット公開に変えたいと思うんだけど、微妙に違うデータ形式の混在とか大型計算機時代のデータの問題もさることながら、普通の学術情報システムは1930年代から2010年代まで継続した文献データベースのことを想定してないという問題があるようだ)
-
Embed this notice
@chise 1930年代からデータがあると具体的にどんな問題が起きたりするんですか?日付がバグるとかでしょうか?
-
Embed this notice
@w12t たとえば、戦前には中華人民共和国がないとか(その他、今ない国があったり) 、日本語や中国語も常用される文字が変化してたり(自然言語処理や異体字処理のために言語指定が欲しいけど、戦後と書記言語が結構違うので区別して欲しいけどそのための標準がない)とか、言語の分類が変化してたりとか、 戦前の類目では漢籍も入れてたけどアイテムとしてコレクションが入ることになったり、四部分類をはじめとする漢籍目録情報が要るけどそんなのなかったり、などなど些細な問題なんですが微妙に合わず、時代を決めれば運用でなんとかなるけど、時代が長いのでどこかに合わせるとどこかで合わなくなるというか。
-
Embed this notice
@w12t 西暦や世紀や年代に加え、類目の時代コード(各地・各王朝の年号・時代名(+前期・後期、初期・中期・後期)による時代指定やこれらを使った期間指定とかもあって、日付関係もややこしいんですが、こちらは HuTime のサブセットみたいなものなので、HuTime にマップできる気がします。
-
Embed this notice
@chise 確かに、言われてみれば今の各種規格って規格制定以前の様態をほとんど顧みないので、現代にない事物だと急にゼロからになりますよね
-
Embed this notice
@w12t 多分、それでも、現代から見た過去の叙述ならなんとかなると思うんですが、類目は過去から見た同時代の叙述(がずっと継続して2010年代後半まで続く)なので。とはいえ、そういう例はいろいろあると思うので、できたら標準化して欲しいところです。