書物蔵

古本オモシロガリズム

提案 国民的辞書に国民図書館のデータを

もちろん、国語辞典の初期用例は、かならずしも文献に限らないのだろうが(音盤とか、実際のしゃべりに出てくればそれが用例になるはず)、音盤などのない時代の用例は文献の形でしか残っていないので、結局ンとこ、初出、文献上の初めてを探すことになる。
とすれば、日国の見出し語を片っ端から、日本語で残っている文献群すべてにブチあてれば、理論上は初出が割り出されるというわけ。
ただブチあてる先の文献群が問題で。記述された時期がそれぞれ明確なものでないといけないわけだが、公刊された出版物が最適なのはいうまでもない。
もちろん、新聞・雑誌とかの本文レベルのテキストデータがあればよいのだろうが。戦前に遡るもんでは見出しレベルのものしかないのでは。ただまだこの世には、過去の出版物の、本文までフルテキストで持ってるような機関はないねぇ。
わちきが日国の編集者だったら、国会の持ってる書誌データ(含.目次)と会議録本文データを借りるようにするね。そして機械的に見出し語とマッチングさせて、初出洗い出しの作業用リストを作る。
そうすれば、かなりのコトバの初出が遡ることになるのではなかろうか。

目次データ

「近デジ」に明治・大正期の単行書の(そのまた一部の本の)目次がテキストであるようだ。
NDL-OPAC」の単行書データには、一部に「内容細目」があり、これがテキストであるといえよう。
「目次システム?(未見)」とかいうものには、これまたなぜだか違う種類の目次データがあるよう。
「雑索」には昭和23年からの雑誌の目次、つまり論文・記事のタイトルがテキストであるようだ。
最後の雑索はともかく、あとの3つがいったいぜんたい、なんで別々にしか存在しないのか全然さっぱり、ちーともワカランが、すくなくとも目次レベルまではテキストデータがある、とゆーことだねぇ。
よろしく統合すべし。

データは永し、しかしてシステムは短し

「書誌データは長し,しかしてOPACは短し」(http://d.hatena.ne.jp/shomotsubugyo/20050614/p2)も参照のこと。