れきちめ:日本歴史地名統合データベースは、日本の歴史地名に関するデータセットを整理・統合し、多分野で利用可能な歴史地名データベース(*1)を構築・公開することを目的とする。歴史学を中心に、史料を扱う多くの分野では、現在地名だけでなく過去地名もカバーする網羅的な歴史地名データベースに対する強いニーズがある。そこで、平凡社『日本歴史地名大系』の一部を機械可読形式のオープンデータ化するとともに、これを核として日本最大規模の歴史地名統合データベースの構築を進める。
『日本歴史地名大系』(*2)とは、全国の歴史研究者の協力を得て地名研究・地域史研究の全成果を結集し、株式会社平凡社が25年(1979年~2004年)をかけて出版した50巻51冊の地名辞典である。この地名辞典の編集にかつて関わった人々の全面的な協力を得て、地名辞典の内容の更新や位置情報(緯度経度)の追加を進め、データ駆動型研究に適した機械可読データを新たに構築した。出版社が長年にわたって蓄積してきた膨大な学術資源をオープンデータ化することで、研究者や一般市民など社会における利用が大きく進むことを期待する。
また、このオープンデータの価値をさらに高めるため、データ駆動型研究で重要な役割を果たす地名識別子(*3)として、現代から江戸時代までの市区町村の変遷を反映した市区町村IDを整備する。市区町村などの行政地名は、さまざまな行政文書や統計データ、歴史資料などに頻出する重要な地名であるが、公的な地名識別子として代表的な「全国地方公共団体コード」は1968年以降しか整備されていない。そこで、『日本歴史地名大系』のオープンデータを活用して、江戸時代の郷帳に記録された藩政村まで遡及できる地名識別子の整備に取り組む。
このような成果に基づき、大規模歴史地名データベース「れきちめ:日本歴史地名統合データベース」を構築し、歴史地名を活用した各種の歴史データ統合に基づく歴史ビッグデータの研究を推進する。また出版社が長年にわたって蓄積してきた膨大な学術資源をオープン化する試みは、データ駆動型研究の時代における出版社のオープン・クローズ戦略の立案にも資する試みだと考えている。
れきちめ:日本歴史地名統合データベースは以下の3つのデータセットから構成される。
ジャパンナレッジ(*4)に収録された『日本歴史地名大系』の地名項目を対象に、ジャパンナレッジ項目IDと地名、読み、緯度経度などを1レコードとするデータセットを公開する。特に緯度経度は、ジャパンナレッジ版『日本歴史地名大系』では一部の地名にしか付与されていないが、2023年10月の公開に合わせて多くの地名の緯度経度を推定し、データセットを強化した。ただし緯度経度の推定精度には改善の余地があるため、今後も各種資料を精査しながら精度を向上させる計画である。2023年10月に全国のデータを公開した。
一般社団法人百科綜合リサーチ・センターによってデジタル化された『日本歴史地名大系』の付録「行政区画変遷表」をもとに作成したデータセットである。後述の「歴史的行政区域データセットβ版」は1889年以降の行政地名を対象とするが、本データセットはこれを1889年以前の明治期から17世紀の江戸期まで遡及する。1889年とは、現代の行政区域の骨格が成立した市制・町村制が施行された年で、この年を境界に行政地名のデータセットを2つに分割する。ただし現代から江戸時代までを通して使えるように、2つのデータセットを合わせて表記揺れや連続性などを調査して市区町村IDを付与する。2023年10月に、栃木県と群馬県のデータセットを先行公開した。
日本の行政区域(市区町村)に市区町村IDを付与し、境界(ポリゴン)データを紐づけるなど、行政区域の地理情報を統合したデータベースで、国土交通省「国土数値情報」と筑波大学「行政界変遷データベース」を中心に複数のデータセットを統合した成果である。2017年にオープンデータとして公開した後も更新を続けており、現在は1920年~2023年のデータセットを公開している。また、上記『日本歴史地名大系』行政地名変遷データセットを活用し、栃木県と群馬県については1889年~1919年のデータセットも2023年10月に先行公開した。
れきちめ:日本歴史地名統合データベースは、以下のソフトウェアと連携することで、データ駆動型研究への活用をさらに進めることができる。
市区町村IDは行政区域データセット内では固有の識別子であるが、その一意性はデータセット内でしか保証できない。そこで、データセットを横断して地名識別子を付与するサービスであるGeoLODを活用し、データセットにはGeoLOD IDも追加して公開する。これにより、GeoLOD IDを利用する他のアプリケーションも活用できるようになり、データ駆動型研究への活用可能性が広がることになる。
GeoNLPは自然言語テキストから地名を自動的に抽出して緯度経度を付与するジオタギングソフトウェアである。地名データセットに、GeoLOD IDを付与してGeoNLP地名語辞書スキーマに適合するCSV形式でも公開することで、歴史文書から地名を自動的に抽出して検索可能とするようなデータ駆動型研究に活用できる。
日本の現在の住所を入力すると緯度経度を出力する、Python版住所ジオコーダーである。過去の市町村名は現在の大字・小字・集落名などに残っている場合が多いため、住所ジオコーダーは過去の地名の緯度経度を推定するのに有用である。ただし過去の地名の痕跡が残っているとはいえ、地名の一部が変化している場合も多いため、このツールを有効利用するには入力データの調整が必要である。
歴史地名に関連するプロジェクトやリソースを以下に紹介する。
(*1) 歴史地名データベース:現代に続く地名だけでなく、いまや使われなくなった過去の地名なども含め、歴史的に存在した地名を収集した成果をまとめたものが歴史地名データベースである。日本の歴史地名に関しては、人間文化研究機構とH-GIS研究会が公開する歴史地名データ(歴史地名マップ)が、298,914件の地名を含む大規模なデータセットとして広く使われている。「れきちめ」のデータセットは「歴史地名データ」とは地名の収集方法が異なるため、両者は補完的な役割を果たすことが期待できる。
(*2) 『日本歴史地名大系』:全国の歴史研究者の協力を得て編纂され、地名研究・地域史研究の全成果を結集した地名辞典である。1979年から2004年にかけて平凡社から50巻51冊の地名辞典として出版された。日本列島47都道府県+京都市の15万におよぶ地名項目に加えて、文献解題や地図類、行政区画変遷・石高一覧などの資料も付帯する。本データセットは、行政区画変遷を初めて機械可読データとして公開するとともに、行政区画変遷に関連する地名項目約8万件の位置情報(緯度経度)など、元の辞典にはなかった情報も整備して公開している。
(*3) 地名識別子:実世界で識別可能なエンティティ(実体)に付与した固有の文字列を識別子と呼ぶ。英語のIdentifierを省略した「ID」や、数字を用いた「コード」などの表記もよく使われる。識別子は社会のデジタルトランスフォーメーション(DX)を推進する上で鍵を握る仕組みである。例えば、マイナンバーは日本の住民に付番する一意の番号で、これを利用すれば複数のデータベースに登録された記録を紐づけて扱うことができ、利便性が向上すると言われている。行政区域についても、1968年以降の市区町村には「全国地方公共団体コード」が付番されているが、それ以前の市区町村は対象となっていない。そこでROIS-DS CODHでは過去の市区町村にも識別子を付与し、様々な文書に出現する記述を地名識別子に紐づけ、文書横断的に統合するという方法により、歴史ビッグデータの研究を推進する。
(*4) 株式会社ネットアドバンスが運営するオンライン辞書・事典検索サイトである。『日本歴史地名大系』の全項目はジャパンナレッジ版『日本歴史地名大系』に登録されているため、有料契約すればすべての情報が閲覧可能である。これに加えてデータのオープン化により、基本的な情報はすべての人々が自由に利用可能となるため、データ駆動型研究におけるデータ統合など、多様な学術的ニーズを持つ研究者に利用が拡大することが期待できる。またオープンデータに含まれるジャパンナレッジIDを用いることで、外部の地名データベースからジャパンナレッジの本文を調べやすくなる。