論文・解説

【総説・解説】生物多様性情報の標準データフォーマット Darwin Core Archive と生態学データに適合させる拡張形式 “Sample-based Data”

出典:保全生態学研究 (Japanese Journal of Conservation Ecology) 22 : 371-381 (2017)

表題

生物多様性情報の標準データフォーマット Darwin Core Archive と生態学データに適合させる拡張形式 “Sample-based Data”

Darwin Core Archive, the standard data format for biodiversity information and its extension for ecological data “Sample-based Data”

簡略表題

生態学データ向け Darwin Core Archive

Darwin Core Archive for ecology data

著者

大澤 剛士 1,3*, 戸津 久美子 2,3

所属/affiliations
  1. 国立研究開発法人 農業・食品産業技術総合研究機構 農業環境変動研究センター
    Institute for Agro-Environmental Sciences, NARO
  2. 国立研究開発法人 国立環境研究所
    National Institute for Environmental Studies
  3. GBIF 日本ノード JBIF
    Japan Node of Global Biodiversity Information Facility

*連絡対応者

住所/adress

〒305-8604 茨城県つくば市観音台 3-1-3 国立研究開発法人 農業・食品産業技術総合研究機構 農業環境変動研究センター

Institute for Agro-Environmental Sciences, NARO, 3-1-3, Kannondai, Tsukuba, Ibaraki, Japan, 305-8604

Phone: 029-838-8148 / FAX: 029-838-8199 / e-mail: arosawa[at]gmail.com ([at]を@に変えてください)

出典情報・引用について

出典

保全生態学研究 (Japanese Journal of Conservation Ecology) 22 : 371-381 (2017)

※このページは上記出典の論文をもとに作成しています。引用される場合、引用情報は以下のようにお書きください。

大澤・戸津(2017)保全生態学研究 22 : 371-381

要旨/Abstract

Darwin Core/Darwin Core Archive は、生物多様性情報を記述する国際的な標準データフォーマットである。しかし、これはもともと標本を記述することを目的に作成されたため、記述するデータの単位が基本的に個体の在データのみの形式となっており、在/不在データやトラップ調査によって得られる多種多数の個体データ等、生態学でしばしば用いられる形式に適合しにくいという欠点があった。この状況に対し、2015 年、Darwin Core の改良を担う Biodiversity Information Standards: BIS(Taxonomic Databases Working Group: TDWG ともよばれる)より、Darwin Core を生態学データに適合させる新形式「Sample-based Data: SB Data」が公表された。SB Data は、様々な生態学データを標準化し、共有および横断利用を促進させる可能性があるデータ形式として、The Group on Earth Observations:GEO-BON 等の国際生態系観測コミュニティにおいても期待されている。本稿は、Darwin Core の基本的な情報ならびに、Darwin Core の新しい形式である SB Data の解説を行うことで、日本における生物多様性データの共有、横断利用推進の一助にすることを目的とする。

キーワード: 生物多様性情報学、データペーパー、標準化、GBIF、JBIF

Darwin Core/Darwin Core Archive is a standard data format for biodiversity information. However, Darwin Core has supported presence-only data generally, it was difficult to adapt several types of ecological data such as presence/absence data and monitoring data. In 2015, Biodiversity Information Standards: BIS (Taxonomic Databases Working Group:TDWG) which is responsible for maintaining Darwin Core released a new type of information to be handled in Darwin Core called “Sample-based Data” for adapting quantitative information particularly ecological monitoring and assessment data. Sample-based Data has a high potential to facilitate data sharing and integration which is one of the goals for several biodiversity related community such as The Group on Earth Observations:GEO BON. In this article we describe detail information of both Darwin Core and Sample-based Data for facilitating biodiversity data sharing and integration in Japan.

Key words: biodiversity informatics, data standardization, data paper, GBIF, JBIF

はじめに

生物多様性の保全や持続的な利用の実現が社会的な課題になるに伴い、生物多様性に関するデータベース構築の重要性が急激に高まっている(大澤 2017)。生物多様性情報に関する国際的取り組みである Global Biodiversity Information Facility: GBIF は生物多様性条約: CBD、生物多様性及び生態系サービスに関する科学-政策間プラットフォーム: IPBES 等との連携を明言しているし( http://www.gbif.org/using-data/policy-relevance 2017 年 4 月 1 日確認)、2014 年に公表された生物多様性概況 GBO4 も、基盤データ整備を進める必要性について言及している (Secretariat of the Convention on Biological Diversity 2014)。日本においても近年、GBIF の国内活動拠点である GBIF 日本ノード(JBIF)を中心に、この問題を解消するために様々な取り組みやアイディアが活発に議論されるようになった(例えば大澤ほか 2016; 大澤 2017)。

生物多様性情報に限らず、散在するデータを一元化し、利用しやすい形にする一つの方法として、共通のデータフォーマットを利用することが挙げられる(Baker et al. 2013; 大澤・神保 2013)。独立したシステムに散在したデータであっても、共通データフォーマットで記述されていれば、その統合は比較的容易である。よって、標準データフォーマットを定め、それを普及することは、データの利用性向上やデータベースの横断利用を実現させる上で極めて有効な手段である。生物多様性情報を記述するデータフォーマットについては、Biodiversity Information Standard: BIS (Taxonomic Databases Working Group: TDWG ともよばれる)によって提案されている Darwin Core を一つの標準形式として挙げることができる(三橋 2010; 大澤ほか 2011; 大澤・神保 2013; Backer et al. 2013; Wieczorek et al. 2012)。Darwin Core は GBIF をはじめ、海洋における生物情報を集積する国際プロジェクトである Ocean Biogeographic Information System: OBIS(De Porter et al. 2017; http://www.iobis.org/ 2017年4月1日確認)、日本の生物多様性センター( http://www.biodic.go.jp/ 2017 年 4 月 1 日確認)等、国内外の様々なプロジェクトや機関で扱う生物多様性データベースにおいて採用されるようになっており、既に国際的にも標準形式として受け入れられていると言ってよい。

Darwin Core は、もともと標本情報の記述を目的に提案されたフォーマットである。このため、個体を単位としたデータの記述には適合性が高い反面、決められた手法で継続的に観測を行い、観測単位が必ずしも生物個体ではないモニタリング調査においては、データの記述が困難である場合が多い。例えば、木本の胸高直径等を計測する毎木調査、植物が地表面を覆っている割合を記録する植生調査、コドラートを利用した底生動物の定量調査等、個体を単位にデータを記述することが困難な場合や、個体数が膨大で桁等のオーダーしか記述できない場合が多々ある。これらの調査データであっても、個体を単位とするデータに加工することは不可能ではないが、そのためには少なくない労力が必要とされる。さらに、個体を単位にしたデータであっても、Darwin Core で扱えるのは「在」データのみであり、生態学においてしばしば利用される在/不在データを記述することができないという問題もあった。

生態学データは形式が非常に様々であるため、データフォーマットの標準化が困難であることは古くから認識されてきた。この状況に対し、国際長期生態学研究ネットワーク International Long Term Ecological Research: ILTER では、データフォーマットの厳密な標準化は行わず、そのデータ自体の説明、例えば収集方法、目的等のメタデータを記述するフォーマットのみ標準化することを提案している(Blankman and McGann 2003; Fegraus et al. 2005)。生態学におけるメタデータの標準形式である Ecological Metadata Language: EML(Blankman & McGann 2003 ; Fegraus et al. 2005)は、その拡張性の高さから長期生態学研究ネットワーク: LTER を中心に広く利用されるようになった。とはいうものの、拡張性と自由度が高いがために、逆に記述方法が多様化してしまうという面もある。その結果として、メタデータを見た利用者が同質のデータを判断できない場合も少なからず存在し、データの統合等は必ずしも推進されず、あくまで必要なデータセットを検索するためのツールとして使われているのが現状である(これに対して多言語に対応した共通語彙を整備し、横断的な利用を実現しようとする取り組みもある Vanderbilt et al. 2017)。

Darwin Core は個体を単位としたデータ形式として標準化されているが、それ単体ではメタデータを記述することができない。そこで、Darwin Core と EML を組み合わせ、生物多様性データとメタデータを一体化させた Darwin Core Archive という形式が提案されている(GBIF 2010; 2011; 図 1)。この採用によって GBIF ネットワーク上では、メタデータ標準形式によって効率的にデータを発見し、標準データフォーマットによって他のデータとの統合が比較的容易に実施できるようになり、生物多様性データの利用性は大きく向上した。しかし、これはあくまで個体を単位としたデータに限定され、モニタリングデータ等への利用性、適合性の課題については解決できていない。

2015 年、Darwin Core の改良に取り組んでいる BIS/TDWG から、Darwin Core をモニタリングデータ等に適用させるための新しい拡張形式「Sample-based Data」(以降 SB Data と表記)が提案された( http://www.gbif.org/newsroom/news/sample-based-data 2017 年 4 月 1 日確認)。これは Darwin Core を拡張させる形式の一つとして提案されたもので、個体を単位とした標準データフォーマットである Darwin Core の性質は維持しつつ、個体を単位としないモニタリングデータ等についても、サンプリング方法を明確にすることで記述できるように整備した新フォーマットである。本拡張により、Darwin Core には様々な生態学データを広く共有し、利用性を向上させる新たな可能性が付与された。SB Data が普及すれば、生態学者に加え、Group on Earth Observations Biodiversity Observation Network: GEO-BON 等の国際生態系観測ネットワークと GBIF の連携も大きく進むと期待されている( http://www.gbif.org/newsroom/news/sample-based-data 2017 年 4 月 1 日確認)。本稿は、Darwin Core Archive、特に新しい拡張形式である SB Data 形式について解説を行い、様々な生態学データを標準形式に再整理するための一助とすることを目的とする。なお、国際標準である Darwin Core は原則として英語で記述するものであるが、本稿では基本的に日本語での解説を行う。データを GBIF ネットワーク上に公開する際には英語化する必要があるが、読者の方々が手持ちのデータを Darwin Core で整理する場合には、もちろん日本語を利用することができる。日本語で整理されたデータであっても、記述フォーマットに標準形式を利用していれば、GBIF から取得できるデータとの一元化も比較的容易であるし、日本語を英語に変換するだけで GBIF ネットワーク上での公開も可能になるため、利用性は著しく向上する。具体例として紹介する Darwin Core Archive データは Osawa(2013)ならびに大澤・和田(2016)においてデータペーパーとして公表済みで、GBIF ネットワークから再利用、再配布可能なオープンデータ(大澤ほか 2014)としてダウンロードできるので、適宜参照していただきたい( http://www.gbif.org/dataset/9dbb55ce-0b38-4468-9172-40c8481edd2a ; http://www.gbif.org/dataset/2488cd13-4f80-479c-ae54-257de312054e 2017 年 4 月 1 日確認)。

Darwin Core と Darwin Core Archive

はじめに Darwin Core そのものについて少し詳しく解説したい。このデータフォーマットは、もともと分類学における標本情報記述のために整備された語彙、記述可能な項目を厳密に定義したものである(GBIF 2010)。Darwin Core は、生物多様性情報分野の標準形式策定を担うコミュニティである BIS/TDWG によって現在も改良が進められており、最新バージョンは TDWG の Web ページで確認できる( http://rs.tdwg.org/dwc/ 2017 年 4 月 1 日確認)。Darwin Core には基本項目に加え、多種多様な拡張項目(例えば遺伝子データ用、微生物データ用等が存在している)が用意されており、生物多様性に関わる様々なデータ形式を記述することが可能になっている。JBIF では基本項目について、旧バージョンも含めた項目の簡単な解説と( http://www.gbif.jp/v2/datause/data_format/index.html 2017 年 4 月 1 日確認)、Darwin Core を適用したファイルを対象としたフォーマット適合テストサービス(http://www.gbif.jp/gbif_checker/ 2017 年 4 月 1 日確認)を提供しているので、個別の項目等についてはこちらのページを参照されたい。

図 1. Darwin Core Archive の概念図。生物多様性情報とメタデータを同梱して zip で圧縮したファイルとなる。

Darwin Core Archive は、Darwin Core に従って記述された生物多様性データと、EML で記述されたメタデータ、およびデータ項目の定義ファイルを組み合わせ、zip 形式で圧縮したものである(GBIF 2010; )。例として筆者がデータペーパーを公表した上で(Osawa 2013)、GBIF から公開している植物の観察データを参照する( http://www.gbif.org/dataset/9dbb55ce-0b38-4468-9172-40c8481edd2a 2017 年 4 月 1 日確認)。URL の先に、“External Data"というリンクがあり、ここから zip 形式のファイル、すなわち Darwin Core Archive ファイルをダウンロードできる(2017 年時点のページ構成であるため、今後ページ構成が変わる可能性があるが、ページから Darwin Core Archive ファイルは確実に取得できる)。これを一般的な圧縮解凍ソフトウェアで解凍すると、2 つの XML ファイル(eml.xml と meta.xml)と 1 つのテキストファイル(occurrence.txt)という計3 つのファイルが含まれていることがわかる( )。eml.xml は EML で記述されたメタデータで、EML を扱う専用ソフト Morpho( https://knb.ecoinformatics.org/#tools/morpho 2017 年 4 月 1 日確認; 小川・藤原 2007)はじめ、多くのアプリケーションでテキストファイルとして開くことができ、編集可能である。meta.xml はデータ項目の定義ファイル(どの項目が何を意味するのかを定めたもの)、occurrence.txt がデータ本体、すなわち生物の在データとなっている。つまり、meta.xml には、データ本体のヘッダが Darwin Core で定められた項目のどれに該当するかが記述されている。これらをまとめて zip 形式で圧縮した状態を Darwin Core Archive と呼んでいる( )。GBIF では Darwin Core Archive をしばしばデータとその概要説明を一元化した形式として「データセット」と称する。「データセット」とすることで、例えばある研究プロジェクトで収集されたデータを検索する、ある研究グループが収集したデータのみを取得するといった利便性が担保される(GBIF 2010; 2011)。さらに zip で圧縮することは、特別なソフトウェアを利用しなくてもファイルサイズを小さくできるという利点もある(GBIF 2010)。なお、Darwin Core Archive には生物多様性データ本体以外にも、様々な拡張形式データを含めることも可能である(GBIG 2010; 2011; )。

メタデータを記述する EML は、自身で記述する項目を設定できる極めて柔軟な形式であるが、Darwin Core Archive においては記述が必須である項目、推奨される項目が GBIF メタデータプロファイルとして設定されているため、データの整備者は迷わずメタデータを記述できる( https://github.com/gbif/ipt/wiki/resourceMetadata 2017 年 4 月 1 日確認)。Darwin Core Archive で記述が必須、あるいは推奨されているメタデータ項目および概説を に示す。この必須項目は、生物データに関するデータペーパーにメタデータとして記述する項目、すなわち同様のデータを取得する際に最低限必要な情報と考えると理解しやすい。実際、筆者らは Darwin Core Archives の内容をベースにメタデータを作成したデータペーパーを複数発表している(Osawa 2013; Osawa et al. 2017; Voraphab et al. 2015; Fukasawa et al, 2016)。なお、メタデータ項目については JBIF の web ページ上で日本語の解説および記述を補助するための Excel ファイルも公開しているので、適宜ご利用いただきたい( http://www.gbif.jp/v2/regist/index.html 2017 年 4 月 1 日確認)。

表 1. GBIFメタデータプロファイルにおいて記述が求められているメタデータ項目および概説。
Darwin Core がサポートする生物多様性データの型とスタースキーマ

Darwin Core は、2017 年現在で 3 つの生物多様性データ型に対応している。1 つ目は標本等、個体を単位としたいわゆる在データを記述する型、2 つ目は生物の地域チェックリスト、例えばある地理的範囲におけるフロラリストやファウナリストを作成するための型、3 つ目が本稿で主題とする、様々な生態学データに適合できる型である SB Data である。この 3 形式のどれに対応しているかを決めるのが、Darwin Core の Core: コア形式である。

図 2. Darwin Core のスタースキーマの概念図。中心にあるコア・ファイルによって、どのようなデータ型を扱っているのかが決定される。

Darwin Core はコアを中心に、スタースキーマ(Star Schema)と呼ばれる星型の形状で構成される(Backer et al. 2013; GBIF 2010; )。標本データを例にすると、中心にあるコアファイルに標本の種名、採集地、採集日時等のラベル情報が記述され、拡張ファイルにゲノム情報、標本画像、文献情報等の周辺情報が記述されることになる。中心にあるコアファイルの型が、対応しているデータ形式を特徴付ける最も重要な要素である( )。コアファイルには対応するデータ型それぞれに対応した 3 つの型があり、在データ形式を使う場合はオカレンス・コア(Occurrence Core)を、分類学データを扱う場合にはタクソン・コア(Taxon Core)を、生態学データ等の SB Data を扱う場合にはイベント・コア(Event Core)をそれぞれ利用する。具体的に形式の違いを説明すると、オカレンス・コアを選択した場合、個体そのものを単位としたデータになる。つまり、種 A が 5 個体、種 B が 10 個体いた場合には 15 レコードのデータとなる。タクソン・コアは、種を単位としたデータを扱う。先の例と同じデータにタクソン・コアを選択した場合には、種は A と B の 2 種のみであるため、レコード数は 2 になる。イベント・コアについては次項から詳しく説明するが、基本的には調査手法等を記述し、サンプリング単位のデータになると考えればよい。各コアにおける記入必須項目、推奨項目を にまとめた。これを見ればわかるように、どのコアであっても記述が必須となっている項目数は決して多くない。とはいえ、Darwin Core には必須、推奨項目以外にも多数の項目が用意されているので、データを整理、公開する際には利用性を高めるため、必須、推奨以外の項目も可能な限り入力したほうがよいだろう。コア形式それぞれのテンプレートファイルはエクセル形式でインターネット上からダウンロードできるので、ぜひ参照されたい (
オカレンス・コア https://github.com/gbif/ipt/wiki/occurrenceData#templates;
タクソン・コア https://github.com/gbif/ipt/wiki/checklistData#templates;
イベント・コア https://github.com/gbif/ipt/wiki/samplingEventData#templates
全て 2017 年 4 月 1 日確認)。

表 2. コア形式ごとで記述が求められている項目および概説。

Sample-based Data: SB Data

ここからは、生態学データの記述に適合性が高い SB Data について詳しく解説する。SB Data のコアであるイベント・コアの必須項目は、eventID、eventDate、samplingProtocol の 3 つである( )。ここで注目すべきは、必須項目に学名(種名)がないことである。SB Data は、その名前が示すとおり、単位が「サンプリング」、例えばモニタリング調査の 1 回やトラップ調査の 1 回になる。ここで重要になってくるのが、必須項目である samplingProtocol である。ここに何を記述するかというと、サンプリングの手法である。例えばライトトラップ、ビーティング、植生の被度調査等を記述する。samplingProtocol が一致していれば、世界のどこで実施された調査であっても、同じ手法で収集されたものとみなすことができるため、データの一元化が可能と判断できる。現状ではこの記述内容について共通語彙、すなわちこの項目に書き込める内容が厳密に決まっているわけではないので、自由記述に近い状態にある。そのため、データ利用者が判断しやすい情報をできるだけ詳細に記述しておくほうがよいだろう。

イベント・コアの作成

SD Data はサンプリングが単位となるため、その単位についての詳細をイベント・コアに記述する必要がある。このイベント・コアの設計がデータの利用性を決める重要な要素になる。イベント・コアの具体事例として、筆者が既に大澤・和田(2016)においてデータペーパーとして公表し、SB Data として GBIF ネットワーク上に公開しているツバメの在/不在データのイベント・コアについて詳細に解説する。

表 3. イベント・コアの例。必須項目および例で使用したデータで記入されている推奨項目で記述されている項目ほか数項目を表記している。記述可能な全項目は下部にあるURL先を参照のこと。

このデータは、いわゆる市民参加型の調査で、近畿 2 府 4 県の駅舎において一般人がツバメの巣の在/不在、巣の数等を調査したもので(大澤・和田 2016)、データを利用した研究論文も公表されている(Osawa 2015)。このデータセットにおけるイベント・コアの一部を抜粋したものを に示す。必須項目である eventID は、調査単位となる駅名のユニーク ID、eventDate は、その駅舎を調査した日、samplingProtocol は個人の非定量の観察調査(ad hoc observation)が記述されている( )。推奨項目である sampleSizeValue には、駅舎の規模を示す値を入れたいところだが、面積や階数、建造物の形状等が駅ごとで異なり、統一的なものを決定できなかったので、代わりに samplingSizeUnit を利用し、駅舎(Station building)と記入した( )。samplingEffort には調査努力量を記入するのだが、様々な調査参加者が自身で駅舎内を観察したもので、定量化が困難であったので、Observed in the station building と記入した( )。locationID は駅名ごとのユニーク ID を付与し、decimalLatitude & decimalLongitude & geodeticDatum は 10 進法の緯度経度および、その座標系を意味する WGS84(一般的な GPS で取得できる座標系)を記入した( )。なお、本調査は各駅で 1 回とみなしているので、eventID と locationID が一致している。仮に同じ駅で複数回の調査を行った場合には、同じ locationID に値が異なる eventID が付与されることになる。countryCode には日本を意味する JP を記入した( )。必須でも推奨でもない項目だが、調査を行ったのは鉄道の駅であり、調査地には駅名という固有名詞を与えることが可能であるため、locality には駅名を記入した( )。これらにより、イベント・コアには、「日本において、場所を一意に特定できる駅舎を単位に、非定量的な観察調査を実施した。実施日は記入日である」というサンプリング情報が書き込まれたことになる。

表 4. イベント・コアのエクステンションとして記述されている生物情報。必須項目および例で使用したデータで記入されている推奨項目のみ表記している。

サンプリング情報が完成したら、サンプリングごとの生物情報をエクステンション、つまりサンプリングを主とし、各サンプリングに付随した結果データとして記入することになる( )。本データセットでは、多数の巣が確認されたツバメ(Hirundo rustica)については在/不在を、少数のみ確認されたイワツバメ(Delichon urbica)、コシアカツバメ(Hirundo daurica)については在データのみを記述した。 で示したサンプリングに対応する生物データを抜粋して示した。occurrenceID にはデータレコードを特定できるユニークな ID を記入した( )。eventID は、調査を行った駅の ID(イベント・コアで付与したもの)を記入した。この eventID が外部キー、つまりイベント・コアの主キーを参照する項目となり、サンプリングと生物情報を結びつけることが可能になる。高野下駅(eventID=242)では、ツバメとコシアカツバメの両種の巣が発見されたので、eventID=242 となっているエクステンションデータは 2 レコードとなり、ツバメ、コシアカツバメそれぞれについて occurrenceStatus に在(present)と記入した( )。六甲駅(eventID=812)ではどのツバメの巣も発見できなかったので、eventID=812 となっているレコード数は 1 で、ツバメが不在(absent)と記入した( )。なお、本データは鳥そのものではなく、巣を計数単位としているため、organismQuantityType に巣の数(nest number)を記述し、organismQuantityには巣の数を記述した( )。不在(absent)の場合にはこの値が 0 になる( )。学名(scientificName)以降は、分類群情報を記述できる限り全て記述した。分類群情報を埋めておくことで、例えば上位分類群でデータをまとめて取得したいユーザ等が、本データを含めて検索、発見することが可能になる。 さらに、学名が確定しないような種を扱う場合においても、上位の分類群で紐付けを行う事が可能となり、より正確な情報を提供することにつながる。この結果、2 つのサンプリングにより、3 つの生物レコードが付属するデータが完成した。実際のデータは約 1,500 のサンプリングに約 1,600 の生物レコードが付属しており、これにメタデータを付与して Darwin Core Archive にすることで、データセットを完成させている。SB Data の特徴をまとめると、サンプリングを単位としたコアそれぞれに生物情報が付随し、生物情報には個体を単位とした在情報だけでなく、在/不在情報、さらには量的な情報を記述することができる形式といえる( )。

図 3. SB Data の構造を概念的に示したもの。コア・ファイルにはサンプリング情報を設定し、エクステンションに生物データを記述する。在/不在、カウントデータ、計量データ等、計測の単位を自身で設定できるため、柔軟にデータが記述できる。

具体例として紹介したツバメデータの中身は在データ、在/不在データおよび巣数データにあたるが、同様の形式を利用することで、様々な生態学データを Darwin Core に記述することが可能である。例えば植生調査を記述する場合には調査プロットを単位としたイベント・コアを設計し、種数等ではなく植被率を記述する場合にはエクステンションの organismQuantityType に植被率(percent of ground surface 等)を記述し、organismQuantity に比率を記入する等でデータを Darwin Core に対応させることができる。

Darwin Core Archive の作成

Darwin Core Archive の作成には、GBIF からオープンソースで公開されている専用ツール Integrated Publication Toolkit (IPT)2 を利用するのが最も容易である(Robertson et al. 2014)。エクセル等で項目を Darwin Core に揃えたデータを IPT2 にアップロードし、ツールの指示に従って必要事項を記述していくだけで、どのデータ型の Darwin Core Archive も作成することができる。IPT2 はインターネット上で GBIF データを共有するためのサーバツールとして開発されたもので、世界中の GBIF ノードにおいて稼動しているものだが、オープンソースであることから、個人が GBIF データを管理するために PC 等のローカル環境でも利用することができる。また、JBIF でも IPT2 を利用して GBIF ネットワークにデータを供給しているため、自身のデータを GBIF ネットワーク上に公開したいと考えた場合、自身で IPT2 を持っていれば JBIF の IPT2 へコピーすることは極めて容易であるため、公開に向けた手続きが簡便という利点もある(実際にデータを GBIF ネットワーク上に公開する手続き等については後述)。

図 4. IPT2 の初期画面。デフォルトでは英語になっているが、右上にある言語設定ボタンから日本語を選択し、日本語表示に変えることができる。

IPT2 は専用の Web ページから無償でダウンロードできるとともに( http://www.gbif.org/ipt 2017 年 4 月 1 日確認)、オープンリポジトリである github 上で開発が進められているため、過去バージョンや開発中バージョンも入手することができる( https://github.com/gbif/ipt 2017 年 4 月 1 日確認)。基本的な機能については日本語化されているので( )、日本人 も比較的利用しやすい。IPT2 の詳細な利用方法は本稿では説明しないが、GBIF からはユーザーマニュアルが( https://github.com/gbif/ipt/wiki 2017 年 4 月 1 日確認)、JBIF からは 2015 年時点の和訳版が公開されている( http://www.gbif.jp/v2/pdf/H27_108_IPT2ManualNotes_J.pdf 2017 年 4 月 1 日確認)。さらに JBIF では、IPT2 の導入から Darwin Core Archive を作成するまでの手順をまとめた簡易マニュアルを作成しているので( http://www.gbif.jp/v2/news/2017/06/ipt2.html 2017 年 6 月 27日確認)、興味を持った方はそれらを参照していただきたい。なお、上述した GBIF から配布されているエクセルテンプレートに必要情報を記入すれば、それをそのまま IPT2 にアップロードするだけで Darwin Core Archive に変換できるので、まずはテンプレートを利用することを薦める。

作成した Darwin Core Archive を GBIF ネットワークへ公開する

Darwin Core Archive で整備された生物多様性データは、GBIF ノードの確認、許可を受けた上で GBIF ネットワーク上から全世界に向けて公開することができる。日本では JBIF において承認を受けた上で、GBIF ネットワーク上へ公開することができる。ただし、2017 年時点では、標本を持たない観察データについては、労力等の面から全てのデータを確認することは困難であるため、データペーパーとして受理されたもの、研究プロジェクト等において調査方法、調査者が確実な状態で収集されたデータである等、一定の品質が確保されたデータについてのみ受け入れている。例えば最近では、森林総合研究所によって実施された二次林のモニタリングデータがデータペーパーとして公表され(Ito 2017)、JBIF から GBIF ネットワーク上へ公開された( http://www.gbif.org/dataset/d5d92045-cbd8-453a-9b4e-25a7b74c51c5 2017 年 4 月 1 日確認)。もし GBIF 上で公開したいデータをお持ちの方は、JBIF の Web サイト上( http://www.gbif.jp/v2/ 2017 年 4 月 1 日確認)から問い合わせていただければ幸いである。

おわりに

本稿は、生物多様性情報の国際標準である Darwin Core/Darwin Core Archive および、それを様々な生態学データに適合させる SB Data 形式について解説してきた。SB Data 自体はまだ課題も多く、例えばバイオロギングのような同一個体について継続的なデータが得られる場合には適用しにくい等、ありとあらゆる生態学データに対応できるわけではない。しかし、筆者らを含む GBIF 関係者では SNS( http://community.gbif.org/ 2017 年 4 月 1 日確認)等を通じて課題の共有や対応について議論を行っているし、BIS/TDWG によって SB Data の改良も行われている。その結果として、データペーパーやプロジェクト等において適用した事例も徐々に増えている(De Pooter et al. 2017; Lepoint et al. 2016)。GBIFweb サイトにおいて公開されているデータセットも 2017 年 6 月時点で 85 件と、順調に増加している( https://demo.gbif.org/dataset/search?type=SAMPLING_EVENT 2017 年 6 月 27 日確認)。日本では、生物多様性データの記述フォーマットとしての Darwin Core は受け入れられつつあるが、SB Data についてはほとんど知られておらず、筆者が知る限り、適用事例も筆者らの事例のみに留まっている。しかし、標準データフォーマットを適用することで、データの利用性は大きく向上するため、興味を持った方はぜひ手持ちのデータに適用することを検討していただきたい。そして、日本生態学会の英文誌である Ecological Research 誌ではデータペーパーを受け入れているので、Darwin Core を適用したデータをデータペーパーとして公表し、さらには GBIF ネットワーク上へ公開することも視野に入れていただきたい。データの利用性の高さはデータペーパーを公表する際の重要なアピールポイントにもなりうるだろう。本稿を参考に、Darwin Core ならびに SB Data を自身のデータに適用する方が増え、標準形式が国内に普及し、生物多様性データの共有化が進むことを期待する。

謝辞

本稿をまとめるにあたり、GBIF 本部、GBIF 日本ノード JBIF、GIF 台湾ノード TaiBIF の協力を得た。本稿の作成には、国立研究開発法人日本医療研究開発機構(AMED)によるナショナルバイオリソースプロジェクト、ならびに環境省による Biodiversity Information Fund for Asia(BIFA)の支援を受けた。本稿の内容はクリエイティブ・コモンズ・ライセンス 表示 - 継承 4.0 国際 (CC BY-SA 4.0) によってオープンデータとしてライセンスし、ライセンスに従う限り自由な利用を保証することを宣言する。

引用文献

  • Baker E, Simon R, Vincent S (2013) Linking multiple biodiversity informatics platforms with Darwin Core Archives. Biodiversity Data Journal, 2: e1039
  • Blankman D, McGann J (2003) Ecological Metadata Language: Practical Application for ScientistsEML. LTER Network Office, Albuquerque
  • De Pooter D, Appeltans W, Provoost P, Vandepitte L, Hernandez F (2017) Toward a new data standard for combined marine biological and environmental datasets-expanding OBIS beyond species occurrences. Biodiversity Data Journal, 5: e10989
  • Fegraus E, Andelman SJ, Jones MB, Schildhauer M(2005)Maximizing the value of ecological data with structured Metadata: An introduction to Ecological Metadata Language(EML)and principles for metadata creation. Bulletin of the Ecological Society of America, 86: 158-168
  • Fukasawa K, Mishima Y, Yoshioka A, Kumada N, Totsu K, Osawaw T (2016) Mammal assemblages recorded by camera traps inside and outside the evacuation zone of the Fukushima Daiichi Nuclear Power Plant accident. Ecological Research, 31: 493-493
  • GBIF (2010) Darwin Core Archives ? How-to Guide, version 1, Global Biodiversity Information Facility, Copenhagen
  • GBIF (2011) Darwin Core Archive Format, Reference Guide to the XML Descriptor File. Global Biodiversity Information Facility, Copenhagen
  • Ito H (2017) Time series data of a broadleaved secondary forest in Japan as affected by deer and mass mortality of oak trees. Biodiversity Data Journal, 5: e11732
  • Lepoint G, Heughebaert A, Michel LN (2016) Epiphytic bryozoans on Neptune grass-a sample-based data set. ZooKeys, 606: 1
  • 三橋 弘宗 (2010) 生物多様性情報の整備法. (鷲谷 いづみ・宮下 直・西廣 淳・角谷 拓 編) 保全生態学の技法, 103-128. 東京大学出版会, 東京
  • 小川 安紀子, 藤原 章雄 (2007) USLTER のエコロジカル・インフォマティクス技術の動向. 日本森林学会誌, 89: 360-364
  • Osawa T (2013) Monitoring records of plant species in the Hakone region of Fuji-Hakone-Izu National Park, Japan, 2001-2010. Ecological Research, 28: 541
  • Osawa T (2015) Importance of farmland in urbanized areas as a landscape component for barn swallows (Hirundo rustica) nesting on concrete buildings. Environmental Management, 55: 1160-1167
  • 大澤 剛士 (2017) 保全科学におけるデータギャップの現状と解消に向けた取り組み. 保全生態学研究, 22: 41-55
  • Osawa T, Baba YG, Suguro T, Naya N, Yamauichi T (2017) Specimen records of spiders (Arachnida: Araneae) by monthly census for 3 years in forest areas of Yakushima Island, Japan. Biodiversity Data Journal, 5: e14789
  • 大澤 剛士, 細矢 剛, 伊藤 元己, 神保 宇嗣, 山野 博哉 (2016) 日本における生物多様性情報概況―生物多様性情報概況 GBIO の和訳公開と国内動向―. 日本生態学会誌, 66: 215-220
  • 大澤 剛士, 神保 宇嗣 (2013) ビッグデータ時代の環境科学―生物多様性分野におけるデータベース統合、横断利用の現状と課題―. 統計数理, 61: 217-231
  • 大澤 剛士, 神保 宇嗣, 岩崎 亘典 (2014) 「オープンデータ」という考え方と、生物多様性分野への適用に向けた課題. 日本生態学会誌, 64: 153-162
  • 大澤 剛士, 栗原 隆, 中谷 至伸, 吉松 慎一 (2011) 生物多様性情報の整備と活用方法―Web 技術を用いた昆虫標本情報閲覧システムの開発を例に―. 保全生態学研究, 16: 231-241
  • 大澤 剛士, 和田 岳 (2016) 市民参加による広域を対象とした生物調査の可能性―近畿 2 府 4 県における駅のツバメ営巣調査結果およびデータ公開―. Bird Research, 30: R1-R8
  • Robertson T, Doring M, Guralnick R, Bloom D, Wieczorek J, Braak K, Desmet P (2014) The GBIF integrated publishing toolkit: Facilitating the efficient publishing of biodiversity data on the internet. PLoS One, 9: e102623
  • Secretariat of the Convention on Biological Diversity (2014) Global Biodiversity Outlook 4. Convention on Biological Diversity, Montreal
  • Vanderbilt K, Porter JH, Lu SS, Bertrand N, Blankman D, Guo X, He H, Henshawg D, Jeong K, Kim E, Lin CC, O'Brienj M, Osawa T, Tuama E, Su W, Yang H (in press) A prototype system for multilingual data discovery of International Long-Term Ecological Research (ILTER) Network data. Ecological Informatics, 40: 93-101
  • Voraphab I, Hanboonsong Y, Kobori Y, Ikeda H, Osawa T (2015) Insect species recorded in sugarcane fields of Khon Kaen Province, Thailand, over three seasons in 2012. Ecological Research, 30: 415-415
  • Wieczorek J, Bloom D, Guralnick R, Blum S, Doring M (2012) Darwin Core: An evolving community-developed biodiversity data standard. PLoS One, 7: e29715