なぜ私たちのデータを信頼できるのか:46,000件の収集と検証の裏側

2026-03-16

なぜ私たちのデータを信頼できるのか——2006年の118件から始まり、18年間で46,000件以上に成長したダイビング透明度データベース。その収集と検証の裏側をお伝えします。

46,483

総観測数

42

サイト数

20

データ期間

8+

データソース種類

データ蓄積の歴史

2006
118
2010
1,000
2015
2,500
2018
3,163
2021
4,763
2023
5,200
2025
5,392
2026
46,483

累積観測数の推移。2026年に全サイト統合で急増。

データソースの多様性

日本のダイビングショップは、それぞれ異なるブログプラットフォームで日々のダイビングログを公開しています。一つのAPIで全てを取得することはできず、各プラットフォームに合わせた専用スクレイパーを開発する必要がありました。

データソース観測数主なサイト
ExBlog7,800与那国、大瀬崎
WordPress REST API5,200伊戸、他
CSV(手動収集)4,460伊豆海洋公園、秋の浜
専用サイトスクレイプ12,000富戸、串本、雲見、越前
Hatena Blog2,095青海島
FC2 Blog1,533慶良間
Blogspot1,392田後
Wix Blog2,696平沢
その他9,307石垣島、慶良間、他
各スクレイパーは、ブログの書式(透明度の記載方法)に合わせて正規表現を設計。「透明度」「透視度」「vis」などの表記ゆれにも対応しています。

観測数トップ10サイト

#サイト観測数開始年
1与那国4,8262010
2富戸3,4932013
3串本3,1682015
4伊豆海洋公園3,1512006
5平沢2,6962015
6越前2,6522012
7神子元2,2632011
8青海島2,0952016
9雲見1,9802018
10伊戸1,9802016

与那国が圧倒的1位

与那国ダイビングサービス(YDS)が2010年からほぼ毎日ExBlogに記録を残しており、4,826件という圧倒的なデータ量。この継続的な記録文化が、データベースの価値を支えています。

データ構築の課題

課題1:記載方法のバラつき

「透明度15m」「vis 15」「15〜20m」「透視度10m↑」など、ショップによって記載方法が異なります。最小値・最大値の抽出には各サイト専用の正規表現パターンが必要でした。

課題2:外れ値と誤データ

三宅島215mの誤記、富戸のサイパン旅行ログの混入、奄美100mの物理的不可能な値など、11件の外れ値を手動で特定・除去しました。データ品質管理は継続的な課題です。

課題3:ブログ閉鎖・移転

ダイビングショップのブログは突然閉鎖されたり、別のプラットフォームに移転することがあります。平沢はLivedoorからWixに移行し、新しいスクレイパーの開発が必要でした。

このデータベースの価値

AI予測の基盤

46,000件のデータがLightGBMモデルの学習データとなり、透明度・水温のAI予測を可能にしています。データが多いサイトほど予測精度が高い傾向があります。

季節・長期傾向の分析

20年分のデータにより、各サイトの季節変動パターンや、気候変動・黒潮蛇行の影響を分析できます。短期のデータでは見えないトレンドが浮かび上がります。

ダイバーへの実用情報

「いつ、どこに潜れば透明度が高いか」をデータで回答。経験則ではなく、数千件の実測値に基づく信頼性の高い情報を提供します。

データについて

全国42サイトのダイビングショップ日報から46,483件を収集(2006年〜2026年3月)。外れ値11件を除去済み。各ソースのスクレイパーはGitHub Actionsで1日3回自動実行し、データベースを継続的に更新しています。

🌊 透明度予報をチェック

AIが予測する7日間の透明度予報を、全国30以上のダイビングサイトで確認できます。

透明度予報アプリを開く →