なぜ私たちのデータを信頼できるのか:46,000件の収集と検証の裏側
2026-03-16
なぜ私たちのデータを信頼できるのか——2006年の118件から始まり、18年間で46,000件以上に成長したダイビング透明度データベース。その収集と検証の裏側をお伝えします。
46,483
総観測数
42
サイト数
20年
データ期間
8+
データソース種類
データ蓄積の歴史
累積観測数の推移。2026年に全サイト統合で急増。
データソースの多様性
日本のダイビングショップは、それぞれ異なるブログプラットフォームで日々のダイビングログを公開しています。一つのAPIで全てを取得することはできず、各プラットフォームに合わせた専用スクレイパーを開発する必要がありました。
| データソース | 観測数 | 主なサイト |
|---|---|---|
| ExBlog | 7,800 | 与那国、大瀬崎 |
| WordPress REST API | 5,200 | 伊戸、他 |
| CSV(手動収集) | 4,460 | 伊豆海洋公園、秋の浜 |
| 専用サイトスクレイプ | 12,000 | 富戸、串本、雲見、越前 |
| Hatena Blog | 2,095 | 青海島 |
| FC2 Blog | 1,533 | 慶良間 |
| Blogspot | 1,392 | 田後 |
| Wix Blog | 2,696 | 平沢 |
| その他 | 9,307 | 石垣島、慶良間、他 |
観測数トップ10サイト
| # | サイト | 観測数 | 開始年 |
|---|---|---|---|
| 1 | 与那国 | 4,826 | 2010 |
| 2 | 富戸 | 3,493 | 2013 |
| 3 | 串本 | 3,168 | 2015 |
| 4 | 伊豆海洋公園 | 3,151 | 2006 |
| 5 | 平沢 | 2,696 | 2015 |
| 6 | 越前 | 2,652 | 2012 |
| 7 | 神子元 | 2,263 | 2011 |
| 8 | 青海島 | 2,095 | 2016 |
| 9 | 雲見 | 1,980 | 2018 |
| 10 | 伊戸 | 1,980 | 2016 |
与那国が圧倒的1位
与那国ダイビングサービス(YDS)が2010年からほぼ毎日ExBlogに記録を残しており、4,826件という圧倒的なデータ量。この継続的な記録文化が、データベースの価値を支えています。
データ構築の課題
課題1:記載方法のバラつき
「透明度15m」「vis 15」「15〜20m」「透視度10m↑」など、ショップによって記載方法が異なります。最小値・最大値の抽出には各サイト専用の正規表現パターンが必要でした。
課題2:外れ値と誤データ
三宅島215mの誤記、富戸のサイパン旅行ログの混入、奄美100mの物理的不可能な値など、11件の外れ値を手動で特定・除去しました。データ品質管理は継続的な課題です。
課題3:ブログ閉鎖・移転
ダイビングショップのブログは突然閉鎖されたり、別のプラットフォームに移転することがあります。平沢はLivedoorからWixに移行し、新しいスクレイパーの開発が必要でした。
このデータベースの価値
AI予測の基盤
46,000件のデータがLightGBMモデルの学習データとなり、透明度・水温のAI予測を可能にしています。データが多いサイトほど予測精度が高い傾向があります。
季節・長期傾向の分析
20年分のデータにより、各サイトの季節変動パターンや、気候変動・黒潮蛇行の影響を分析できます。短期のデータでは見えないトレンドが浮かび上がります。
ダイバーへの実用情報
「いつ、どこに潜れば透明度が高いか」をデータで回答。経験則ではなく、数千件の実測値に基づく信頼性の高い情報を提供します。
データについて
全国42サイトのダイビングショップ日報から46,483件を収集(2006年〜2026年3月)。外れ値11件を除去済み。各ソースのスクレイパーはGitHub Actionsで1日3回自動実行し、データベースを継続的に更新しています。