AIは東京湾の透明度を予測できるか?機械学習の外挿問題を実データで検証
2026-03-10
東京湾の実測透明度は夏2m・冬6m。AIの予測は? 10m。大外れです。なぜAIはデータにない場所で失敗するのか——機械学習の「外挿問題」を実データで検証しました。
発端:ヒートマップが東京湾を「透明度10m」と表示した
東京湾の透明度:実測データが語る現実
2023年にPeerJ誌に掲載された赤田ら(Akada et al., 2023)の研究1は、 神奈川県の35観測点で1963〜2018年にわたり透明度(セッキー深度)を測定した大規模な研究です。 東京湾に関するデータは以下のとおりです。
| 季節 | 透明度(中央値) | 特記事項 |
|---|---|---|
| 夏(6〜9月) | 約2m | 植物プランクトンブルームが最大 |
| 冬(1月) | 約6m | 冬季風による鉛直混合 |
| 年間範囲 | 2〜6m | 1993年以前はさらに低値も |
東京都の島嶼農林水産総合センターが2024年12月にお台場(St.5)で実施した調査2では、 「透明度板が水深約4mで海底に達した」と記録されています。 これは冬季としては例外的に透明なケースで、 通常の春〜秋は「2m程度で良好」と説明されているほどです。 つまり東京湾内部の透明度は、最大でも2〜6mというのが実態です。
ところが私たちのAIモデルは、東京湾内部を約10mと予測していました。 実測の最大値(冬季6m)と比べても4m以上の過大評価。 なぜこのようなことが起きるのでしょうか?
機械学習の「外挿問題」とは何か
機械学習モデルは、学習データが存在する範囲(内挿)では高い精度を発揮しますが、 学習データのない範囲(外挿)では信頼性が大きく低下します。 これは機械学習に限らず、あらゆる統計モデルに共通する本質的な限界です。
本サイトのAIモデルの学習データ
- • 学習データ:44ダイビングサイト(計44,440件の実測観測値)
- • 全て透明度が定期的に記録されるダイビングショップのブログから収集
- • 東京湾内部のダイビングサイト:0件
ダイビングショップは当然ながら「潜れる海」の近くに立地します。 東京湾内部は水質的に見学用の潜水が行われる程度で、 レジャーダイビング目的のショップはほぼ存在しません。 その結果、モデルが東京湾の透明度パターンを学習する機会はゼロでした。
AIは何を根拠に「10m」と予測したのか
本サイトのAIモデルは、透明度を予測する際に気象・海洋・衛星データを特徴量として使用します。 東京湾に最も近い学習済みポイントは伊戸(千葉県館山市)です。 伊戸の平均透明度は約14mあり、東京湾岸という地理的「近さ」から、 モデルはその予測値を東京湾内部にも外挿してしまいます。
さらに、衛星クロロフィルa(kd490)データは光学的特性を反映しますが、 富栄養化した閉鎖性海域では陸域からの有機物由来の濁りが多く、 衛星から見た光学的特性と実際の潜水透明度がずれやすいという問題もあります。
「外挿エラー」はどれほど深刻か?
| 地点 | AI予測値 | 実測値(参考) | 誤差 |
|---|---|---|---|
| 東京湾内部(通年) | 約10m | 2〜6m | +4〜+8m(2〜5倍) |
| 東京湾(夏季) | 約10m | 約2m | +8m(5倍の過大評価) |
| 伊豆海洋公園(学習済み) | 実績R²=0.82 | 実測と高い一致 | 小(正常) |
東京湾の夏季においては、AIが実測の5倍の透明度を予測するという 致命的な外挿エラーが生じていることがわかります。
なぜ閉鎖性海域は特に難しいのか
東京湾のような閉鎖性海域は、外洋とは全く異なるメカニズムで透明度が決まります。
- 富栄養化:河川から大量の窒素・リンが流入し植物プランクトンが大発生する
- 底泥の巻き上げ:水深が浅いため風・波で底泥が舞い上がりやすい
- 貧酸素水塊:夏季に底層が無酸素状態になり水質が極端に悪化する
- 船舶交通:港湾の ship wake が底泥を撹拌する
これらの要因はいずれもモデルの特徴量に含まれておらず、 外洋ダイビングサイトから外挿したところで正しい予測はできません。
解決策:データがあれば外挿は内挿になる
逆説的ですが、この問題の解決策は単純です。東京湾内部のダイビングサイトのデータがあれば良いのです。
東京湾でも、水中調査や環境モニタリングのために定期的に潜水が行われています。 もしそれらのデータを学習させることができれば、モデルは東京湾固有の 「富栄養化→植物プランクトン増加→透明度低下」という関係性を学習し、 適切な予測ができるようになります。
実際、本サイトのモデルは与那国島(日本最西端)や佐渡島(日本海)など、 地理的・海洋学的に独自の環境にある地点でも、学習データさえあれば高い精度(R²=0.7〜0.8)を発揮しています。 データが存在する場所では、AIは十分に機能するのです。
まとめ:AIは「知っている海」しか予測できない
今回の検証で明らかになったことをまとめます。
- 東京湾の実際の透明度は夏2m・冬6m(Akada et al., 2023)
- AIモデルは東京湾内部を約10mと過大予測(最大5倍の誤差)
- 原因は学習データが存在しない「外挿」による必然的な失敗
- 解決策は東京湾内部の観測データを学習させること
本サイトでは現在、学習データが存在する44ダイビングサイトについて透明度予報を提供しています。 これらのサイトでは実績R²最大0.82の精度を達成しています。 学習データのないエリアへの外挿は行わず、 信頼性の高い予測のみをユーザーに提供することが私たちの方針です。
参考文献
- 1 Akada M, Kodama M, Yamaguchi H. (2023). "Eutrophication trends in the coastal region of the Great Tokyo area based on long-term trends of Secchi depth."PeerJ 11:e15764. https://peerj.com/articles/15764/
- 2 東京都島嶼農林水産総合センター (2024年12月). 東京湾内湾調査速報. 東京都公式サイト
- 3 Nishijima W et al. (2019). "Distribution of region-specific background Secchi depth in Tokyo Bay and Ise Bay, Japan."Ecological Indicators 98, 133-141.