「AIが学習する」の裏側——空中写真・地番図・地目データで教師データを作る

空中写真と地番図を重ね合わせ、地目ラベルを付与してパッチ画像を生成する教師データ作成フローの図解 AIの応用
空中写真・地番図・地目データの3つを組み合わせ、CNNの学習用パッチ画像を生成する流れ

「AIに地目を叩き込む」という言葉をよく聞く。しかし「叩き込む」の中身が語られることはほとんどない。CNNが画像を学習する仕組みは知られてきた。だが「誰が、何を、どうやって用意するのか」という教師データ作りの実態は、まだ十分に共有されていない。

結論から言う。教師データ作りの本質は、空中写真・地番図・地目データの3つを突き合わせ、現況の不一致を人間の目で取り除く作業だ。AIが賢く動く裏側に、地味で地道なアナログ作業がある。本稿ではその実態を具体的に解説する。


1. そもそも「教師データ」とは何か——CNNは正解を自分で判断できない

CNN(畳み込みニューラルネットワーク)は、大量の画像からパターンを自力で抽出する仕組みだ。しかし「何が正解か」は自分では判断できない。人間が「これは田」「これは山林」「これは宅地」と正解を与えた画像セット——これが教師データだ。

教師データの質が低ければ、どれほど優れたモデル構造を使っても精度は出ない。逆に言えば、精度の高いAIの裏には必ず精度の高い教師データがある。「AIに叩き込む」という表現でイメージされがちな「コンピュータが勝手に学習する」というイメージは、ここで一度崩しておく必要がある。


2. 材料は3つ——空中写真・地番図・地目データ

地目分類の教師データを作るために必要な素材は、基本的に3つだ。

① 空中写真(オルソ画像)

航空機やドローンで撮影した、真上から見た地表画像。田んぼなのか、屋根なのか、木々なのか——視覚的に土地の現況がわかる。GeoTIFF形式で提供されることが多い。

② 地番図(地籍図)

土地一筆ごとの境界線と地番が記録されたデータ。GIS上ではポリゴン(面データ)として扱われ、「どこからどこまでが一つの土地か」を定義する。GPKG形式やShapefile形式が一般的だ。

③ 地目データ(属性情報)

各ポリゴンに付与された「田」「畑」「宅地」「山林」「雑種地」などの地目情報。固定資産税台帳ベースで自治体が管理している。これが教師データの「正解ラベル」そのものになる。

この3つをGIS上で結びつけることで、「このポリゴンは空中写真でこう見えていて、地目はこれ」という1件の教師データが完成する。今回は奈良市が公開しているオープンデータ(GeoTIFF・GPKG形式)を活用した。


3. 実際の作業——地目データがある、それが出発点

重要な前提がある。たいていの場合、地目情報はすでに存在している。

自治体が管理する地番図には、多くの場合「地目」の属性がすでに付いている。つまり「一筆ずつ目視で地目を判定してゼロからラベルを付ける」という作業は必要ない。既存の地目データをそのまま正解ラベルとして使えばいい——というのが出発点だ。

ただし、そのまま使えるかどうかは別の話だ。

QGISに空中写真と地番図を読み込み、まず位置合わせ(ジオリファレンス)を確認する。座標がわずかにずれているだけで、後の学習精度に直結する。次に、既存の地目属性と空中写真の現況が一致しているかどうかを照合する。

  • 地目が「田」なのに、写真では舗装された駐車場になっている
  • 「雑種地」だが、実際には建物が建っている
  • 地目変更の届出が未提出で、帳簿と現況がずれている

こうした「現況不一致」は珍しくない。更新が追いついていないケース、未申告のまま放置されているケースが現場には多く存在する。地目データをそのまま信用するのではなく、空中写真と照合して不一致を取り除く確認作業——これが実際の手間の正体だ。


4. ポリゴンから画像へ——パッチの切り出し

ラベルの整備が終わったら、CNNが処理できる形式に変換する。CNNが学習するのは「画像」だ。ポリゴンのベクターデータのままでは食べられない。

各ポリゴンの空間範囲をもとに、空中写真から一定サイズの切り出し画像(パッチ)を生成する。例えば100m四方のパッチを切り出し、「田」「畑」「宅地」「山林」「雑種地」のラベルを紐付ける。これを学習用と検証用に分割してモデルに渡す。

この工程はcreate_patches_count_fixed_CSV_ONLY.pyのようなスクリプトで自動処理できる。大量のポリゴンからパッチを一括生成できるのが強みだ。


5. モデルの学習——ここからがCNNの仕事

教師データが揃ってようやくCNNの出番になる。PyTorchを使ってモデルを構築し、パッチ画像とラベルのペアを大量に読み込ませて学習を回す。CNNは画像内のピクセルの配置や色調の組み合わせから、各地目に固有のパターンを自力で抽出していく。

学習が終わるとモデルファイル(.pth)が生成される。このモデルに新しい空中写真を入力すれば、「ここは宅地、ここは田、ここは山林」と自動判定を返せるようになる。出力をGeoJSON形式にすることで、他のGISシステムとの連携も可能だ。

活用先内容
固定資産税業務現況地目の自動スクリーニング
農地管理転用・未申告の検出支援
都市計画土地利用現況の広域把握

まとめ:「AIに叩き込む」の正体

今回の作業全体を振り返ると、時間の大半を占めるのはモデルの学習ではなく、教師データの準備だ。位置合わせ、現況確認、不一致の除去——これが「叩き込む」という言葉の実態だ。

工程作業内容担い手
データ収集空中写真・地番図・地目データの準備人間
位置合わせ座標系の統一・ジオリファレンス確認人間+GIS
現況照合地目属性と空中写真の不一致チェック人間の目
パッチ生成ポリゴンから学習用画像を切り出しスクリプト
モデル学習CNNによるパターン抽出・重みの最適化コンピュータ
推定・出力新規空中写真への地目自動判定・GeoJSON出力モデル

AIが高精度に動くとき、その裏側では地図と向き合った人間の判断が積み重なっている。教師データの質がモデルの精度をほぼ決める——この事実を知ることが、AIを正しく使いこなす第一歩だ。

地目分類AI #教師データ #CNN #GIS #QGIS #空中写真 #地番図 #固定資産 #PyTorch #オープンデータ #地理空間情報 #奈良市

コメント

タイトルとURLをコピーしました