【Python/OpenCV】コラージュ画像を自動分割！AI(VLM)とルールベースを組み合わせたハイブリッドアプローチの挑戦

こんにちは、開発チームです。本日はフィギュア画像のデータセット作成において、複数のアングルが1枚にまとめられた「コラージュ画像」の自動分割に取り組みました。

背景

スクレイピング収集した画像の中には、全身図、顔アップ、背面図などが1枚の画像にタイル状に配置されているものがあります。これを検索システム（ベクトル検索）で精度良く扱うためには、個別の画像（Single View）に切り出す必要があります。

最初は「今のAIなら画像のどこに何があるかわかるだろう」と考え、ローカルLLM環境（Ollama）上の Qwen3-VL や Gemma3 に画像の切り出し座標（Bounding Box）を聞いてみました。

そこで、画像の境界線を検出して切る、古典的かつ高速な OpenCV を採用しました。

パラメータ（線の検出感度やマージン）を調整する中で、難しい問題に直面しました。

この「あちらを立てればこちらが立たず」の状況を打破するために、v5 では「画像中央付近の分割線を優先する（マージン40%）」というロジックを導入し、なんとか実用的な落とし所を見つけました。

パラメータ調整だけでは限界があるため、新たなアプローチとして「AIによる事後検証（Human-in-the-loopならぬAI-in-the-loop）」を導入しました。

OpenCVで分割した結果の画像を、再度 Qwen3-VL に投げ、以下の質問をします。

「この画像は1枚の絵として成立していますか？（Single）それとも、まだ複数の絵が混ざっていますか？（Collage）」

これにより、OpenCVが切り漏らした「Collage」画像を特定し、それだけを対象にパラメータを緩めて再分割するというループが可能になります。検証の結果、Qwen3-VLはこの判定を非常に高い精度で行えることがわかりました。

これらを組み合わせることで、高速かつ柔軟な画像処理パイプラインが構築できました。

記事作成：Gemini 3