# Video Platform Structure Notes

作成日: 2026-06-17

対象: 9:16ショート動画レビューの分析設計

## 1. 公式仕様から見える共通構造

TikTok、YouTube Shorts、Instagram Reelsはいずれもスマートフォン視聴を前提にした縦型動画体験である。広告・投稿仕様としては、9:16、MP4/MOV、一定以上の解像度・FPSが実務上の基準になる。

- TikTok In-Feed Ads: 縦型は9:16推奨、540x960以上、動画は最大10分まで対応
- YouTube Shorts: Shorts作成はスマートフォン/Shortsカメラ中心で、最大3分の短尺フォーマット
- Instagram Reels: 1.91:1から9:16まで投稿可能、30FPS以上が要件

参照:

- TikTok Ads Manager: https://ads.tiktok.com/help/article/tiktok-auction-in-feed-ads
- YouTube Help: https://support.google.com/youtube/answer/10059070?hl=en
- Instagram Help Center: https://www.facebook.com/help/1038071743007909
- Meta Business Help safe zones: https://www.facebook.com/business/help/980593475366490

## 2. 9:16動画分析で重要な前提

9:16の動画ファイルが正しく作られていても、プラットフォーム上では画面全体が完全に自由領域ではない。下部には説明文、アカウント情報、音源、CTA、商品導線、進行バーが重なりやすく、右側にはいいね、コメント、シェア、保存などの操作UIが配置されることが多い。

そのため、動画分析では「映像そのものの良し悪し」と「プラットフォームUIに載った時の見え方」を分けて見る必要がある。

## 3. ダッシュボードに追加すべき定量項目

優先度高:

- 初期サムネイル認識性: 1枚目で商品カテゴリ、悩み、ベネフィットが伝わるか
- 0-3秒商品可視率: 冒頭3秒以内に商品または使用シーンが見える秒数
- フック可読性: 冒頭テキストが中央/上中段にあり、UIに隠れにくいか
- 下部UI干渉リスク: 字幕、価格、CTA、商品名が下25%に寄りすぎていないか
- 右側UI干渉リスク: 重要な商品、顔、字幕が右15%に寄りすぎていないか
- 中央主体占有率: 顔、手元、商品が中央安全領域に収まっている割合

優先度中:

- CTA出現秒: 購入/セール/限定/詳細などの訴求が何秒で出るか
- ベネフィット初出秒: 効果、悩み解消、比較優位が何秒で出るか
- 字幕密度: 字幕が高すぎて商品理解を阻害していないか
- 音声依存度: 無音視聴でも理解できるか
- 停止フレーム検証性: 一時停止したフレームで商品/効果/工程を確認できるか

## 4. 今回のダッシュボード仕様への反映

- 初期表示はサムネイルで、動画の一覧レビュー開始時に内容を把握しやすくする
- 再生後に一時停止した場合は停止位置のフレームを維持し、レビュー担当者が画面内要素を確認できるようにする
- 1動画1スクロールで、左に9:16動画、右に分析詳細を置く
- 性別分類や商品名確定など、誤判定コストが高い項目は人間レビュー欄に残す
- Platform Fit、Hook、Safe-zone proxy、Review Priorityを追加し、レビュー優先順位を先に判断できるようにする

## 5. v2暫定スコアの扱い

現ダッシュボードのPlatform Fit系スコアは、既存の動画メトリクスから作った暫定proxyである。

- Platform Fit: 9:16適合、尺、冒頭フック、理解しやすさ、安全領域proxyを合成
- Hook: 初回カット秒、カット頻度、商品/字幕の冒頭理解しやすさを合成
- Safe-zone proxy: 字幕率と中心ディテールから、UI干渉の可能性を暫定評価
- Review Priority: Safe-zone proxy、尺、商品実証、Hook不足を合成

注意:

- Safe-zone proxyは厳密な座標判定ではない
- 下部UI、右側UI、顔/商品/字幕の重なりは、次工程でOCR/物体/顔の座標を取って精密化する
- 現段階では「どの動画から人間が見るべきか」を決める優先順位付けに使う

## 6. 今後のアルゴリズム設計

大量動画を分析する場合、次の処理を追加すると実務利用しやすい。

1. フレームを上下左右の領域に分け、OCRと物体/顔/手元の出現座標を記録する
2. 下25%、右15%、上10%をUI干渉候補領域としてスコア化する
3. 冒頭3秒、5秒、10秒の重要要素出現率を別集計する
4. ASRで話速、話者数、ナレーション有無、CTA発話秒を取る
5. 商品マスターとOCR/ASR候補を照合し、商品名を候補から確定値に近づける
