特集

2020年10月14日

高精細動画を半分の帯域で配信できる最新規格「H.266/VVC」とは？

4K／8K、VR／AR、360度映像と映像データ量の増加傾向は今後ますます増加し、臨場感ある映像用途が増えてくることになる。しかし、限りあるネットワーク帯域での配信は難しくなるケースも。そんな課題解消を担う新コーデック「H.266/VVC」とは。

[土肥正弘，ドキュメント工房] PC用表示関連情報

LINE

Hatena

「H.266／VVC」とは？

　「H.266／VVC」とは、2020年7月に動画符号化方式の国際標準として発表された最新規格だ。現在4K放送やネットでの映像配信に活用されている「H.265／HEVC」の後継となる規格で、H.265／HEVCと同等の品質の動画を約半分のデータ量で実現する次世代符号化方式として注目される。

「H.266」と「VVC」はどういう意味？

　規格名称の「H.266」は、前身であるH.264やH.265と同様にITU-T（国際電気通信連合電気通信標準化部門）のVCEG（Video Coding Experts Group）による呼び方で、「VVC」（Versatile Video Coding）は、もう一つの動画符号化方式標準化団体であるISO／IEC JTC 1のMPEGワーキンググループによる呼び方だ。こちらは正式規格名でなく、いわば通称である（MPEGワーキンググループではMPEG-I Part3 VVCが正式名称）。

　同じ規格に対する2つの標準化団体の呼び方を併記するのが慣例になっており、これまでの規格も「H.264／AVC」「H.265／HEVC」のように表記されてきた。

　「多様な」を意味するVersatileが含まれた「VVC」は、その名の通り、広い色域・高い輝度のダイナミックレンジ（HDR）を持ちながら、4K／8K（16K動画は8K動画×4に分割した後に符号化可能）、立体動画、マルチビュー動画、パノラマ動画といった用途に用いられることとなる。現在人気の360度動画やVR／ARコンテンツに対しても豊かな臨場感を与えることが期待でき、高精細映像によるこれまでにない“超高臨場感"映像サービス登場の契機ともなりそうだ。

動画の標準規格は今どうなっているの？

　動画データの配信に重要なのが「コーデック」とも呼ばれる符号化方式で、Webで多用されている「H.264／AVC」（MPEG-4 AVCとも呼ばれる）と、4K動画配信・放送に利用され、8K動画にも対応する「H.265／HEVC」が広く普及している。これらに加え、Googleが開発した符号化方式「VP9」を基礎とした動画符号化方式「AV1（AOMedia Video 1）」（NPO団体のAlliance for Open Media〈以下、AOM〉が開発元）も主要なブラウザやビデオプレーヤーが対応し、動画ストリーミングサービス用として利用が拡大しているところだ。

　AV1はH.265／HEVCを上回る高い圧縮率をもつ符号化方式で、H.265／HEVCの特許権者が多数にのぼりライセンスが複雑（複数のパテントプールがあり、ライセンス条件を提示していない特許権者もある）かつ高額になることもあって、GAFAをはじめとした世界の有力ネット企業が参加するAOMが、ロイヤリティーフリーを目標としながら提供しているものだ。

　今回のH.266／VVCは、H.265／HEVCはもとよりAV1をしのぐ高圧縮率を実現しており、「イマーシブ（臨場感）メディア用」符号化方式と呼ばれることがある。2つの国際標準化機関、100社超の企業が参画しているため、今後の普及への期待感は大きい。

新規格「H.266／VVC」、結局技術的には何が変わったのか？

　H.266／VVCは、H.265／HEVCに盛り込まれた技術をさらに発展させたもので、基本的には従来の規格の技術を引き継ぎながら、より高度で複雑な方法で動画データを圧縮する。表1に、H.264／AVC、H.265／HEVC、H.266／VVCの仕様の一部の比較表を示す。

表1　既存規格とH.266／VVCの比較表（資料提供　KDDI総合研究所）

　圧縮率を高めるのに特に重要なのが、動画中の画像から符号化対象とするブロックを切り出す方法と、変化する画像の画素移動を予測する技術（上表の画面内予測と画面間予測）だ。これについて以降で解説したい。

符号化対象ブロックの形状とサイズが多様化

　画像の圧縮法としてよく使われている手法を簡単に言えば、画像中の同じように見える部分（例えば風景映像の中の雲のない青空、真っ黒な影などの範囲）はひとくくりで符号にし、複雑に見える部分（例えばたくさんの人物がいるスタジアム客席など）は細かい単位で符号にするというやり方だ。

　つまり、高精細な画像は細かい部分まで再現できなければならないが、画像全域を細かい単位で符号化するとサイズが膨大になる。そこで画像を「単純なところ」と「複雑なところ」に切り分けて、単純なところは大きなブロックで分割して符号化し、複雑なところは細かいたくさんのブロックに分割してそれぞれ符号化する。全体として、全て細かいブロックで符号化するよりデータ量は少なくなる。

　H.266／VVCでは、このブロック（符号化処理単位＝符号化ツリーブロック／CTB：Coding Tree Block）の大きさがH.265／HEVCの最大64×64画素から128×128画素（4倍）までに拡大されたことから、より多様なサイズで画像を分割できるようになった。つまり複雑なところは従来通り細かくブロック分けし、のっぺりした単純なところはより大きなブロックで符号化対象にすることができるようになったわけだ。

　しかもH.266／VVCではブロック形状は必ず正方形というわけでなく、上記のブロックサイズをベースにしながら分割形状を長方形や三角形に近い形状にすることも可能にした。画像に合わせてより柔軟にブロック分割できることになり、H.265／HEVCよりも圧倒的に多様なブロック分割が可能になっている。

　このように分割サイズと形状が適切に使い分けられるため、今までよりもはるかに圧縮性能が高まることになる（図1）。

図1　画像のブロック分割を最適に行えるサイズとブロック形状の多様性（資料提供:KDDI総合研究所）

　圧縮性能には映像の画素の変化を予測する技術が大きく寄与するが、こちらも表1に見るように、画像内予測と画面間予測（現在フレームと次のフレームとの間での画素の移動の予測）の対象ブロックサイズが4倍に拡張されており、また画面間予測では1/16画素までの細かさを含めて精度高く予測できるようになったため、よりきめ細かい最適化が実現できるようになった。

10倍に増加したエンコード処理負荷と、それを軽減する技術

　このようにきめ細かい、それゆえ複雑になるブロックを映像に沿って最適化して符号化するために、H.265／HEVCやH.266／VVCの参照ソフトウェアではいったん全てのブロック分割パターンで予測・変換、符号化を行ったあと、最も効率がよい分割サイズを選択する方法だった。この方式をH.266／VVCの多様なブロックサイズや形状に適用すると、最終的に符号化映像とするまでの処理負荷がH.265／HEVCに対して同様の方法を適用した場合と比較して10倍に増大してしまう。デコード速度と同じ速さでエンコードできるリアルタイムエンコードを想定すると、この処理負荷の増大を低減する技術的工夫が必要になる。

エンコード処理負荷を軽減したリアルタイムエンコーダー開発

　そのリアルタイムエンコード技術を世界に先駆けて開発したのがKDDI総合研究所だ。同研究所は、2020年9月に4K映像を対象にしたH.266／VVC対応リアルタイムエンコーダーの開発を発表した。このエンコーダーでは、主に2つの技術を使ってエンコードの高速化を図っている。

（1）映像の事前解析によるブロックサイズ・形状の決定

　1つはH.265／HEVCやH.266／VVCの参照ソフトウェア（図3の〈従来方式〉）で行われていた予測・変換-符号化の繰り返し処理を不要にする独自の映像解析技術だ。KDDI総合研究所によれば、この技術を利用して最初にブロック分割サイズ・形状を決定し、それを予測・変換-符号化することができるため、従来の30倍のエンコード高速化が可能だという。

　図2にこの技術のイメージを示す。従来方式では上述のように符号化処理結果を前段の処理に戻す繰り返しループ処理を行って最適な分割サイズ・形状を決定していたが、新開発の技術を適用すると、エンコード処理は図3の〈提案方式〉のように一直線の処理になり、予測変換-符号化処理は各ブロックに対して一度だけで済む。映像の事前解析のプロセスは増えるものの、その負荷は符号化処理に比べてごく小さい。

図2　映像の符号化プロセスの従来方式と新開発方式（資料:KDDI総合研究所）

CPU負荷を平準化する並列処理技術

　もう1つの新開発技術は並列化したCPU（コア）の負荷を全体として低減できる並列化処理技術だ。

　これまでのエンコーダーでは一般的に1つのフレームの中の画像ブロックごとの符号化処理を1つのCPUが担当する前提で複数のCPUを並列化して全体性能を上げるようにしていた。H.265／HEVCの場合は全体の負荷のばらつきが小さいのでそれでもよかったが、H.266／VVCでは多様なサイズ・形状のブロックを処理するため、同じ方法で処理するとCPU負荷が大きくばらつき、並列化したCPU総体の最大性能をなかなか引き出せないのが課題になる。

　そこで今回の技術では複数のフレームにまたがった画像ブロックの符号化処理を適切にスケジューリングして複数のCPUに割り振るようにした。あるフレームでブロックの処理負荷が高いCPUには別のフレームの処理負荷が低いブロックの処理をあてがうようにする仕組みを開発し、全体のCPUの負荷が平準化するようにしたのである。この結果、CPUの稼働状況が全体として上がり、エンコード速度が向上する（図3）。

図3　エンコードの並列化処理技術のイメージ（資料提供:KDDI総合研究所）

H.266／VVCの今後の展開

　H.266／VVCは2017年に標準化が開始されたが、技術上の最終仕様が2020年7月に発表されたばかりで、現在は映像システム関連企業が対応製品開発を急いでいる状況だ（KDDI総合研究所の発表も商品発表ではない）。エンコーダー開発もさることながら、各種の端末に搭載できるデコーダー開発も気になるところだ。デコードの負荷はエンコードほど高くはならないが、それでもソフトウェアでなくハードウェアエンコーダーの利用がふさわしい。

　H.266／VVC規格作成メンバーの1社であるクアルコム社が「2021年の商用展開」をコミットしていることから、本格普及はそれ以降のことになると思われる。

　H.266／VVCには、H.265／HEVCの問題点の1つであるライセンスの複雑さを解消することも期待されている。これについてプロモーション組織としてMedia Coding Industry Forum（MC-IF）が創設されており、ライセンスが1本化されることが期待されているものの、状況は今も流動的で、必ずしも実現できるとは限らないのが現状だ。

　気になるユースケースだが、上述したような4K／8Kの高精細映像のストリーミング配信サービスや、放送業界での利用による臨場感あふれるリアルな映像配信や放送、立体映像を含むVR／ARへの適用が進むものと考えられる。

　高圧縮性による高速なデータ転送技術は、将来的には触覚フィードバック、ヘッドマウントディスプレイを不要にする立体映像（ホログラフィ）、立体音響、果ては味覚や臭覚などの知覚も含めた「マルチモーダル連携」による五感に訴える超臨場感表現への基礎となる。5GやWi-Fi 6、さらにその先の高速無線通信の発展と合わせ、注視したい分野だ。