AIベースのビデオ分析とは?その仕組みは?

AI Video Analytics

AIベースのビデオ分析は、セキュリティと監視、食品と飲料、小売、輸送、製造、物流など、さまざまな業界で広く利用されています。MarketsandMarkets Analysisのレポート(2022年)によると、この市場は2026年までに年平均成長率20.9%を達成すると予測されており、エッジAI技術の普及に伴い、AIベースのビデオは今後数年間でさらに強力になるでしょう。

 

このブログでは、以下の内容について説明します。

  • AIベースのビデオ分析とは
  • 仕組み
  • 産業用途とメリット
  • AIベースのビデオ分析に必要なハードウェア要件 

 

AIベースのビデオ分析とは?

AIベースのビデオ分析は、ビデオコンテンツ分析(VCA)、ビデオAI、またはインテリジェントビデオとも呼ばれ、デジタルビデオ形式で収集されたデータから実用的な洞察と結論を導き出すプロセスを指します。 

AIベースのビデオ分析は、長時間のビデオ監視における人間の反復的で退屈なタスクの負担を簡素化し、軽減します。AIはデータを観察できるだけでなく、大量のビデオ映像で訓練され、特定のオブジェクトを検出、識別、分類、自動タグ付けすることも可能です。  

全体として、AIベースのビデオ分析は、人間がビデオコンテンツを理解し、収集されたデータから得られた観察に基づいて自動的に意思決定を行うのを支援するツールです。 

 

AIベースのビデオ監視システムの主要コンポーネント

AIビデオ分析を完全に理解するために、その仕組みを簡単に見てみましょう。このプロセスは、機械学習と深層学習という2種類のAIを組み合わせています。しかしその前に、まずAIについて簡単に定義しましょう。 

AI、機械学習、深層学習

人工知能

AIは人工知能の略で、コンピュータサイエンスとデータを使って機械の課題解決を行う分野です(Coursera、2023年)。人工知能の創始者の一人であるジョン・マッカーシーは、1955年にAIを「インテリジェントな機械を作る科学と工学」と定義しました。AIは広範なテーマであり、一見すると圧倒されることもありますが、ここではまずAIの3段階について説明します。 

AIは、3つの開発段階に分けられます。

The Three Stages of AI

最初の段階は、人工狭知能(ANI)であり、コンピュータは定義された単純なタスクのセットを実行できますが、それ以外のタスクは実行できません。音声認識や顔認識など、今日私たちが利用できるAI搭載ツールのほとんどはこのカテゴリに分類されます。 

次に、第2段階は汎用人工知能(AGI)であり、この段階では、AIは人間と同じように独立して意思決定を行い、考えることができるとされています。ChatGPTのようなソーシャルチャットボットが文脈に応じた推論や問題解決能力において急速な進歩を遂げていることから、この段階は急速に近づいていると考えられています。この段階は前の段階よりも高度であり、人間の知能に匹敵します。

ロボットが人間と同じレベルの知能を達成したかどうかを判断する方法は、アラン・チューリング(1950年)によるチューリングテストを実行することです。AIと人間の会話が記録され、その会話を聞いた観察者が区別できない場合、汎用人工知能(AGI)に到達したことになります。 

最後に、人工超知能(ASI)があり、AIは人間の知能を桁違いに上回る知能を発揮します。この段階は、仮説上の将来の時点である技術的特異点としても説明されます。 

機械学習と深層学習

では、AIビデオに関わるAIの種類について掘り下げてみましょう。AIには複数のサブセットがあり、そのサブセットの中にもさらにサブセットがありますが、AIビデオに必要なのは機械学習と深層学習の2つです。深層学習は、以下の図に示すように、機械学習に含まれています。

 

AI vs. Machine Learning vs. Deep Learning

 

Netflixの「あなたへのおすすめ番組」タブがどのようにキュレーションされているか疑問に思ったことはありませんか?  

おそらく、ある夜映画を見終えた後、提案された映画には同様のテーマが含まれ、同じジャンルに属していました。あるいは、YouTubeの自動再生が魔法のようにあなたのお気に入りの音楽のプレイリストを作成したとき。これらは、機械学習が日常的に活用されている例です。

 

機械学習は人工知能のサブセットであり、アルゴリズムを使用してデータを分析し、収集された情報から学習し、その後、人間の介入をゼロまたは最小限に抑えて、この知識を将来の意思決定の基盤として適用します。 

 

したがって、人間がコンピューターが行うことができるすべての決定をコーディングするのではなく、コンピューターがデータを収集、処理、学習することによって「訓練」され、その後、コンピューター自身で決定を下すのです。 時間とともに、機械学習アルゴリズムは経験を積むことでタスクを改善できます。 

 

 Deep Neural Networks

 

深層学習は機械学習のサブセットであり、人工的な「ニューラルネットワーク」を使用して、人間の脳の学習プロセスを模倣します。深層学習は、上の画像に示すように、人間の脳が情報を非線形に処理する方法を模倣します。

これらの人工ニューラルネットワークは、アルゴリズムと計算ユニットの「層」と呼ばれる概念で構成されており、人工ニューロンを形成しています。これらのニューロンは、深層学習アルゴリズムのバックボーンです。機械学習と深層学習を区別する方法の1つは、コンピューターが処理しなければならないデータ層の数を見ることです。処理が3層以上(入力と出力を含む)であれば、深層学習と見なされます。

機械学習は、事前に分類されたデータを学習・分析することで特定の機能の専門家になることができますが、深層学習は、写真、テキスト、数字など、生のままの、より大規模で多様かつ非構造化されたデータセットを吸収し、そこから学習することができます。継続的な大量のデータ入力により、深層学習アルゴリズムは、収集したデータクラスターで発生するパターンを観察することで学習できます。  

深層学習は、生データから直接特徴を自動的に学習および抽出できるため、手動による特徴量エンジニアリングの必要がなくなります。深層ニューラルネットワークは、データの階層表現を学習するように設計されています。データは、単純なパターン、エッジ、勾配などの最も単純なレベルから、より明確な特徴が検出されるより高いレベルまで、複数の詳細レベルで観察されます。 

深層学習は、より高度で発展した種類の機械学習であり、複雑なデータセットを処理し、エンジニアがデータセットを明示的にコーディングおよび分類する必要をなくし、データ処理と学習速度をより速く、より効率的にします。

深層学習について詳しくはこちら

 

AIベースのビデオ分析の仕組み

「何か」を説明したところで、「どのように」について見ていきましょう。

AIベースのビデオ分析は、「物体認識」と呼ばれる技術を利用しています。物体認識は深層学習を活用しています。この技術は、コンピューターが「見る」方法を研究するコンピューターサイエンスの分野であるマシンビジョンに属します。 

 

Tasks In Image Recognition

物体認識

上記の画像を参照すると、Jason Brownlee(2019)によると、物体認識とは、デジタル写真内の物体を識別するための関連タスクの集合を指します。 

最初のタスクは画像分類であり、画像内のオブジェクトのクラスを予測します。 

2番目のタスクは物体位置特定と呼ばれ、バウンディングボックスとクラスラベルによって画像内の物体の位置を特定します。  

その後、物体検出はこれら2つのタスクを組み合わせ、画像内で検出された物体を分類および位置特定します。「物体認識」という用語は、しばしば「物体検出」のタスクに使用されます。物体検出は、物体認識のサブセットです。 

マシンビジョンについて詳しくはこちら。

 

AIベースのビデオ分析を使用する理由

AIベースのビデオ分析は、企業に次のような多くのメリットをもたらします。 

  • 強化されたセキュリティと安全対策 
  • 業務効率の最適化 
  • 従業員の安全と健康の確保 
  • インシデント調査と分析 

IoT監視におけるAIビデオ分析の5つの事例については、こちらのブログをご覧ください

 

なぜエッジでAIベースのビデオ分析を計算するのか?

組み込みデバイスのパフォーマンス能力が向上したことで、データの収集場所で処理されるデータ量が増加しています。AIベースのビデオ分析がクラウドではなくエッジで実行される理由には、以下のようなものがあります。

レイテンシーの削減

AIベースのビデオがエッジで実行されると、クラウドとの間でデータを送受信する必要がないため、応答を受け取るまでの時間が最小限に抑えられます。これにより、リアルタイムでアクションを実行する必要がある状況で劇的な違いが生じ、セキュリティと監視の面で条件が大幅に改善されます。

プライバシーとセキュリティの向上

分析がデータの収集場所で直接行われるため、データがハッキングされる可能性のあるインターネットではなく、脆弱性が軽減されます。これは、顔認識データなどの個人を特定できる情報が保存されているデータを分析する場合に追加の利点となります。

帯域幅効率

エッジでのコンピューティングの帯域幅効率は、さらに処理が必要なデータのみをクラウドに送信するため、企業にとって有益です。これにより、帯域幅の容量が増え、データ転送コストとエネルギー消費が削減されます。

オフライン操作

エッジでのAIベースのビデオコンピューティングは、インターネット接続がない場合でも実行されます。これは、継続的な接続が中断されたり、遠隔地で利用できない場合がある地域で特に有利です。

リアルタイムの意思決定

エッジでAIベースのビデオ分析をコンピューティングする魅力的な目的は、コンピュータがミッションクリティカルな意思決定を独立して計算し実行する能力です。クラウドレベルでのさらなる分析が必要な場合、待機時間が長くなり、悲惨な結果につながる可能性があります。

スケーラビリティの向上

AIビデオがセンサー自体で分析される場合、これはスケーラビリティを向上させ、より多くのデバイスがデータ処理と分析の負荷を担うことを可能にします。複数のエッジデバイス間で並行タスク実行を可能にすることで、負荷を軽減し、タスクを効率的に分散します。

産業用コンピューティングシステムがAIビデオを実行するために必要なものは?

AIベースのビデオ分析を任されたコンピューターは、しばしば劣悪な過酷な環境に置かれます。これには、ほこりや空気中の粒子が多い遠隔地、近くの他の移動物体のある揺れたり移動したりする場所、気温の変動が激しい屋外環境や気候の劇的な変化、さらには高湿気やエアスプレーへの曝露などが含まれます。これらの条件は、AIビデオに関わる継続的で要求の厳しいデータ処理のソフトウェア互換性要件に加えて、これらのシステムに追加の圧力をかけます。

AIベースのビデオ分析用ハードウェアアクセラレータ

エッジの厳しい条件では、ファンレスの堅牢な産業用コンピュータのように、ミッションクリティカルな機能を中断することなく24時間365日信頼性高く動作できるシステムが必要です。

産業用アプリケーションでAIベースのビデオ分析を利用する際には、最適なパフォーマンスと満足のいく結果を得るために考慮すべき特定のハードウェア要件があります。

まず、AIアルゴリズムに関わる複雑な計算を処理するためには、強力なプロセッサが不可欠です。AIベースのビデオ分析に使用される産業用コンピューティングシステムには、通常、高度な画像処理機能のためにGPU(Graphics Processing Unit)が含まれています。

CPU、GPU、TPUの違いについて詳しくはこちらをご覧ください。

GoogleのTensor Processing Unit (TPU) やHAILOなどの専用AIアクセラレータ(ASIC:Application-Specific Integrated Circuits)は、エッジデバイスでの組み込み深層学習アプリケーションを加速させます。FPGA(Field-Programmable Gate Array)も、効率的な並列処理によく使用されます。

次に、大量のデータを効率的に保存およびアクセスするには、RAMとストレージの両方で十分なメモリが必要です。NVMe SSD(Non-Volatile Memory Express Solid-State Drives)などの高速ストレージソリューションは、迅速なデータ取得を容易にします。

最後に、AI言語モデルとソフトウェアフレームワークとの互換性は、AI機能のスムーズな統合と利用を保証します。

ここでは各アクセラレータについて深く掘り下げませんが、さらに詳しく知りたい場合は、コンピューティングハードウェアにおけるパフォーマンスアクセラレータに関するこのブログをご覧ください

AIベースのビデオ分析向けRCO-3000-CMLとRCO-6000-CML

Premioのモジュラーで積み重ね可能な2ピースブロック設計は、ファンレスの堅牢な産業用PCにホットスワップ可能なNVME SSDを搭載することを可能にします。これにより、RCO-3000およびRCO-6000シリーズは、オブジェクト検出と高出力AIビデオ分析を加速させ、リアルタイムでディスプレイ出力を生成します。この綿密に考えられた設計には、組み込みのセキュリティ機能が備わっており、システム全体を交換することなく、オペレーターが簡単にアップグレードや修理を行うことができます。RCOシリーズは、あらゆる過酷な産業環境でのマシンビジョンタスクに競争力のあるソリューションです。

関連記事

EdgeBoostノードでAIエッジ推論コンピューター設計を(比較的)シンプルに

推論は、コンピュータシステムが学習済み機械学習アルゴリズムに基づいて予測を行う際に発生します。推論の概念は新しいものではありませんが、これらの高度な操作をエッジで実行できるようになったのは比較的新しいことです。 エッジベースの推論エンジンの背後にある技術は、組み込みコンピュータです。しかし、明らかにそれ以上に、増幅されたコンピューティング能力、大量のストレージ、そしてリアルタイムで大量のデータを処理するための必要なI/Oを備えています。目標は、データが生成される場所にできるだけ近い場所で操作を実行し、最短時間で最も正確な結果を達成することです。その場所は通常、外部データがシステムに入力されるセンサーのすぐ近くです。決定が下されると、通常はエッジに送り返されて実行され、エッジでのリアルタイムの意思決定を促進します。 エッジベースの推論エンジンにとって重要な懸念事項は、展開される環境です。たとえば、衝撃や振動に耐えるように設計する必要があるでしょうか?極端な高温または低温にさらされるでしょうか?パフォーマンスアクセラレーションの適切なバランスを提供するでしょうか?これらの質問に対する回答は、それぞれ異なる設計、または少なくとも異なる設計アプローチにつながる可能性があります。 一部のベンダーは、環境問題に関する社内テスト機器を完備しています。これには、熱制御のシミュレーションや、もちろん衝撃と振動が含まれます。ほとんどのアプリケーションでは、「堅牢な熱アプリケーション」向けに設計されたシステムは、-40℃から+70℃までの温度で動作でき、20Gまでの衝撃と3Grmsの振動に耐えることができます。 AIの強化 汎用組み込みコンピュータと、推論アルゴリズムを処理するように設計されたコンピュータとの間には明確な違いがあります。まず、推論エンジンには最高の計算性能が求められます。データセンタープラットフォームの機能を取り込んだシステムであっても、どんな設計者でもハイエンドのX86プロセッサを既製品から入手してシステムに組み込むことができます。しかし、最大の処理能力を持つシステムを設計するには、ハードウェアとソフトウェアの両面で人工知能システムに関する深い専門知識と経験が必要です。Premioの専門家は、その堅牢なハードウェアエンジニアリングと産業グレードのコンピュータプラットフォームの設計でその要件を満たしています。 製品ウォークスルー:AIエッジ推論コンピュータ (RCO-6000-CFL) - The Rugged Edge Media Hub Premioは、エッジでシステム性能を最大化するEdge Boost Nodesというモジュール式テクノロジーを開発しました。ハードウェアノードはプラットフォームの下部に物理的に取り付けられ、リアルタイムのインサイトのためにデータ収集を必要とするエッジレベルのワークロードにハードウェアアクセラレーションを提供します。この2ピースのモジュラー設計は、革新的なキャニスターブリックにNVMe(不揮発性メモリ)ソリッドステートディスク(SSD)と並列コンピューティング性能のためのGPUを搭載することで、プラットフォームの堅牢性を維持しつつ、性能を向上させます。各Edge Boost Nodeは、それらのコンポーネントの信頼性を確保するために、高RPMのアクティブ冷却を使用しています。 (画像提供:Premio Inc.)  AI推論コンピュータの設計のすべて - The Rugged Edge Media Hub Premioからは、さまざまなEdge Boost Nodesが提供されています。たとえば、オプションの1つであるRCO-6000-CFL-2N2060Sは、ホットスワップ可能なNVMe SSDキャニスターを追加し、最大2つの15mm U.2 SSDとPCIe GPUを搭載できます。2番目のオプションであるRCO-6000-CFL-4NHはストレージ容量を強化し、ハードウェアおよびソフトウェアRAIDをサポートする高容量NVMeストレージのために、2つの15mm U.2 SSDを収納する2つのホットスワップ可能なNVMe SSDキャニスターをサポートします。3番目のオプションであるRCO-6000-CFL-8NSは、さらに高速なNVMeストレージに焦点を当てており、システムインテグレーターに最大8つの7mm、2.5インチU.2 NVMe SSDを追加する機能を提供します。これはPremioのEdge Boost Nodeポートフォリオに間もなく追加される予定です。 RCO-6000-CFL-4NH/8NS AIエッジ推論コンピュータ | モジュール式edgeBOOSTノード | 性能アクセラレーション -...