
このブログでは、以下の内容について説明します。
- AIベースのビデオ分析とは
- 仕組み
- 産業用途とメリット
- AIベースのビデオ分析に必要なハードウェア要件
AIベースのビデオ分析とは?
AIベースのビデオ分析は、ビデオコンテンツ分析(VCA)、ビデオAI、またはインテリジェントビデオとも呼ばれ、デジタルビデオ形式で収集されたデータから実用的な洞察と結論を導き出すプロセスを指します。
AIベースのビデオ分析は、長時間のビデオ監視における人間の反復的で退屈なタスクの負担を簡素化し、軽減します。AIはデータを観察できるだけでなく、大量のビデオ映像で訓練され、特定のオブジェクトを検出、識別、分類、自動タグ付けすることも可能です。
全体として、AIベースのビデオ分析は、人間がビデオコンテンツを理解し、収集されたデータから得られた観察に基づいて自動的に意思決定を行うのを支援するツールです。
AIベースのビデオ監視システムの主要コンポーネント
AIビデオ分析を完全に理解するために、その仕組みを簡単に見てみましょう。このプロセスは、機械学習と深層学習という2種類のAIを組み合わせています。しかしその前に、まずAIについて簡単に定義しましょう。
AI、機械学習、深層学習
人工知能
AIは人工知能の略で、コンピュータサイエンスとデータを使って機械の課題解決を行う分野です(Coursera、2023年)。人工知能の創始者の一人であるジョン・マッカーシーは、1955年にAIを「インテリジェントな機械を作る科学と工学」と定義しました。AIは広範なテーマであり、一見すると圧倒されることもありますが、ここではまずAIの3段階について説明します。
AIは、3つの開発段階に分けられます。

最初の段階は、人工狭知能(ANI)であり、コンピュータは定義された単純なタスクのセットを実行できますが、それ以外のタスクは実行できません。音声認識や顔認識など、今日私たちが利用できるAI搭載ツールのほとんどはこのカテゴリに分類されます。
次に、第2段階は汎用人工知能(AGI)であり、この段階では、AIは人間と同じように独立して意思決定を行い、考えることができるとされています。ChatGPTのようなソーシャルチャットボットが文脈に応じた推論や問題解決能力において急速な進歩を遂げていることから、この段階は急速に近づいていると考えられています。この段階は前の段階よりも高度であり、人間の知能に匹敵します。
ロボットが人間と同じレベルの知能を達成したかどうかを判断する方法は、アラン・チューリング(1950年)によるチューリングテストを実行することです。AIと人間の会話が記録され、その会話を聞いた観察者が区別できない場合、汎用人工知能(AGI)に到達したことになります。
最後に、人工超知能(ASI)があり、AIは人間の知能を桁違いに上回る知能を発揮します。この段階は、仮説上の将来の時点である技術的特異点としても説明されます。
機械学習と深層学習
では、AIビデオに関わるAIの種類について掘り下げてみましょう。AIには複数のサブセットがあり、そのサブセットの中にもさらにサブセットがありますが、AIビデオに必要なのは機械学習と深層学習の2つです。深層学習は、以下の図に示すように、機械学習に含まれています。

Netflixの「あなたへのおすすめ番組」タブがどのようにキュレーションされているか疑問に思ったことはありませんか?
おそらく、ある夜映画を見終えた後、提案された映画には同様のテーマが含まれ、同じジャンルに属していました。あるいは、YouTubeの自動再生が魔法のようにあなたのお気に入りの音楽のプレイリストを作成したとき。これらは、機械学習が日常的に活用されている例です。
機械学習は人工知能のサブセットであり、アルゴリズムを使用してデータを分析し、収集された情報から学習し、その後、人間の介入をゼロまたは最小限に抑えて、この知識を将来の意思決定の基盤として適用します。
したがって、人間がコンピューターが行うことができるすべての決定をコーディングするのではなく、コンピューターがデータを収集、処理、学習することによって「訓練」され、その後、コンピューター自身で決定を下すのです。 時間とともに、機械学習アルゴリズムは経験を積むことでタスクを改善できます。

深層学習は機械学習のサブセットであり、人工的な「ニューラルネットワーク」を使用して、人間の脳の学習プロセスを模倣します。深層学習は、上の画像に示すように、人間の脳が情報を非線形に処理する方法を模倣します。
これらの人工ニューラルネットワークは、アルゴリズムと計算ユニットの「層」と呼ばれる概念で構成されており、人工ニューロンを形成しています。これらのニューロンは、深層学習アルゴリズムのバックボーンです。機械学習と深層学習を区別する方法の1つは、コンピューターが処理しなければならないデータ層の数を見ることです。処理が3層以上(入力と出力を含む)であれば、深層学習と見なされます。
機械学習は、事前に分類されたデータを学習・分析することで特定の機能の専門家になることができますが、深層学習は、写真、テキスト、数字など、生のままの、より大規模で多様かつ非構造化されたデータセットを吸収し、そこから学習することができます。継続的な大量のデータ入力により、深層学習アルゴリズムは、収集したデータクラスターで発生するパターンを観察することで学習できます。
深層学習は、生データから直接特徴を自動的に学習および抽出できるため、手動による特徴量エンジニアリングの必要がなくなります。深層ニューラルネットワークは、データの階層表現を学習するように設計されています。データは、単純なパターン、エッジ、勾配などの最も単純なレベルから、より明確な特徴が検出されるより高いレベルまで、複数の詳細レベルで観察されます。
深層学習は、より高度で発展した種類の機械学習であり、複雑なデータセットを処理し、エンジニアがデータセットを明示的にコーディングおよび分類する必要をなくし、データ処理と学習速度をより速く、より効率的にします。
AIベースのビデオ分析の仕組み
「何か」を説明したところで、「どのように」について見ていきましょう。
AIベースのビデオ分析は、「物体認識」と呼ばれる技術を利用しています。物体認識は深層学習を活用しています。この技術は、コンピューターが「見る」方法を研究するコンピューターサイエンスの分野であるマシンビジョンに属します。

物体認識
上記の画像を参照すると、Jason Brownlee(2019)によると、物体認識とは、デジタル写真内の物体を識別するための関連タスクの集合を指します。
最初のタスクは画像分類であり、画像内のオブジェクトのクラスを予測します。
2番目のタスクは物体位置特定と呼ばれ、バウンディングボックスとクラスラベルによって画像内の物体の位置を特定します。
その後、物体検出はこれら2つのタスクを組み合わせ、画像内で検出された物体を分類および位置特定します。「物体認識」という用語は、しばしば「物体検出」のタスクに使用されます。物体検出は、物体認識のサブセットです。
AIベースのビデオ分析を使用する理由
AIベースのビデオ分析は、企業に次のような多くのメリットをもたらします。
- 強化されたセキュリティと安全対策
- 業務効率の最適化
- 従業員の安全と健康の確保
- インシデント調査と分析
IoT監視におけるAIビデオ分析の5つの事例については、こちらのブログをご覧ください。
なぜエッジでAIベースのビデオ分析を計算するのか?
組み込みデバイスのパフォーマンス能力が向上したことで、データの収集場所で処理されるデータ量が増加しています。AIベースのビデオ分析がクラウドではなくエッジで実行される理由には、以下のようなものがあります。
レイテンシーの削減
AIベースのビデオがエッジで実行されると、クラウドとの間でデータを送受信する必要がないため、応答を受け取るまでの時間が最小限に抑えられます。これにより、リアルタイムでアクションを実行する必要がある状況で劇的な違いが生じ、セキュリティと監視の面で条件が大幅に改善されます。
プライバシーとセキュリティの向上
分析がデータの収集場所で直接行われるため、データがハッキングされる可能性のあるインターネットではなく、脆弱性が軽減されます。これは、顔認識データなどの個人を特定できる情報が保存されているデータを分析する場合に追加の利点となります。
帯域幅効率
エッジでのコンピューティングの帯域幅効率は、さらに処理が必要なデータのみをクラウドに送信するため、企業にとって有益です。これにより、帯域幅の容量が増え、データ転送コストとエネルギー消費が削減されます。
オフライン操作
エッジでのAIベースのビデオコンピューティングは、インターネット接続がない場合でも実行されます。これは、継続的な接続が中断されたり、遠隔地で利用できない場合がある地域で特に有利です。
リアルタイムの意思決定
エッジでAIベースのビデオ分析をコンピューティングする魅力的な目的は、コンピュータがミッションクリティカルな意思決定を独立して計算し実行する能力です。クラウドレベルでのさらなる分析が必要な場合、待機時間が長くなり、悲惨な結果につながる可能性があります。
スケーラビリティの向上
AIビデオがセンサー自体で分析される場合、これはスケーラビリティを向上させ、より多くのデバイスがデータ処理と分析の負荷を担うことを可能にします。複数のエッジデバイス間で並行タスク実行を可能にすることで、負荷を軽減し、タスクを効率的に分散します。
産業用コンピューティングシステムがAIビデオを実行するために必要なものは?
AIベースのビデオ分析を任されたコンピューターは、しばしば劣悪な過酷な環境に置かれます。これには、ほこりや空気中の粒子が多い遠隔地、近くの他の移動物体のある揺れたり移動したりする場所、気温の変動が激しい屋外環境や気候の劇的な変化、さらには高湿気やエアスプレーへの曝露などが含まれます。これらの条件は、AIビデオに関わる継続的で要求の厳しいデータ処理のソフトウェア互換性要件に加えて、これらのシステムに追加の圧力をかけます。
AIベースのビデオ分析用ハードウェアアクセラレータ
エッジの厳しい条件では、ファンレスの堅牢な産業用コンピュータのように、ミッションクリティカルな機能を中断することなく24時間365日信頼性高く動作できるシステムが必要です。
産業用アプリケーションでAIベースのビデオ分析を利用する際には、最適なパフォーマンスと満足のいく結果を得るために考慮すべき特定のハードウェア要件があります。
まず、AIアルゴリズムに関わる複雑な計算を処理するためには、強力なプロセッサが不可欠です。AIベースのビデオ分析に使用される産業用コンピューティングシステムには、通常、高度な画像処理機能のためにGPU(Graphics Processing Unit)が含まれています。
CPU、GPU、TPUの違いについて詳しくはこちらをご覧ください。
GoogleのTensor Processing Unit (TPU) やHAILOなどの専用AIアクセラレータ(ASIC:Application-Specific Integrated Circuits)は、エッジデバイスでの組み込み深層学習アプリケーションを加速させます。FPGA(Field-Programmable Gate Array)も、効率的な並列処理によく使用されます。
次に、大量のデータを効率的に保存およびアクセスするには、RAMとストレージの両方で十分なメモリが必要です。NVMe SSD(Non-Volatile Memory Express Solid-State Drives)などの高速ストレージソリューションは、迅速なデータ取得を容易にします。
最後に、AI言語モデルとソフトウェアフレームワークとの互換性は、AI機能のスムーズな統合と利用を保証します。
ここでは各アクセラレータについて深く掘り下げませんが、さらに詳しく知りたい場合は、コンピューティングハードウェアにおけるパフォーマンスアクセラレータに関するこのブログをご覧ください。
AIベースのビデオ分析向けRCO-3000-CMLとRCO-6000-CML
Premioのモジュラーで積み重ね可能な2ピースブロック設計は、ファンレスの堅牢な産業用PCにホットスワップ可能なNVME SSDを搭載することを可能にします。これにより、RCO-3000およびRCO-6000シリーズは、オブジェクト検出と高出力AIビデオ分析を加速させ、リアルタイムでディスプレイ出力を生成します。この綿密に考えられた設計には、組み込みのセキュリティ機能が備わっており、システム全体を交換することなく、オペレーターが簡単にアップグレードや修理を行うことができます。RCOシリーズは、あらゆる過酷な産業環境でのマシンビジョンタスクに競争力のあるソリューションです。