こんにちは、ガロガロニーです!
AIシステムの構築では、ビッグデータが重要となるのはイメージしやすいと思います。今日のAIブームがあるのは、2010年代以降のビッグデータの登場がきっかけとさえ言われています。しかし、ビッグデータ=大量のデータというわけではありません。大量の蓄積されたデータとAIを学習させるためのデータは大きく異なります。データ量だけがAIの精度に貢献するわけでもありません。データは「Volume(量)」「Variety(多様性)」「Velocity(更新頻度)」の3Vが成立して、初めてAIを学習させるためのデータとなります。
本日は、AI開発に欠かせないデータの3つのVについて、解説していきたいと思います。
Volume(量)
AIを学習させるためには、ある程度のデータ量が不可欠です。例えば、最近流行りのDeep Learningでは、使えるデータが少量だと過学習(Over Fitting)という現象を引き起こし、汎用性の低いモデルとなってしまいます。
このようにデータがあまり用意できないケースでは、ロジスティック回帰や決定木モデルなどの別の機械学習アルゴリズムを検討する必要があります。しかし、これらの手法を使うとしても、汎用性の高いモデルを目指すなら、やはり一定以上のデータ量は必要となります。
どうしてもデータ量が不足してしまう場合、データ拡張(Data Augmentation)という方法で、疑似的にデータの水増しができるテクニックがあります。ただし、データ拡張にも限度があるため、やはり大量の生データがあった方が良いでしょう。
Variety(多様性)
AIの予測精度はデータの内容と品質にかかっているといっても過言ではありません。AIが予測や判断をするために、必要なデータの種類が網羅されているか確認することが重要です。
例えば、購入確率が高い顧客を予測するAIシステムで、顧客の属性データが網羅されていたとしても、過去の購買履歴データなどが無い場合、予測精度が低下したり顧客のニーズにそぐわない結果になることもあります。「5W2H」を意識して、必要なデータの抜け漏れがないか確認することが大切です。
また、データの形式についても、CSV形式のような構造化されたデータなのか、それとも画像や音声などの非構造のデータなのかでも、選択するアルゴリズムが変わってきます。自社にあるデータの種類や形式が、AI開発にそぐうものかどうか確認するようにしましょう。
Velocity(更新頻度)
データの量や内容を確認するとともに、データの粒度や更新頻度を確認しておくことも重要です。一番抜けてしまいやすい項目でもあります。
要件定義の段階では日次ベースの予測が求められているのにもかかわらず、自社にある収集データは月次ベースになっていたなどのミスマッチは起こりえます。AIシステムの運用まで見据え、取得できるデータを確認しておく必要があります。
さらにどの程度の期間の過去データを保持しておくのか、Volumeとも関係しますが、予測精度が担保される範囲で、過去データの期間を決めるようにしましょう。
まとめ
本日はAI開発に欠かせないデータの3つのVについて説明しました。AI開発で使用するデータはVolume(量)のみに意識しがちですが、Variety(多様性)やVelocity(更新頻度)も重要となります。
自社でAI開発をする際は、事前に収集データを確認し、3つのVが成立しているか確認するようにしましょう。それではまた!
コメント