高度情報教育基盤ユニット(iEdu)

ユニット提供科目

  1. 現在の位置 : ホーム
  2.  
  3. ユニット提供科目-科目内容
  4.  
  5. ビッグデータの計算科学

ビッグデータの計算科学

授業の概要・目的

近年のコンピュータの進歩や情報基盤技術の整備に伴って,クラウドコンピューティングなどのインターネッ トを介して行われる社会活動から生成されるデータの量,あるいは,計算科学の重要な技法であるコンピュー タシミュレーションを通じて得られるデータの量は,日々増加の一途をたどっている.それらのビッグデータ を分析,可視化するための手法を学ぶことが,この科目の目的である. 大次元疎行列は,隣接行列と解釈することで大規模な有向グラフを表現することができ,多様な分析対象を表 現することが可能である.その行列の特徴量,すなわち,分析対象の特徴量を抽出する際に,最も一般的でか つ普遍的な手法は,固有値分解,もしくは,特異値分解を行うことである.そこで,データ解析手法について, 多変量解析の基礎である最小二乗法と主成分分析からはじめ,グラフのスペクトラルクラスタリングや行列の 欠損値推定のための EM アルゴリズムなどの固有値分解や特異値分解を用いて行う様々なデータ解析手法につ いて教授する. また,データ解析手法を実際に適用する際には最適化問題が頻出であり,たとえば,最小二乗法・主成分分析・ スペクトラルクラスタリング・行列の欠損値推定はいずれも最適化問題として定式化される.こうした最適化 問題は線形代数に基づく計算を用いて解ける場合もあるが,一般的には最適化問題を解くためのアルゴリズム が必要となる.たとえば,行列の欠損値の推定は,小規模密行列の場合は特異値分解によって達成できるが, 大規模疎行列の場合は特異値分解では時間がかかりすぎるため実用的ではない.よって,この講義では大規模 疎行列の欠損値を推定するための最適化アルゴリズムを題材として,ビッグデータに対する最適化アルゴリズ ムを解説する.

【大学院横断型教育の概要・目的】
「ビッグデータの可視化」,「固有値・特異値分解を用いたデータ解析手法」,「ビッグデータのための最適化手法」 を通じて,大規模データ(ビッグデータ)から重要な情報を取り出す分析能力,可視化する能力を身につける ことを目指す科目である.大規模データ(ビッグデータ)を分析する能力は,研究分野を問わず重要である.

ビッグデータが,重み付き有向グラフや大次元疎行列の形式で与えられたとき,それらの解析手法を理解する. 特に,特異値分解を利用したグラフのカットを行う技法を理解する.さらに,基本的な統計解析手法である最 小二乗法,主成分分析の内容を理解する.加えて,ビッグデータに対する最適化手法について理解する.

授業計画と内容

・ガイダンス(1 回)

・ビッグデータの可視化(3 回) ビッグデータを視覚的に理解するための技法について解説する.

・データ行列の特異値分解と固有値分解,特異値分解を用いるデータ解析手法(6 回) 特異値分解の定義をはじめとする線形代数の基礎を講義する.また,基本的なデータ解析手法である最小 二乗法,および,特異値分解を用いてデータ分析する上で基本的な考え方となる主成分分析について解説 する.その後,グラフのスペクトラルクラスタリングなどの固有値分解や特異値分解を用いて行う様々な データ解析手法について概説する.

・ビッグデータのための最適化手法(5 回) ビッグデータを解析する際に現れる大規模な最適化問題へのアプローチを習得するために,最適化アルゴリズムの基礎的な事柄からはじめ,スパース推定のための Lasso 回帰において現れる最適化問題や大規 模疎行列の欠損値の推定問題を解説する.

履修要件

特になし

ページの先頭へ

S