高度情報教育基盤ユニット(iEdu)

ユニット提供科目

  1. 現在の位置 : ホーム
  2.  
  3. ユニット提供科目-科目内容
  4.  
  5. ビッグデータの計算科学

ビッグデータの計算科学

授業の概要・目的

近年のコンピュータの進歩や情報基盤技術の整備に伴って,クラウドコンピューティングなどのインターネットを介して行われる社会活動から生成されるデータの量,あるいは,計算科学の重要な技法であるコンピュータシミュレーションを通じて得られるデータの量は,日々増加の一途をたどっている.それらのビッグデータを分析するための手法を学ぶことが,この科目の目的である.

大規模な疎行列は,隣接行列と解釈することで大規模な有向グラフを表現することができ,多様な分析対象を表現することが可能である.その行列の特徴量,すなわち,分析対象の特徴量を抽出する際に,最も一般的でかつ普遍的な手法の一つは,その行列の固有値分解,もしくは,特異値分解を行うことである.そこで,データ解析手法について,多変量解析の基礎である最小二乗法と主成分分析からはじめ,グラフのスペクトラルクラスタリングや行列の欠損値推定のためのEMアルゴリズムなどの固有値分解や特異値分解を用いて行う様々なデータ解析手法について教授する.

また,データ解析手法を実際に適用する際には最適化問題が頻出であり,たとえば,最小二乗法・主成分分析・スペクトラルクラスタリング・行列の欠損値推定はいずれも最適化問題として定式化される.こうした最適化問題は線形代数に基づく計算を用いて解ける場合もあるが,一般には最適化アルゴリズムが必要となる.たとえば,行列の欠損値の推定は,小規模密行列の場合は特異値分解によって達成できるが,大規模疎行列の場合は特異値分解では時間がかかりすぎるため実用的ではない.よって,この講義では大規模疎行列の欠損値を推定するための最適化アルゴリズムを題材として,ビッグデータに対する最適化アルゴリズムを解説する.

【大学院横断型教育の概要・目的】
「固有値・特異値分解を用いたデータ解析手法」,「ビッグデータのための最適化手法」を通じて,大規模データ(ビッグデータ)から重要な情報を取り出す分析能力を身につけることを目指す科目である.大規模データ(ビッグデータ)を分析する能力は,研究分野を問わず重要である.

到達目標

ビッグデータが重み付き有向グラフや大次元疎行列の形式で与えられたときの,それらの解析手法を理解する.特に,特異値分解を利用したグラフのカットを行う技法を理解する.さらに,基本的な統計解析手法である最小二乗法,主成分分析の内容を理解する.加えて,ビッグデータに対する最適化手法について理解する.

授業計画と内容

全15回の授業の予定は以下の通りである.

・ガイダンス(1回)

・データ行列の特異値分解と固有値分解,特異値分解を用いるデータ解析手法(6回程度)
特異値分解の定義をはじめとする線形代数の基礎を講義する.また,基本的なデータ解析手法である最小二乗法,および,特異値分解を用いてデータ分析する上で基本的な考え方となる主成分分析について解説する.その後,グラフのスペクトラルクラスタリングなどの固有値分解や特異値分解を用いて行う様々なデータ解析手法について概説する.

・ビッグデータのための最適化手法(5回程度)
ビッグデータを解析する際に現れる大規模な最適化問題へのアプローチを習得するために,最適化アルゴリズムの基礎的な事柄からはじめ,スパース推定のためのLasso回帰において現れる最適化問題や大規模疎行列の欠損値の推定問題を解説する.

・計算科学の発展的話題(3回程度)
多様体上の最適化などの計算科学の発展的話題を取り上げ,応用例やライブラリの使い方などを紹介する.

履修要件

特になし

ページの先頭へ

S