1. 現在の位置 : ホーム
  2. 提供科目
  3. 2017年度の科目
  4. データ分析入門

データ分析入門Introduction to Data Analysis

授業の概要・目的

この授業の目的は、大規模データ解析が社会にどのように貢献するかを学び、実際に大規模データ解析を行う為の基礎的な技術を身につけることにある。はじめに、大規模データを統計処理する上で基本となる数値解析・数値計算の基礎について講述する。必要となる数値線形代数の基礎的な内容について学習した後、計算機で統計計算を行う上で重要となるアルゴリズムを解説する。特に、連立一次方程式の解法であるガウスの消去法、最小2乗法において基礎となるQR分解と主成分分析などで重要となる固有値分解について解説する。次に、統計計算の基礎について後述する。統計処理がどのように利用されるか概説し、統計学の基礎的な概念である平均、分散等を解説する。また、仮設検定の考え方を述べ、いくつかの例を用いて解説する。その後、回帰分析、主成分分析等の統計処理について取り上げる。さらに、それらの知識を踏まえて、Excelと統計ソフトRを使って統計計算の実習を行う。Excelは、単にその機能を使いこなすのみに留まらず、VBA(Visual Basic For Application)によるプログラミングを習得することも目指す。統計ソフトRのR言語についても習熟する。さらに、より大規模なデータ解析を行うために、近年注目されているクラウドコンピューティングについて講述する。最後に、可視化による大規模データの理解を目指し、可視化の基本技術について学習する。

授業計画と内容

全14回の予定は、以下の通りである。

ガイダンス

・計算科学とは(1回)
計算科学(けいさんかがく、Computational Science)は、数学的モデルとその定量的評価法を構築し、計算機を駆使して科学技術上の問題を解決する学問分野である。計算科学概論、計算科学の応用について講述する。

計算科学とは

・数値計算(4回)
計算科学の重要な手法である数値解析・数値計算の基礎について講述する。2分法やニュートン法などの基本的な数値計算の内容について学習する。ま た、線形代数の基礎的な内容を学習した上で、計算機で統計計算を行う上で重要となるアルゴリズムを解説する。特に、連立一次方程式の解法であるガウスの消 去法、最小二乗法において基礎となるQR分解と特異値分解について解説する。

連立一次方程式

QR分解

固有値問題

絶対値の大きいほうから数個の固有値と固有ベクトルを求める方法

レポート問題

・統計処理(5回)
統計処理について概説し、統計学の基礎的な概念である平均、分散等を解説する。
その後、回帰分析、主成分分析等のデータの統計処理について講述する。加えて、Excelと統計ソフトRの実習を行う。Excelにおいては、 VBA(Visual Basic For Application)によるプログラミングを習得する。統計ソフトRのR言語についても実習を行う。

平均・分散

5-1.txt

検定

回帰分析・最小二乗法

5-1.txt

6-1.xlsx

7-1.xlsx

・大規模データ処理とクラウドコンピューティング(2回)
より大規模なデータ処理を行うために、近年注目されているクラウドコンピューティングについて講述する。特に、Hadoop、MapReduce等の具体的な分散処理の手法について解説する。
・情報の可視化(2回)

履修要件
特になし
予備知識
統計計算に重要な数値線形代数の知識は、授業内でも解説を行うが、必ず予習あるいは復習することを期待する。さらに、統計の基礎知識、特に、最小2乗法や主成分分析などの知識を、授業と並行して予習あるいは復習し、受講されることを期待する。
成績評価の方法・基準
全14回の途中に、線形代数の基礎知識と統計の基礎知識について、その知識を習得しているかを確認するため、レポート課題を出題する。さらに、大規模データ解析を行うことができるレベルの線形代数の知識と統計の知識を習得できているかについて、その習熟度をテストを通して判断し、評価する。講義・実習への出席状況も評価の基準に加える。
教科書
資料が必要な場合には、授業中にプリント等を配布する
参考書等
URL
その他(授業外学習の指示・オフィスアワー等)
木村欣司:金曜・3限目13:00-14:30 kkimur[at]amp.i.kyoto-u.ac.jp
授業時間外で、質問がある場合には、あらかじめ、上記のアドレスにメールをすること。

センター提供科目一覧に戻る