ヒストグラム
ヒストグラム(英語: histogram[1])とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱状図、柱状グラフ、度数分布図ともいう[1]。
工業分野では、パレート図、チェックシート、管理図、特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。
語源
編集histogram (ヒストグラム)の語源は、定かではないが、古代ギリシャ語で「なにかを直立にする」(帆船のマスト、織機のバー、ヒストグラムの縦棒など)という意味の ἱστός (istos、イストス)と、「描いたり、記録したり、書いたりすること」という意味の γράμμα (gramma、グラマ)を合わせた用語だといわれている。この用語は、イギリスの統計学者カール・ピアソンが1891年に historical diagram から創案したともいわれている[2]。
定義
編集日本工業規格 JIS Z 8101-1:2015 (国際規格 ISO 3534-1:2006 と同等)の「1.61 ヒストグラム」では、次のとおりに規定している[3]。
底辺の長さが級の幅(1.58)に等しく,その面積が級の度数に比例する近接する長方形からなる度数分布(1.60)のグラフ表現。
注記 1 級の幅が不均一な場合には,注意が必要である。級の幅が不均一な場合には,級の面積を級の度数に比例させるとよい。
注記 2 全ての級の幅を等しくし,長方形の高さを級の度数に比例させるのが一般的である。
ヒストグラム
編集ヒストグラムは、各々が互いに素である区間・階級(カテゴリ、これをビン (bins) という。ヒストグラムのグラフの柱(棒)のこと)に分類できる、観察結果の数を図にしたもの。計算する関数 mi である。ヒストグラムの図は、階級を一つ決めた時のヒストグラムを表現する方法である。階級の幅は一つの階級のデータ数が全データ数の平方根程度がよいとう見解をはじめ何種類か推奨がある(後述)[4]。基準点も0を含む場合には0を基準点にすることがある。それ以外の場合には、最小値、最大値を含む切りのよい値にする方法と、切りのよい数を中央値とする方法がある。すべての観察結果の数 n とすべての階級の数 k、ヒストグラム mi を与えて、これらには以下の式の関係が成り立つ。
累積度数図
編集累積度数図(英: cumulative histogram)は、特定の階級までのすべての階級に含む観察結果の累積数を記入する。累積度数関数と Mi はヒストグラム関数 mj を用いて以下の式のように定義できる。
なお、累積度数(cumulative frequency)を日本工業規格では、「ある値以下の観測値の度数または相対度数」と定義している[5]。
具体例
編集ウィキペディア日本語版の記事「ヒストグラム」(当記事)の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである[6]。
日 | 閲覧回数 | 日 | 閲覧回数 |
---|---|---|---|
1 | 78 | 16 | 625 |
2 | 126 | 17 | 606 |
3 | 156 | 18 | 483 |
4 | 231 | 19 | 377 |
5 | 215 | 20 | 370 |
6 | 304 | 21 | 587 |
7 | 484 | 22 | 667 |
8 | 544 | 23 | 643 |
9 | 566 | 24 | 756 |
10 | 545 | 25 | 505 |
11 | 478 | 26 | 436 |
12 | 258 | 27 | 399 |
13 | 225 | 28 | 611 |
14 | 373 | 29 | 679 |
15 | 620 | 30 | 575 |
31 | 565 |
[表の見方] 11 の欄が 478 となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が 478 回であったことを意味する。
これを集計すると、次のようになる。上述の通り、階級の数と幅の設定には諸説あるが、ここでは階級の数を 8、幅を 100 とした。
閲覧回数 | その回数を記録した日数 |
---|---|
0 - 99 | 1 |
100 - 199 | 2 |
200 - 299 | 4 |
300 - 399 | 5 |
400 - 499 | 4 |
500 - 599 | 7 |
600 - 699 | 7 |
700 - 799 | 1 |
[表の見方] 400 - 499 の欄が 4 となっているのは、1 日の記事「ヒストグラム」の閲覧回数が 400 回から 499 回であった日が2013年1月に 4 日あったことを意味する。
したがって、これをヒストグラムにすると、図1のようになる。
階級の個数と幅
編集階級の個数についての最良の値はなく、階級の大きさが異なれば異なったデータの特徴を示す可能性がある。幾人かの理論家は最適な階級の個数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先として、さまざまな階級幅が適切である可能性があり、通常は実験のたびに適切な幅を決定する必要がある。しかし、さまざまな有用な指針や経験的に得られた方法がある[7]。
階級の幅 h は、直接的に与えられるか、下で示される階級の個数 k から次式で与えられる。
- 上式の大括弧は天井関数を示す。
- 平方根選択(英: Square-root choice)
- 標本中のデータ数の平方根をとるものである[8]。
- スタージェスの公式(英: Sturges' formula)[9]
- この式は階級の大きさに暗黙の仮定を置いている。そのため、n < 30 (階級数が7未満)の場合、この式の使用は不適切である。また、標本が一般的な分布と大きく異なる場合も、この式が適さないことがある。
- スコットの選択(英: Scott's choice)[10]
- ここで σ は標本の標準偏差である。
- フリードマン・ダイアコニスの選択(英: Freedman–Diaconis' choice)[11]
- IQR で示される四分位範囲に基づく。
- L2 危険関数推定の最小化に基づく選択[12]
- ここで m と v は、階級の幅が h であるヒストグラムの平均値および標本分散である。つまり、m = 1/k ∑k
i = 1 mi であり、v = 1/k ∑k
i = 1 (mi − m)2 である。
種類
編集次の4種類に分けられる。
- U字型分布
- 均一分布
- 山型分布
- 歪曲分布 次の2種類に分類できる。
- 左歪曲分布
- 右歪曲分布
以下の項目を例を用いて説明する。
U字型分布
編集最初の区間から徐々に下がっていき、中間(ほとんどの場合)で最小となり、再び上がっていく。このようなヒストグラムをU字型分布 (U-shaped distribution) という。 階級の数を 10、幅を 10 とする。
点数 | この点数をとった学生の数 |
---|---|
0.5-10.5 | 10 |
10.5-21.5 | 8 |
21.5-31.5 | 6 |
31.5-41.5 | 4 |
41.5-51.5 | 2 |
51.5-61.5 | 0 |
61.5-71.5 | 2 |
71.5-81.5 | 4 |
81.5-91.5 | 6 |
91.5-101.5 | 8 |
均一分布
編集すべての区間の数が等しいとき、または、近いとき(だいたい差が 2 以下)、このヒストグラムを均一分布 (uniform distribution) という。一様分布ともいう。次の 2 種類に分類できる。
- 連続一様分布 (Continuous uniform distribution)
- 離散一様分布 (Discrete uniform distibution)
山型分布
編集中央区間が最大になっているヒストグラムを山型分布 (mound-shaped distribution) という。
歪曲分布
編集スケートボード場のような屈曲した形の分布を歪曲分布 (skewed distribution) という。左から下がっていくのを右歪曲分布 (right-skewed distribution)、右へ上がっていくのを左歪曲分布 (left-skewed sidtribution) という。
脚注
編集- ^ a b “ヒストグラム”. J-GLOBAL. 2020年11月27日閲覧。
- ^ Magnello 2006.
- ^ JIS Z 8101-1.
- ^ 西岡, 1.4 度数分布 p.8.
- ^ JIS Z 8101-1 : 1999, 2.5 累積度数.
- ^ 閲覧回数のデータはWikipedia article traffic statisticsによった。
- ^ たとえば Venables & Ripley 2002, § 5.6 "Density Estimation".
- ^ Microsoft Excelのヒストグラムやその他多数で採用されている。
- ^ Sturges 1926.
- ^ Scott 1979.
- ^ フリードマン=ダイアコニスの法則の出典は Freedman & Diaconis 1981。
- ^ Shimazaki & Shinomoto 2007.
参考文献
編集- 日本工業標準調査会『JIS Z 8101-1:2015 統計 — 用語及び記号 — 第1部:一般統計用語及び確率で用いられる用語』日本規格協会、2015年10月20日 。2018年12月24日閲覧。
- 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。
- 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
- 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127 。
- 文部省 編『学術用語集 数学編』大日本図書、1954年。ISBN 4-477-00170-3 。[リンク切れ]
- Magnello, M. Eileen (2006-12). “Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician”. The New Zealand Journal for the History and Philosophy of Science and Technology 1. ISSN 1177-1380 .
- Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer. ISBN 978-0-387-95457-8
- Sturges, H. A. (1926). “The choice of a class interval”. J. American Statistical Association: 65–66 .
- Scott, David W. (1979). “On optimal and data-based histograms”. Biometrika 66 (3): 605–610. doi:10.1093/biomet/66.3.605.
- Scott, David W. (1992). Multivariate density estimation. Theory, practice, and visualization (Second ed.). John Wiley & Sons. ISBN 978-0-471-69755-8. MR3329609 . "3. Histograms: theory and practice"
- Freedman, D.; Diaconis, P. (1981). “On the histogram as a density estimator: L2 theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. doi:10.1007/BF01025868.
- Shimazaki, H.; Shinomoto, S. (2007). “A method for selecting the bin size of a time histogram”. Neural Computation 19 (6): 1503–1527. doi:10.1162/neco.2007.19.6.1503. PMID 17444758 .
- 坂元慶行、石黒真木夫、北川源四郎、『情報量統計学 (情報科学講座 A・5・4)』 共立出版 1983/1 ISBN 978-4320021716