確率統計の入門を見ると、正規分布を中心据えている本が結構ある。
それが、確率や統計をわかりにくくする原因の一つと考えられる。
統計や確率だけでなく、すっがく全般に言える事だが、数学というのは本来目的があって形成される。
つまり、数学は合目的的の事だ。
確率の始まりは、賭博師のメレが、パスカルに、博打を途中で止めた時の掛け金の配分を聞いた事とされる。
有名なポアソン分布は、馬に蹴られて死ぬ兵士を予測するために考えられた数式。
統計、確率というのはそういうものなんだ。
難しく考えたら理解できない。
統計で嘘をつくと言ういいかたもある。
ただ、統計、確率の本質が理解できれば、これほど便利なものはない。
数学なんて、実際にどういう目的で使われたかを知らないと、意味が解らない。
データ分析の基本は、データ表の見方にあるんだけど。
データ表もデータテーブルの形式のものとデータテーブルの形式になってないものがある。
先ず、データテーブルの形にしないと数表上でデータ分析はできない。
これが意外と厄介なんだ。
先ず、データテーブルと、データテーブルでない表を見分ける。
大体、今は、原表、元データはデータテーブルの形で、アウトプットされた表は、加工、ピボットされた表が多いと思えばいい。
早い話、面倒くさくなったら、原表、元データに戻った方がいい。
そしてデータ型を統一する必要がある。
データテーブルの見方だけど。
基本的に、複数の、数列を取り出して、それを比較検証する事が原則。
通常、二つから、三つの数列。
数列の数が、次元数を意味する。
基本、二つの数列を比較する。
三つ以上になると分析がむずかりくなるからで、例外的に時間軸を組み込む三つ以上になる場合がある。
時間軸を組み込むと時系列分析になる。
時系列分析というのは、ハッキリってでたらめだと思えばいい。
でたらめの度合いを、エントロピーという。
分析の要は、どの数列を抽出し、どのように組み合わせるかだけど。
これは、分析者のセンスの問題となる。
統計を学ぶとき、いきなり正規分布から入らない方がいい。
先ず、データの見方を覚える事。
データの収集、整理の仕方から覚えるのね。
ファイリング、データ表の書き方、見方がわからないと、何も始まらないから。
恥ずかし話しだけど、次元解析の基本、やっとわかってきた。
国際社会では、ルールは先決めが原則だ絡んで。
特に民主主義国、法治国家は、先決めが鉄則。
日本人は、それを理解していないから、笑いものになる。
会議で、どのように決めるかは、会議が始まる前に決める。
会議のルールを決めないで、取り敢えず、話をはじめ、後決めで、ルールを決めようとするから、無茶苦茶になる。
議決の仕方には、誰が、決めるかを先に明確にするケース、多数決などの議決、くじ等の人為を排除した決め方など絶対的ルールが存在するわけではない。
野球の試合中、或いは、国際大会の開催中は、ルールの変更をしてはならないと言うのは、万国共通の原則。
データ分析もなえしょるが重要となる。
データ分析にもルールがあって、そのルールを最初に決めておく必要がある。
時系列分析は確率の問題だけど。
確率というのは、確からしさの度合い、言い換えると、でたらめの度合いを数字にしたもので、最終的には、人間が判断する事。
AIだってその延長にある。
それを理解していないと、データ分析はできない。
僕は、自然科学の数学と経済の数学は、別の体系で成り立っていると主張している。
経済数学の基本は自然数、余り算、離散数を基本としている。
それとデジタルの世界は二進数だからね。
処が、経済を、自然科学の数学で分析しようとする。
この辺がね、混乱の本だと思うのだけどね。