office Hana Blogs

office Hana / Quality consulting

Familiar Statistics (2) / 熟悉的统计学 (2) / 身近な統計 (2)

日本語は最後にあります。
Listed in English, Chinese, and Japanese in that order.
Please note that this is an automatic translation.
英文、中文和日文,依次排列。
请注意,这是一个自动翻译,任何错误的翻译都应予以确认。

 

 

Familiar Statistics (2)

In the second part of my series on "Familiar Statistics", I revisit my recent experiences with the Open University of Japan lectures. The focus this time is on the characteristics of data and its variability or distribution.

Firstly, data encompasses a collection of objects and items, termed variables, with fluctuating values. These variations assume probabilistic patterns which can be analyzed and utilized for forecasting, control, and management. Data can be time-series, with time as a variable, or cross-sectional, featuring fixed time and frequencies or percentages.

Cross-sectional data includes qualitative variables such as categorical items and quantitative variables which are numeric. Qualitative variables can be nominal, differentiated but unordered, or ordinal, differentiated and ordered. Meanwhile, quantitative variables are either interval measures, where differences matter, or ratio measures where both differences and ratios are significant.

Understanding the variability or distribution of data is equally important. This encapsulates the probabilistic pattern of data and individual data holds significance when evaluated against the whole.

For qualitative data, frequency distribution tables and Pareto charts are utilized. These tools aid in trend and identity analysis. They often illustrate the 20:80 rule: 20% of items account for 80% of the total number.

Lastly, I want to mention RESAS, the Regional Economic Distribution System in Japan, which is a government-provided trove of statistical data and analysis tools instrumental in regional revitalization and other projects.

Frequency tables and Pareto charts

 

熟悉的统计学 (2)

在这篇标题为《熟悉的统计学》的系列博客的第二部分,我将谈论我近期观看日本开放大学讲座的体验。这次的焦点在于数据的特点以及其可变性或分布。

首先,数据包括了一系列的对象和项目,我们称之为变量,这些变量的值并不是恒定的,存在着变异。这些变异的模式我们可以假设其符合概率分布,通过探索和研究这些模式,我们可以将其用于预测、控制和管理。数据可以分为时间序列数据(即时间作为变量的数据),以及截面数据(即在纵轴上固定时间并给出频率或百分比的数据)。

截面数据包括定性变量(如分类项目)以及定量变量(数量值)。定性变量可以是名义变量,也就是有区别但无序的变量;也可以是顺序变量,即有区别并且有序的变量。而定量变量则分为区间测量和比率测量,前者是指差异有意义但比率没有意义,后者则是指差异和比率都有意义。

理解数据的可变性或称之为分布也是非常重要的。这涵盖了数据的概率模式,以及相对于整体进行评估时,单个数据的重要性。

对于定性数据,我们常常使用频率分布表和帕累托图。这些工具有助于我们进行趋势分析和身份分析,它们常常体现了20:80的规则,即20%的项目占据了总数的80%。

最后,我想提一提RESAS(区域经济分布系统),这是日本政府提供的一个包含各种统计数据和分析工具的系统,这对于区域振兴等项目有着重要的作用。

頻率表和帕累托圖

 

身近な統計 (2)

放送大学の講義を通じて学んだ統計学の知識について、今回はデータの特徴とその分布に焦点を当ててブログを書いてみたいと思います。

まず、データとは対象と項目(変数)の集まりであり、それらの値は一定ではなくばらつきを持つことが一つの大きな特徴です。このばらつきには確率的なパターンがあり、そのパターンを解析することで予測や管理、マネジメントに活用できます。データは時系列データとクロスセクションデータという2つの主要な形式に分けられます。また、クロスセクションデータはさらに質的変数と量的変数に分けられます。

質的変数は名義尺度と順序尺度に、一方、量的変数は間隔尺度と比率尺度に分けられます。これらの分類は、各変数が何を表現し、どのように利用できるかを理解するために重要です。

次にデータのばらつき、つまり分布についてです。分布はデータの確率的パターンを数量的に把握するもので、個々のデータは全体の中で相対的に評価することで意味付けされます。

質的データの分布を評価するためには度数分布表やパレート図が利用されます。これらは平均的な傾向分析や少数ケースの正体分析に役立ち、20:80の法則のような有用な洞察を得ることができます。

最後に、国が提供する地域経済分布システム(RESAS)について触れたいと思います。これは日本のあらゆる統計データや分析ツールを提供し、地域活性化などに活用されています。統計学は我々の身の回りに存在し、あらゆる分野でその力を発揮しています。これらの知識を身につけることで、我々の生活や社会への理解が深まります。

度数分布表とパレート図

 

office Hana An / 小庵

office Hana - office Hana