データ解析ワークフロー

目次

データ解析ワークフロー#

このページでは、haniwers で収集したデータを解析するための基本的なワークフローと、代表的な手法について解説します。

1. データの読み込み#

解析は、収集されたイベントデータ（.csv.gz形式）を読み込むところから始まります。 polars や pandas といったライブラリを使用すると、効率的にデータを扱うことができます。

import polars as pl

# 収集されたイベントデータを読み込む
events_df = pl.read_csv("path/to/processed_events.csv.gz")

print(events_df.head())

2. データの可視化#

まず、データの全体像を把握するために、主要な物理量をプロットしてみましょう。

ADC値の分布: イベントのエネルギー分布を確認します。
イベント間隔（デルタT）の分布: 宇宙線の到来頻度や、ノイズの性質を評価します。

# （matplotlibを使ったADC値のヒストグラム描画例）
import matplotlib.pyplot as plt

adc_values = events_df.get_column("adc").to_numpy()

plt.hist(adc_values, bins=100, range=(0, 4096))
plt.xlabel("ADC Value")
plt.ylabel("Counts")
plt.title("ADC Spectrum")
plt.show()

3. 代表的な解析#

時間変化の解析#

宇宙線の到来レートが時間と共にどのように変化するかを調べます。

角度依存性の解析#

（将来的にマルチ検出器システムが構築された場合）複数の検出器の同時ヒット情報から、宇宙線の到来方向を推定し、その角度依存性を解析します。

このページは現在作成中です。今後、より具体的な解析コードや手法が追加される予定です。