from pathlib import Path
import json
import platform
import random
import sys
from datetime import datetime

PROJECT = Path("extra_l1_project")
for sub in ["data/raw", "data/clean", "output", "src", "logs"]:
    (PROJECT / sub).mkdir(parents=True, exist_ok=True)

print("Project root:", PROJECT.resolve())
print("Python version:", sys.version.split()[0])
print("Platform:", platform.platform())

manifest = {
    "project_name": "extra_track_l1",
    "created_at": datetime.now().isoformat(timespec="seconds"),
    "python_version": sys.version.split()[0],
    "seed": 42,
    "author_role": "student",
    "folders": ["data/raw", "data/clean", "output", "src", "logs"]
}

with open(PROJECT / "project_manifest.json", "w") as f:
    json.dump(manifest, f, indent=2)

with open(PROJECT / "project_manifest.json") as f:
    print(f.read())

def simulate_effect_unstable(n=500):
    # No explicit seed: output changes every run
    treated = [random.random() < 0.5 for _ in range(n)]
    base = [random.gauss(0, 1) for _ in range(n)]
    outcome = [
        b + 0.3 * int(t) + random.gauss(0, 0.5)
        for b, t in zip(base, treated)
    ]
    treated_mean = sum(y for y, t in zip(outcome, treated) if t) / sum(treated)
    control_mean = sum(y for y, t in zip(outcome, treated) if not t) / (n - sum(treated))
    return treated_mean - control_mean

for _ in range(3):
    print(round(simulate_effect_unstable(), 4))

def simulate_effect_stable(n=500, seed=42):
    rng = random.Random(seed)
    treated = [rng.random() < 0.5 for _ in range(n)]
    base = [rng.gauss(0, 1) for _ in range(n)]
    outcome = [
        b + 0.3 * int(t) + rng.gauss(0, 0.5)
        for b, t in zip(base, treated)
    ]
    treated_mean = sum(y for y, t in zip(outcome, treated) if t) / sum(treated)
    control_mean = sum(y for y, t in zip(outcome, treated) if not t) / (n - sum(treated))
    return treated_mean - control_mean

for _ in range(3):
    print(round(simulate_effect_stable(), 4))

stable_effect = simulate_effect_stable()

run_record = {
    "timestamp": datetime.now().isoformat(timespec="seconds"),
    "effect_estimate": stable_effect,
    "seed": 42,
    "python_version": sys.version.split()[0]
}

with open(PROJECT / "logs" / "run_record.json", "w") as f:
    json.dump(run_record, f, indent=2)

with open(PROJECT / "logs" / "run_record.json") as f:
    print(f.read())

def validate_effect(effect, lower=-0.2, upper=0.8):
    assert lower <= effect <= upper, f"Estimated effect {effect:.3f} outside expected range"

validate_effect(stable_effect)
print("Validation passed.")

import importlib

packages = ["json", "platform", "sys", "random"]
versions = {}
for pkg in packages:
    module = importlib.import_module(pkg)
    versions[pkg] = getattr(module, "__version__", "stdlib")

env_snapshot = {
    "python": sys.version.split()[0],
    "packages": versions
}

with open(PROJECT / "environment_snapshot.json", "w") as f:
    json.dump(env_snapshot, f, indent=2)

env_snapshot

Extra L1 — Reproducibility, Environments, and Research Pipelines¶

Goal¶

What you will do¶

Why this matters¶

1. Create a minimal project manifest¶

2. A reproducibility failure: hidden randomness¶

Task¶

3. Save outputs and detect silent changes¶

4. Add a lightweight validation check¶

5. Environment capture¶

Suggested extension¶

Takeaway¶