feat(analysis): add 2D political compass and 2D trajectories

- compute_2d_axes (PCA + anchor) - compute_2d_trajectories - plot_political_compass, plot_2d_trajectories - unit test: tests/test_political_compass.py
1 month ago · 3551a82f83
parent f7d806dc3a
commit 3551a82f83
6 changed files with 385 additions and 2 deletions
--- a/.env
+++ b/.env
@ -0,0 +1 @@
 OPENROUTER_API_KEY="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"
--- a/analysis/political_axis.py
+++ b/analysis/political_axis.py
@ -14,9 +14,10 @@ Both modes return a dict mapping mp_name → scalar score for the given window.
 import json
 import logging
-from typing import Dict, List, Optional
+from typing import Dict, List, Optional, Tuple
 import numpy as np
 from . import trajectory as _trajectory
 import duckdb
 _logger = logging.getLogger(__name__)
@ -125,3 +126,162 @@ def compute_anchor_axis(
    axis = axis / norm
    return {name: float(np.dot(vec, axis)) for name, vec in mp_vecs.items()}
 def compute_2d_axes(
    db_path: str,
    window_ids: Optional[List[str]] = None,
    method: str = "pca",
    anchor_kwargs: Optional[Dict] = None,
 ) -> Tuple[Dict[str, Dict[str, Tuple[float, float]]], Dict[str, np.ndarray]]:
    """Compute 2D coordinates for MPs per window.
    Args:
        db_path: path to duckdb
        window_ids: optional ordered list of windows (defaults to all)
        method: 'pca' or 'anchor'
        anchor_kwargs: when method=='anchor' must provide
            {
               'left_parties': List[str],
               'right_parties': List[str],
               'prog_parties': List[str],
               'cons_parties': List[str],
            }
    Returns:
        positions_by_window, axis_def
        - positions_by_window: {window_id: {mp_name: (x,y)}}
        - axis_def: {'x_axis': np.ndarray, 'y_axis': np.ndarray, 'method': str}
    Notes:
        This function expects aligned SVD vectors produced by
        trajectory._procrustes_align_windows. It will call trajectory helpers
        to load and align windows so the returned coordinates are consistent
        across windows.
    """
    if window_ids is None:
        window_ids = _trajectory._load_window_ids(db_path)
    # Load per-window raw vectors using the trajectory helper and align them
    raw_window_vecs: Dict[str, Dict[str, np.ndarray]] = {}
    for wid in window_ids:
        raw_window_vecs[wid] = _trajectory._load_mp_vectors_for_window(db_path, wid)
    aligned_window_vecs = _trajectory._procrustes_align_windows(raw_window_vecs)
    # Stack all vectors across windows into a single matrix for PCA if needed
    all_vecs = []
    entity_index = []  # parallel list of (window_id, entity)
    for wid, d in aligned_window_vecs.items():
        for ent, v in d.items():
            all_vecs.append(v)
            entity_index.append((wid, ent))
    if len(all_vecs) == 0:
        _logger.info("No vectors loaded for windows %s", window_ids)
        return ({}, {})
    M = np.vstack(all_vecs)
    if method == "pca":
        # centre globally
        Mc = M - M.mean(axis=0)
        try:
            _, _, Vt = np.linalg.svd(Mc, full_matrices=False)
        except np.linalg.LinAlgError:
            _logger.exception("SVD failed in compute_2d_axes (pca)")
            return ({}, {})
        # take top-2 components as axes (shape k,)
        comp1 = Vt[0]
        comp2 = Vt[1] if Vt.shape[0] > 1 else np.zeros_like(comp1)
        axes = {
            "x_axis": comp1 / (np.linalg.norm(comp1) + 1e-12),
            "y_axis": comp2 / (np.linalg.norm(comp2) + 1e-12),
            "method": "pca",
        }
        # project per-window vectors (centre by global mean)
        global_mean = M.mean(axis=0)
        positions_by_window: Dict[str, Dict[str, Tuple[float, float]]] = {
            wid: {} for wid in window_ids
        }
        for (wid, ent), vec in zip(entity_index, M):
            v_centered = vec - global_mean
            x = float(np.dot(v_centered, axes["x_axis"]))
            y = float(np.dot(v_centered, axes["y_axis"]))
            positions_by_window[wid][ent] = (x, y)
        return positions_by_window, axes
    elif method == "anchor":
        if not anchor_kwargs:
            raise ValueError("anchor_kwargs required for method='anchor'")
        left = set(anchor_kwargs.get("left_parties", []))
        right = set(anchor_kwargs.get("right_parties", []))
        prog = set(anchor_kwargs.get("prog_parties", []))
        cons = set(anchor_kwargs.get("cons_parties", []))
        # collect vectors across all windows for each anchor group
        def collect_for_party_set(party_set: set) -> List[np.ndarray]:
            res: List[np.ndarray] = []
            # party-level entities (entity_id equals party name)
            for wid, d in aligned_window_vecs.items():
                for ent, v in d.items():
                    if ent in party_set:
                        res.append(v)
            # MP-level via mp_metadata party affiliation
            conn = duckdb.connect(db_path)
            rows = conn.execute("SELECT mp_name, party FROM mp_metadata").fetchall()
            conn.close()
            for mp_name, party in rows:
                if party in party_set:
                    # take all vectors for this MP across windows if present
                    for wid, d in aligned_window_vecs.items():
                        if mp_name in d:
                            res.append(d[mp_name])
            return res
        left_vecs = collect_for_party_set(left)
        right_vecs = collect_for_party_set(right)
        prog_vecs = collect_for_party_set(prog)
        cons_vecs = collect_for_party_set(cons)
        if not left_vecs or not right_vecs or not prog_vecs or not cons_vecs:
            _logger.warning("Insufficient anchor vectors for requested parties")
            return ({}, {})
        left_centroid = np.mean(np.vstack(left_vecs), axis=0)
        right_centroid = np.mean(np.vstack(right_vecs), axis=0)
        prog_centroid = np.mean(np.vstack(prog_vecs), axis=0)
        cons_centroid = np.mean(np.vstack(cons_vecs), axis=0)
        lr = right_centroid - left_centroid
        pc = cons_centroid - prog_centroid
        # Gram-Schmidt: make pc orthogonal to lr
        lr_norm = np.linalg.norm(lr)
        if lr_norm < 1e-12:
            raise ValueError("Left-right anchor axis has near-zero norm")
        lr_hat = lr / lr_norm
        # remove projection of pc on lr
        pc = pc - np.dot(pc, lr_hat) * lr_hat
        pc_norm = np.linalg.norm(pc)
        if pc_norm < 1e-12:
            raise ValueError(
                "Progressive-conservative anchor axis degenerate after orthogonalisation"
            )
        pc_hat = pc / pc_norm
        axes = {"x_axis": lr_hat, "y_axis": pc_hat, "method": "anchor"}
        positions_by_window = {wid: {} for wid in window_ids}
        for wid, d in aligned_window_vecs.items():
            for ent, v in d.items():
                x = float(np.dot(v, axes["x_axis"]))
                y = float(np.dot(v, axes["y_axis"]))
                positions_by_window[wid][ent] = (x, y)
        return positions_by_window, axes
    else:
        raise ValueError("Unknown method '%s'" % method)
--- a/analysis/trajectory.py
+++ b/analysis/trajectory.py
@ -195,6 +195,62 @@ def compute_trajectories(
    return result
 def compute_2d_trajectories(
    db_path: str, method: str = "pca", anchor_kwargs: Optional[Dict] = None
 ) -> Dict[str, Dict]:
    """Compute 2D trajectory positions for MPs using compute_2d_axes.
    Returns dict keyed by mp_name with:
        {
          'windows': [window_ids...],
          'coords': [[x,y], ...],
          'step_vectors': [[dx,dy], ...],
          'step_magnitudes': [float,...],
          'total_magnitude': float,
        }
    Only MPs present in >=2 windows are included.
    """
    from .political_axis import compute_2d_axes
    window_ids = _load_window_ids(db_path)
    if len(window_ids) < 2:
        _logger.info("Fewer than 2 windows — no 2D trajectories to compute")
        return {}
    positions_by_window, axes = compute_2d_axes(
        db_path, window_ids=window_ids, method=method, anchor_kwargs=anchor_kwargs
    )
    # Build per-MP time-ordered coords
    mp_data: Dict[str, Dict] = {}
    for wid in window_ids:
        pos = positions_by_window.get(wid, {})
        for mp_name, coord in pos.items():
            if mp_name not in mp_data:
                mp_data[mp_name] = {"windows": [], "coords": []}
            mp_data[mp_name]["windows"].append(wid)
            mp_data[mp_name]["coords"].append(tuple(coord))
    result: Dict[str, Dict] = {}
    for mp_name, data in mp_data.items():
        if len(data["windows"]) < 2:
            continue
        coords = [np.array(c, dtype=float) for c in data["coords"]]
        step_vecs = [coords[i + 1] - coords[i] for i in range(len(coords) - 1)]
        mags = [float(np.linalg.norm(v)) for v in step_vecs]
        result[mp_name] = {
            "windows": data["windows"],
            "coords": [[float(c[0]), float(c[1])] for c in coords],
            "step_vectors": [[float(v[0]), float(v[1])] for v in step_vecs],
            "step_magnitudes": mags,
            "total_magnitude": float(sum(mags)),
        }
    _logger.info("2D trajectories computed for %d MPs", len(result))
    return result
 def top_drifters(trajectories: Dict[str, Dict], n: int = 10) -> List[Dict]:
    """Return the top-n MPs by total drift, sorted descending.
--- a/analysis/visualize.py
+++ b/analysis/visualize.py
@ -9,9 +9,10 @@ Functions:
 """
 import logging
-from typing import Dict, List, Optional
+from typing import Dict, List, Optional, Tuple
 import numpy as np
 from typing import Any
 _logger = logging.getLogger(__name__)
@ -161,3 +162,124 @@ def plot_political_axis(
    fig.write_html(output_path, include_plotlyjs="cdn")
    _logger.info("Political axis chart written to %s", output_path)
    return output_path
 def plot_political_compass(
    positions_by_window: Dict,
    window_id: str,
    party_of: Optional[Dict] = None,
    output_path: str = "analysis_compass.html",
 ) -> str:
    """Plot 2D political compass scatter for a single window.
    Args:
        positions_by_window: {window_id: {mp_name: (x,y)}}
        window_id: which window to plot
        party_of: optional mapping mp_name -> party for colouring
        output_path: HTML output path
    Returns output_path
    """
    go, px = _require_plotly()
    pos = positions_by_window.get(window_id, {})
    xs = [v[0] for v in pos.values()]
    ys = [v[1] for v in pos.values()]
    names = list(pos.keys())
    # If no party mapping provided, try to load from data/motions.db (duckdb)
    if party_of is None:
        try:
            import duckdb  # type: ignore
            try:
                conn = duckdb.connect(database="data/motions.db", read_only=True)
                df = conn.execute("SELECT mp_name, party FROM mp_metadata").fetchdf()
                # convert to dict
                party_of = {
                    row[0]: row[1] for row in df.itertuples(index=False, name=None)
                }
                _logger.info(
                    "Loaded party mapping for %d MPs from data/motions.db",
                    len(party_of),
                )
            finally:
                try:
                    conn.close()
                except Exception:
                    pass
        except ImportError:
            _logger.debug("duckdb not installed; proceeding without party mapping")
        except Exception as e:
            _logger.debug("Could not load party mapping from data/motions.db: %s", e)
    parties = [party_of.get(n, "Unknown") if party_of else "Unknown" for n in names]
    fig = px.scatter(
        x=xs,
        y=ys,
        color=parties,
        hover_name=names,
        title=f"Political Compass ({window_id})",
        labels={
            "x": "Left ← — → Right",
            "y": "Progressive ← — → Conservative",
            "color": "Party",
        },
    )
    fig.update_traces(marker=dict(size=8, opacity=0.8))
    fig.write_html(output_path, include_plotlyjs="cdn")
    _logger.info("Political compass written to %s", output_path)
    return output_path
 def plot_2d_trajectories(
    positions_by_window: Dict,
    mp_names: Optional[List[str]] = None,
    output_path: str = "analysis_trajectories_compass.html",
 ) -> str:
    """Plot MP trajectories across windows on the 2D compass.
    Args:
        positions_by_window: {window_id: {mp_name: (x,y)}}
        mp_names: list of MPs to plot (default: all found in positions)
        output_path: output HTML path
    """
    go, px = _require_plotly()
    # collect window order
    window_ids = list(positions_by_window.keys())
    # build per-MP time-ordered coords
    # mp_coords maps mp_name -> list of (window_id, (x,y))
    mp_coords: Dict[str, List[Tuple[str, Tuple[float, float]]]] = {}
    for wid in window_ids:
        for mp, coord in positions_by_window.get(wid, {}).items():
            mp_coords.setdefault(mp, []).append((wid, coord))
    if mp_names is None:
        mp_names = list(mp_coords.keys())
    fig = go.Figure()
    for mp in mp_names:
        if mp not in mp_coords:
            continue
        items = mp_coords[mp]
        # ensure sorted by window order
        items_sorted = sorted(items, key=lambda it: window_ids.index(it[0]))
        xs = [c[1][0] for c in items_sorted]
        ys = [c[1][1] for c in items_sorted]
        text = [f"{mp} ({w})" for w, _ in items_sorted]
        fig.add_trace(
            go.Scatter(
                x=xs, y=ys, mode="lines+markers", name=mp, text=text, hoverinfo="text"
            )
        )
    fig.update_layout(
        title="MP Trajectories on Political Compass",
        xaxis_title="Left ← — → Right",
        yaxis_title="Progressive ← — → Conservative",
    )
    fig.write_html(output_path, include_plotlyjs="cdn")
    _logger.info("2D trajectories compass written to %s", output_path)
    return output_path
--- a/data/motions.db
+++ b/data/motions.db
--- a/tests/test_political_compass.py
+++ b/tests/test_political_compass.py
@ -0,0 +1,44 @@
 import numpy as np
 import types
 import sys
 import pytest
 def test_compute_2d_axes_pca_synthetic(monkeypatch):
    """Synthetic test for compute_2d_axes using patched alignment helper."""
    # Create a fake trajectory module with required helpers
    fake_traj = types.SimpleNamespace()
    # _load_window_ids should return ordered windows
    fake_traj._load_window_ids = lambda db: ["w1", "w2"]
    # _load_mp_vectors_for_window is not used because we patch _procrustes_align_windows
    fake_traj._load_mp_vectors_for_window = lambda db, w: {}
    # Provide aligned vectors directly
    aligned = {
        "w1": {"Alice": np.array([1.0, 0.0, 0.0]), "Bob": np.array([0.0, 1.0, 0.0])},
        "w2": {"Alice": np.array([0.8, 0.2, 0.0]), "Bob": np.array([0.1, 0.9, 0.0])},
    }
    fake_traj._procrustes_align_windows = lambda x: aligned
    # Insert fake module into sys.modules for import by analysis.political_axis
    monkeypatch.setitem(sys.modules, "analysis.trajectory", fake_traj)
    # Now import the function under test
    from analysis.political_axis import compute_2d_axes
    positions_by_window, axis_def = compute_2d_axes(
        db_path="dummy", window_ids=["w1", "w2"], method="pca"
    )
    assert "w1" in positions_by_window and "w2" in positions_by_window
    for wid in ("w1", "w2"):
        for name, coord in positions_by_window[wid].items():
            assert len(coord) == 2
            assert np.isfinite(coord[0]) and np.isfinite(coord[1])
    assert axis_def.get("method") == "pca"
		`@ -0,0 +1 @@`
							`OPENROUTER_API_KEY="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"`