`run_quality_rules`

Public callable
Execute quality rules against a dataframe and return structured results.
Parameters:
Name	Type	Description	Default
`df`	`Any`	Value used by this callable.	required
`rules`	`Any`	Value used by this callable.	required
Returns:
Type	Description
`dict`	Structured output produced by this callable.
Source code in src/fabricops_kit/quality.py
def run_quality_rules(df: Any, rules: list[dict], *, dataset_name: str = "unknown", table_name: str = "unknown", engine: str = "auto") -> dict:
    """Execute quality rules against a dataframe and return structured results.

        Parameters
        ----------
        df : Any
            Value used by this callable.
        rules : Any
            Value used by this callable.

        Returns
        -------
        dict
            Structured output produced by this callable.
    """
    resolved_engine = _resolve_engine(df, engine)
    row_count = len(df) if resolved_engine == "pandas" else df.count()
    results = []

    for idx, rule in enumerate(rules):
        severity, sev_msg = _normalize_severity(rule)
        rule = dict(rule)
        rule_id = rule.get("rule_id", f"DQ{idx + 1:03d}")
        rule_type = rule.get("rule_type")
        base = {
            "rule_id": rule_id,
            "rule_type": rule_type or "unknown",
            "column_name": rule.get("column"),
            "columns": rule.get("columns"),
            "severity": severity,
            "status": "failed",
            "action": SEVERITY_TO_ACTION[severity],
            "failed_count": 1,
            "total_count": int(row_count),
            "failed_pct": 100.0 if row_count else 0.0,
            "threshold": None,
            "message": "Invalid rule",
            "reason": rule.get("reason"),
        }
        if not rule_type:
            base["message"] = "Missing required key: rule_type"
            results.append(base)
            continue
        if rule_type not in SUPPORTED_RULE_TYPES:
            base.update({"status": "skipped", "action": "allow", "failed_count": 0, "failed_pct": 0.0, "message": "Unsupported rule type"})
            results.append(base)
            continue

        required = {
            "not_null": ["column"],
            "unique": ["column"],
            "unique_combination": ["columns"],
            "accepted_values": ["column", "accepted_values"],
            "range_check": ["column"],
            "regex_check": ["column", "pattern"],
            "row_count_min": ["min_count"],
            "row_count_between": ["min_count", "max_count"],
            "freshness_check": ["column", "max_age_days"],
        }[rule_type]
        missing_keys = [k for k in required if k not in rule]
        if missing_keys:
            base["message"] = f"Missing required keys: {', '.join(missing_keys)}"
            results.append(base)
            continue
        cols_to_check = rule.get("columns") or ([rule["column"]] if "column" in rule else [])
        missing_cols = [c for c in cols_to_check if c not in getattr(df, "columns", [])]
        if missing_cols:
            base["message"] = f"Missing required column(s): {', '.join(missing_cols)}"
            results.append(base)
            continue

        try:
            failed_count, total_count, threshold, msg = (_pandas_rule(df, rule, row_count) if resolved_engine == "pandas" else _spark_rule(df, rule, row_count))
        except ValueError as exc:
            base["message"] = str(exc)
            results.append(base)
            continue
        if sev_msg:
            msg = f"{msg}. {sev_msg}"
        results.append(_result_from_counts(rule, severity, failed_count, total_count, threshold, msg))

    blocking = any(r["status"] == "failed" and r["action"] == "block" for r in results)
    warning = any(r["status"] == "failed" and r["action"] == "warn" for r in results)
    status = "failed" if blocking else "warning" if warning else "passed"
    summary = {
        "total_rules": len(results),
        "passed_rules": sum(1 for r in results if r["status"] == "passed"),
        "failed_rules": sum(1 for r in results if r["status"] == "failed"),
        "skipped_rules": sum(1 for r in results if r["status"] == "skipped"),
    }
    return {
        "dataset_name": dataset_name,
        "table_name": table_name,
        "engine": resolved_engine,
        "status": status,
        "can_continue": not blocking,
        "results": _to_jsonable(results),
        "summary": _to_jsonable(summary),
        "generated_at": _now_iso(),
    }