Research

Findings we make public

June 18, 2026 · Study

Clustering and noise reduction

How Drain3 streaming template mining compares to Sentry fingerprinting across 11 production environments.

Read Study →Download PDF

Study · Error Clustering

10.9×

median issue reduction

95.5%

fewer issues to triage

Across 11 production environments

May 27, 2026 · Study

Structural gaps in error monitoring: evidence from production systems

Evidence, causes, and a path forward for grouping, prioritization, configuration decay, alert noise, and AI-generated fixes.

Read Study →Download PDF

Study · Error Monitoring

01Clustering & duplicates

02Error prioritization

03Configuration decay

04Alert noise

05AI-generated fixes

May 11, 2026 · Study

Marginal tool utility in agentic debugging

Marginal tool utility and tool efficiency measure whether individual tool calls improve an agent’s probability of solving the task. Removing noisy tools preserved accuracy while doubling efficiency.

Read Study →Download PDF

Finding · Tool Efficiency

Marginal tool utility signs across default APEX-SWE Observability trajectories by GPT-5.3-Codex.

April 4, 2026 · Study

Root cause accuracy from observability data

A benchmark for the question every debugging agent should answer: what caused the production failure? Evaluated on root cause analysis from telemetry, not log summarization.

Read Study →Benchmark

Benchmark · Root Cause Accuracy

Root cause accuracy: Cursor plus Sentry at 41%, Cursor plus Foam at 64%, Foam at 86%.