fix: retry model fallback on rate limits

2026-01-05 18:04:36 +01:00
parent 7900d33701
commit 5622dfe86b
3 changed files with 52 additions and 0 deletions
--- a/src/agents/pi-embedded-helpers.test.ts
+++ b/src/agents/pi-embedded-helpers.test.ts
@@ -0,0 +1,32 @@
+import type { AssistantMessage } from "@mariozechner/pi-ai";
+import { describe, expect, it } from "vitest";
+
+import { isRateLimitAssistantError } from "./pi-embedded-helpers.js";
+
+const asAssistant = (overrides: Partial<AssistantMessage>) =>
+  ({ role: "assistant", stopReason: "error", ...overrides }) as AssistantMessage;
+
+describe("isRateLimitAssistantError", () => {
+  it("detects 429 rate limit payloads", () => {
+    const msg = asAssistant({
+      errorMessage:
+        '429 {"type":"error","error":{"type":"rate_limit_error","message":"This request would exceed your account\'s rate limit. Please try again later."}}',
+    });
+    expect(isRateLimitAssistantError(msg)).toBe(true);
+  });
+
+  it("detects human-readable rate limit messages", () => {
+    const msg = asAssistant({
+      errorMessage: "Too many requests. Rate limit exceeded.",
+    });
+    expect(isRateLimitAssistantError(msg)).toBe(true);
+  });
+
+  it("returns false for non-error messages", () => {
+    const msg = asAssistant({
+      stopReason: "end_turn",
+      errorMessage: "rate limit",
+    });
+    expect(isRateLimitAssistantError(msg)).toBe(false);
+  });
+});
--- a/src/agents/pi-embedded-helpers.ts
+++ b/src/agents/pi-embedded-helpers.ts
@@ -109,3 +109,12 @@ export function formatAssistantErrorText(
  // Keep it short for WhatsApp.
  return raw.length > 600 ? `${raw.slice(0, 600)}…` : raw;
 }
+
+export function isRateLimitAssistantError(
+  msg: AssistantMessage | undefined,
+): boolean {
+  if (!msg || msg.stopReason !== "error") return false;
+  const raw = (msg.errorMessage ?? "").toLowerCase();
+  if (!raw) return false;
+  return /rate[_ ]limit|too many requests|429/.test(raw);
+}
--- a/src/agents/pi-embedded-runner.ts
+++ b/src/agents/pi-embedded-runner.ts
@@ -32,6 +32,7 @@ import {
  buildBootstrapContextFiles,
  ensureSessionHeader,
  formatAssistantErrorText,
+  isRateLimitAssistantError,
  sanitizeSessionMessagesImages,
 } from "./pi-embedded-helpers.js";
 import {
@@ -551,6 +552,16 @@ export async function runEmbeddedPiAgent(params: {
          | AssistantMessage
          | undefined;

+        const fallbackConfigured =
+          (params.config?.agent?.modelFallbacks?.length ?? 0) > 0;
+        if (fallbackConfigured && isRateLimitAssistantError(lastAssistant)) {
+          const message =
+            lastAssistant?.errorMessage?.trim() ||
+            (lastAssistant ? formatAssistantErrorText(lastAssistant) : "") ||
+            "LLM request rate limited.";
+          throw new Error(message);
+        }
+
        const usage = lastAssistant?.usage;
        const agentMeta: EmbeddedPiAgentMeta = {
          sessionId: sessionIdUsed,