fix format

2025-12-14 14:03:41 +08:00
parent b18993adf7
commit b1ddd98552
5 changed files with 83 additions and 7 deletions
--- a/main.py
+++ b/main.py
@@ -476,6 +476,7 @@ def main():
        base_url=args.base_url,
        model_name=args.model,
        api_key=args.apikey,
        lang=args.lang,
    )
    agent_config = AgentConfig(
--- a/phone_agent/actions/handler.py
+++ b/phone_agent/actions/handler.py
@@ -285,7 +285,7 @@ def parse_action(response: str) -> dict[str, Any]:
        if response.startswith("do"):
            # Use AST parsing instead of eval for safety
            try:
-                tree = ast.parse(response, mode='eval')
+                tree = ast.parse(response, mode="eval")
                if not isinstance(tree.body, ast.Call):
                    raise ValueError("Expected a function call")
--- a/phone_agent/config/i18n.py
+++ b/phone_agent/config/i18n.py
@@ -19,6 +19,10 @@ MESSAGES_ZH = {
    "step": "步骤",
    "task": "任务",
    "result": "结果",
    "performance_metrics": "性能指标",
    "time_to_first_token": "首 Token 延迟 (TTFT)",
    "time_to_thinking_end": "思考完成延迟",
    "total_inference_time": "总推理时间",
 }
 # English messages
@@ -40,6 +44,10 @@ MESSAGES_EN = {
    "step": "Step",
    "task": "Task",
    "result": "Result",
    "performance_metrics": "Performance Metrics",
    "time_to_first_token": "Time to First Token (TTFT)",
    "time_to_thinking_end": "Time to Thinking End",
    "total_inference_time": "Total Inference Time",
 }
--- a/phone_agent/model/client.py
+++ b/phone_agent/model/client.py
@@ -1,11 +1,14 @@
 """Model client for AI inference using OpenAI-compatible API."""
 import json
 import time
 from dataclasses import dataclass, field
 from typing import Any
 from openai import OpenAI
 from phone_agent.config.i18n import get_message
@dataclass
 class ModelConfig:
@@ -19,6 +22,7 @@ class ModelConfig:
    top_p: float = 0.85
    frequency_penalty: float = 0.2
    extra_body: dict[str, Any] = field(default_factory=dict)
    lang: str = "cn"  # Language for UI messages: 'cn' or 'en'
@dataclass
@@ -28,6 +32,10 @@ class ModelResponse:
    thinking: str
    action: str
    raw_content: str
    # Performance metrics
    time_to_first_token: float | None = None  # Time to first token (seconds)
    time_to_thinking_end: float | None = None  # Time to thinking end (seconds)
    total_time: float | None = None  # Total inference time (seconds)
 class ModelClient:
@@ -55,6 +63,11 @@ class ModelClient:
        Raises:
            ValueError: If the response cannot be parsed.
        """
        # Start timing
        start_time = time.time()
        time_to_first_token = None
        time_to_thinking_end = None
        stream = self.client.chat.completions.create(
            messages=messages,
            model=self.config.model_name,
@@ -70,6 +83,7 @@ class ModelClient:
        buffer = ""  # Buffer to hold content that might be part of a marker
        action_markers = ["finish(message=", "do(action="]
        in_action_phase = False  # Track if we've entered the action phase
        first_token_received = False
        for chunk in stream:
            if len(chunk.choices) == 0:
@@ -78,6 +92,11 @@ class ModelClient:
                content = chunk.choices[0].delta.content
                raw_content += content
                # Record time to first token
                if not first_token_received:
                    time_to_first_token = time.time() - start_time
                    first_token_received = True
                if in_action_phase:
                    # Already in action phase, just accumulate content without printing
                    continue
@@ -94,6 +113,11 @@ class ModelClient:
                        print()  # Print newline after thinking is complete
                        in_action_phase = True
                        marker_found = True
                        # Record time to thinking end
                        if time_to_thinking_end is None:
                            time_to_thinking_end = time.time() - start_time
                        break
                if marker_found:
@@ -115,10 +139,39 @@ class ModelClient:
                    print(buffer, end="", flush=True)
                    buffer = ""
        # Calculate total time
        total_time = time.time() - start_time
        # Parse thinking and action from response
        thinking, action = self._parse_response(raw_content)
-        return ModelResponse(thinking=thinking, action=action, raw_content=raw_content)
+        # Print performance metrics
        lang = self.config.lang
        print()
        print("=" * 50)
        print(f"⏱️  {get_message('performance_metrics', lang)}:")
        print("-" * 50)
        if time_to_first_token is not None:
            print(
                f"{get_message('time_to_first_token', lang)}: {time_to_first_token:.3f}s"
            )
        if time_to_thinking_end is not None:
            print(
                f"{get_message('time_to_thinking_end', lang)}:        {time_to_thinking_end:.3f}s"
            )
        print(
            f"{get_message('total_inference_time', lang)}:          {total_time:.3f}s"
        )
        print("=" * 50)
        return ModelResponse(
            thinking=thinking,
            action=action,
            raw_content=raw_content,
            time_to_first_token=time_to_first_token,
            time_to_thinking_end=time_to_thinking_end,
            total_time=total_time,
        )
    def _parse_response(self, content: str) -> tuple[str, str]:
        """
--- a/scripts/check_deployment_en.py
+++ b/scripts/check_deployment_en.py
@@ -41,19 +41,31 @@ Usage examples:
    )
    parser.add_argument(
-        "--max-tokens", type=int, default=3000, help="Maximum generation tokens (default: 3000)"
+        "--max-tokens",
        type=int,
        default=3000,
        help="Maximum generation tokens (default: 3000)",
    )
    parser.add_argument(
-        "--temperature", type=float, default=0.0, help="Sampling temperature (default: 0.0)"
+        "--temperature",
        type=float,
        default=0.0,
        help="Sampling temperature (default: 0.0)",
    )
    parser.add_argument(
-        "--top_p", type=float, default=0.85, help="Nucleus sampling parameter (default: 0.85)"
+        "--top_p",
        type=float,
        default=0.85,
        help="Nucleus sampling parameter (default: 0.85)",
    )
    parser.add_argument(
-        "--frequency_penalty", type=float, default=0.2, help="Frequency penalty parameter (default: 0.2)"
+        "--frequency_penalty",
        type=float,
        default=0.2,
        help="Frequency penalty parameter (default: 0.2)",
    )
    args = parser.parse_args()
@@ -103,7 +115,9 @@ Usage examples:
            print(f"  - Completion tokens: {response.usage.completion_tokens}")
            print(f"  - Total tokens: {response.usage.total_tokens}")
-        print(f"\nPlease evaluate the above inference result to determine if the model deployment meets expectations.")
+        print(
            f"\nPlease evaluate the above inference result to determine if the model deployment meets expectations."
        )
    except Exception as e:
        print(f"\nError occurred while calling API:")