Reasoning Tokens - Документация SpeShu.AI

Reasoning Tokens, также известные как thinking tokens или токены рассуждений, предоставляют прозрачный взгляд на процесс рассуждения модели искусственного интеллекта.

Как это работает

Внутренний процесс

Модель проходит внутренний процесс размышления над задачей

Сохранение рассуждений

Промежуточные мысли сохраняются как токены рассуждений

Формирование ответа

На основе рассуждений создаётся финальный ответ

Возврат результата

Возвращаются и рассуждения, и итоговый результат

Ключевые преимущества

Прозрачность

Видимость процесса принятия решений моделью

Улучшенное качество

Лучшее решение сложных задач

Отладка

Понимание источников ошибок

Обучение

Изучение подходов к решению проблем

Reasoning tokens учитываются как output tokens для биллинга и увеличивают стоимость, но значительно повышают качество ответов.

Поддерживаемые модели

Модель	type	effort	effort_level	max_tokens	enabled	exclude	summary
T-Pro 2.0	—	—	—	—	+	—	—
OpenAI o-series	—	+	—	+*	+	+	+
Anthropic Opus 4.6	—	+	—	+	+	+	+
Anthropic Opus 4.7	+	—	+	—	+	+	+
DeepSeek R1	—	+	—	+*	+	+	—
Grok	—	+	—	—	+	+	—
Gemini Thinking	—	+*	—	+	+	+	+

* — значение принимается, но провайдер может нормализовать его вниз до ближайшего поддерживаемого (см. описание конкретного параметра).

Claude Opus 4.7 управляется через адаптивное мышление: type: "adaptive" + опционально effort_level. Для остальных моделей используйте effort и/или max_tokens как раньше.

Параметры управления

type

Явный переключатель режима рассуждений. Поддерживается только моделями с адаптивным мышлением (Claude Opus 4.7 и новее). Значения:

adaptive — включить адаптивное мышление: модель сама выбирает глубину рассуждений под задачу. Поля effort и max_tokens при этом игнорируются — управление только через effort_level.
disabled — явно отключить рассуждения.

Для моделей без адаптивного режима (OpenAI o-series, DeepSeek R1, Grok, Gemini Thinking, T-Pro 2.0, Claude ≤ 4.5) параметр передавать не нужно — используйте effort и/или max_tokens.

effort

Пресет «усилия» для моделей с явно управляемым бюджетом рассуждений (OpenAI o-series, DeepSeek R1, Grok, Gemini Thinking, Claude Opus 4.6 и младше). Значения:

none — рассуждения отключены
minimal — минимальные рассуждения
low — сниженные рассуждения
medium — сбалансированный режим (по умолчанию)
high — детальные рассуждения
xhigh — максимально детальные рассуждения
max — предельные усилия

Для Claude Opus 4.7 с type: "adaptive" параметр effort игнорируется — используйте effort_level. На моделях, не поддерживающих верхние уровни (xhigh, max), значение может быть нормализовано провайдером до ближайшего поддерживаемого.

effort_level

Подсказка глубины для адаптивного мышления Claude 4.6+. Действует только совместно с type: "adaptive". Для остальных моделей игнорируется. Значения: low / medium / high / max. В отличие от effort, параметр effort_level не задаёт бюджет токенов напрямую — модель по-прежнему сама выбирает глубину, но ориентируется на указанный уровень усилий.

max_tokens

Жёсткий лимит токенов рассуждений (бюджет). Работает на моделях с явным бюджетом (OpenAI o-series, DeepSeek R1, Gemini Thinking, Claude Opus 4.6 и младше). Для Claude Opus 4.7 игнорируется — бюджетом управляет сама модель в адаптивном режиме.

enabled

Явное включение/выключение рассуждений (true / false). По умолчанию определяется из effort или max_tokens.

exclude

Если true, рассуждения не включаются в ответ (но всё равно учитываются в биллинге).

summary

Управляет уровнем детализации резюме рассуждений:

auto — автоматический выбор (по умолчанию)
concise — краткое резюме
detailed — подробное резюме

Управление глубиной адаптивного мышления

Для Claude Opus 4.7 и новее глубина рассуждений задаётся парой параметров:

"reasoning": {
  "type": "adaptive",
  "effort_level": "max"
}

Значение `effort_level`	Когда использовать
`low`	Простые вопросы, быстрые ответы
`medium`	Стандартные задачи (по умолчанию)
`high`	Сложный анализ, многошаговые задачи
`max`	Предельные усилия, максимально глубокий разбор

effort_level не задаёт бюджет токенов напрямую — модель по-прежнему сама выбирает глубину, но ориентируется на указанный уровень усилий.

Когда adaptive не тратит reasoning-токены

Adaptive thinking — это не «всегда думать», а «модель сама решает». Для простых запросов модель отвечает сразу, без рассуждений, и тогда:

usage.completion_tokens_details.reasoning_tokens = 0
Поле choices[0].message.reasoning отсутствует

Это не ошибка — модель просто решила, что задача не требует рассуждений. Если необходимо гарантированно заставить модель размышлять — увеличьте сложность запроса или используйте effort_level: "max" как сильную подсказку. Окончательное решение всё равно за моделью.

Управление рассуждениями в Claude Opus 4.7

Claude Opus 4.7 поддерживает только адаптивное мышление — модель сама определяет глубину рассуждений под каждую задачу. Старый формат с фиксированным бюджетом токенов (budget_tokens) для 4.7 недоступен. Адаптивное мышление выключено по умолчанию: запросы без явного включения выполняются без рассуждений.

Через Anthropic-совместимый endpoint (`/v1/messages`)

{
  "model": "anthropic/claude-opus-4.7",
  "thinking": { "type": "adaptive" },
  "messages": [
    { "role": "user", "content": "Реши уравнение: 2x + 5 = 13" }
  ]
}

Поле budget_tokens в Opus 4.7 вернёт ошибку 400. Необходимо перейти на новый синтаксис.

Через унифицированный endpoint (`/v1/chat/completions`, `/v1/responses`)

{
  "model": "anthropic/claude-opus-4.7",
  "reasoning": {
    "type": "adaptive",
    "effort_level": "max"
  },
  "messages": [
    { "role": "user", "content": "Реши уравнение: 2x + 5 = 13" }
  ]
}

reasoning.type: "adaptive" — включает адаптивное мышление.
reasoning.effort_level — опциональная подсказка уровня усилий (low / medium / high / max).
reasoning.effort и reasoning.max_tokens для Claude Opus 4.7 игнорируются. Передать их можно, ошибки не будет, но эффекта они не дадут.

Миграция с Opus 4.6

Anthropic-совместимый endpoint (`/v1/messages`)

- thinking = { "type": "enabled", "budget_tokens": 32000 }
+ thinking = { "type": "adaptive" }

Унифицированный endpoint (`/v1/chat/completions`, `/v1/responses`)

- reasoning = { "enabled": true, "max_tokens": 32000 }
+ reasoning = { "type": "adaptive", "effort_level": "high" }

Если нужна максимальная глубина — "effort_level": "max".

Когда использовать

Не рекомендуется

Простые фактические вопросы
Генерация контента
Перевод текстов
Простые диалоги
Когда скорость критична

Пример использования

OpenAI o-series (классический reasoning с бюджетом)

{
  "model": "openai/o4-mini",
  "messages": [
    { "role": "user", "content": "Реши уравнение: 2x + 5 = 13" }
  ],
  "reasoning": {
    "effort": "high",
    "max_tokens": 1000,
    "summary": "auto"
  }
}

Claude Opus 4.7 (адаптивное мышление)

{
  "model": "anthropic/claude-opus-4.7",
  "messages": [
    { "role": "user", "content": "Реши уравнение: 2x + 5 = 13" }
  ],
  "reasoning": {
    "type": "adaptive",
    "effort_level": "high",
    "summary": "auto"
  }
}

Ответ с рассуждениями

{
  "choices": [
    {
      "message": {
        "content": "x = 4",
        "reasoning": "Чтобы решить уравнение 2x + 5 = 13:\n1. Вычтем 5 из обеих сторон: 2x = 8\n2. Разделим обе стороны на 2: x = 4\n3. Проверка: 2(4) + 5 = 8 + 5 = 13 ✓"
      }
    }
  ],
  "usage": {
    "prompt_tokens": 15,
    "completion_tokens": 25,
    "completion_tokens_details": {
      "reasoning_tokens": 89
    }
  }
}

​Как это работает

​Ключевые преимущества

Прозрачность

Улучшенное качество

Отладка

Обучение

​Поддерживаемые модели

​Параметры управления

​type

​effort

​effort_level

​max_tokens

​enabled

​exclude

​summary

​Управление глубиной адаптивного мышления

​Когда adaptive не тратит reasoning-токены

​Управление рассуждениями в Claude Opus 4.7

​Через Anthropic-совместимый endpoint (/v1/messages)

​Через унифицированный endpoint (/v1/chat/completions, /v1/responses)

​Миграция с Opus 4.6

​Anthropic-совместимый endpoint (/v1/messages)

​Унифицированный endpoint (/v1/chat/completions, /v1/responses)

​Когда использовать

Рекомендуется

Не рекомендуется

​Пример использования

​OpenAI o-series (классический reasoning с бюджетом)

​Claude Opus 4.7 (адаптивное мышление)

​Ответ с рассуждениями

Как это работает

Ключевые преимущества

Поддерживаемые модели

Параметры управления

type

effort

effort_level

max_tokens

enabled

exclude

summary

Управление глубиной адаптивного мышления

Когда adaptive не тратит reasoning-токены

Управление рассуждениями в Claude Opus 4.7

Через Anthropic-совместимый endpoint (`/v1/messages`)

Через унифицированный endpoint (`/v1/chat/completions`, `/v1/responses`)

Миграция с Opus 4.6

Anthropic-совместимый endpoint (`/v1/messages`)

Унифицированный endpoint (`/v1/chat/completions`, `/v1/responses`)

Когда использовать

Пример использования

OpenAI o-series (классический reasoning с бюджетом)

Claude Opus 4.7 (адаптивное мышление)

Ответ с рассуждениями