一文讀懂LLM基于JSON Schema的結(jié)構(gòu)化輸出

作者：AI大模型應(yīng)用開(kāi)發(fā) 2025-06-12 02:30:00

OpenAI推出基于JSON Schema的結(jié)構(gòu)化輸出以解決這一問(wèn)題。結(jié)構(gòu)化輸出確保模型響應(yīng)遵循嚴(yán)格的格式，減少錯(cuò)誤，并使將大語(yǔ)言模型集成到需要一致的、機(jī)器可讀數(shù)據(jù)的應(yīng)用程序中變得更加容易，對(duì)于一致性和準(zhǔn)確性至關(guān)重要的任務(wù)其輸出更為可靠。

什么是基于JSON Schema的結(jié)構(gòu)化輸出

大語(yǔ)言模型通常會(huì)生成無(wú)特定結(jié)構(gòu)的自由格式文本，在能夠有效使用之前需要進(jìn)行大量的后期處理。這種不可預(yù)測(cè)性會(huì)導(dǎo)致錯(cuò)誤、浪費(fèi)時(shí)間并增加成本。

通常情況下，大語(yǔ)言模型基于概率預(yù)測(cè)逐個(gè)生成文本標(biāo)記。不過(guò)，如果需要以特定格式生成文本，這種方法就不太適用了。結(jié)構(gòu)化輸出通過(guò)預(yù)定義的規(guī)則或模式來(lái)引導(dǎo)這一過(guò)程，使每個(gè)標(biāo)記都符合所需的結(jié)構(gòu)。

如何使用基于JSON Schema的結(jié)構(gòu)化輸出

并非所有的模型都支持基于JSON Schema的結(jié)構(gòu)化輸出。經(jīng)測(cè)試，文心一言支持結(jié)構(gòu)化輸出。通義千問(wèn)、豆包、deepseek還不支持。

下面以輸出方程求解過(guò)程的結(jié)構(gòu)化輸出為例，闡述OpenAI Python SDK使用結(jié)構(gòu)化輸出的兩種方法。

先準(zhǔn)備好開(kāi)發(fā)環(huán)境，以windows開(kāi)發(fā)環(huán)境為例：

設(shè)置Python開(kāi)發(fā)環(huán)境

安裝uv。uv是一個(gè)用Rust編寫(xiě)的極其快速的Python包和項(xiàng)目管理器。

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

創(chuàng)建python虛擬環(huán)境(假設(shè)項(xiàng)目目錄為structured-output)

# Create a new directory for our project
uv init structured-output
cd structured-output

# Create virtual environment and activate it
uv venv
.venv\Scripts\activate

# Install dependencies
uv add openai python-dotenv

設(shè)置環(huán)境變量

創(chuàng)建.env，.env內(nèi)容如下（注意修改OPENAI_API_KEY為您的key）

OPENAI_API_KEY=your_api_key_here
OPENAI_BASE_URL=https://qianfan.baidubce.com/v2
MODEL_NAME=ernie-3.5-128k

把.env添加到.gitignore

結(jié)構(gòu)化輸出方法1：手工定義Schema

通過(guò)設(shè)置chat completion的response_format打開(kāi)結(jié)構(gòu)化輸出。response_format的格式為：

{
    type: "json_schema", 
    json_schema: {
        "strict": true, 
        "schema": ...
    } 
}

完整例子如下：

import os
from openai import OpenAI
from dotenv import load_dotenv

load_dotenv()  # load environment variables from .env


client = OpenAI()
chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "system",
            "content": "你是一位數(shù)學(xué)老師。一步步引導(dǎo)用戶(hù)完成解題過(guò)程"
        },
        {
            "role": "user",
            "content": "我該如何解7x + 6 = 41這個(gè)方程"
        }
    ],
    model=os.getenv("MODEL_NAME"),
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "math_response",
            "schema": {
                "type": "object",
                "properties": {
                    "steps": {
                        "type": "array",
                        "items": {
                            "type": "object",
                            "properties": {
                                "explanation": {"type": "string"},
                                "output": {"type": "string"}
                            },
                            "required": ["explanation", "output"],
                            "additionalProperties": False
                        }
                    },
                    "final_answer": {"type": "string"}
                },
                "required": ["steps", "final_answer"],
                "additionalProperties": False
            },
            "strict": True
        }
    },
)
content = chat_completion.choices[0].message.content
print(content)

輸出結(jié)果如下：

{
    "final_answer":"x = 5",
    "steps":[
        {
            "explanation":"首先，我們需要將方程中的常數(shù)項(xiàng)移至等式的另一邊，使方程左側(cè)只剩下未知數(shù)x的系數(shù)和x本身。",
            "output":"7x = 41 - 6"
        },
        {
            "explanation":"進(jìn)行減法運(yùn)算，簡(jiǎn)化方程。",
            "output":"7x = 35"
        },
        {
            "explanation":"接下來(lái)，我們需要將x的系數(shù)化為1，以求解x的值。為此，我們將方程兩邊同時(shí)除以7。",
            "output":"x = 35 ÷ 7"
        },
        {
            "explanation":"進(jìn)行除法運(yùn)算，得出x的值。",
            "output":"x = 5"
        }
    ]
}

結(jié)構(gòu)化輸出方法2：使用自定義的pydantic模型

通過(guò)設(shè)置chat completion的response_format為自定義的pydantic模型MathReasoning

完整例子如下：

import os
from openai import OpenAI
from dotenv import load_dotenv
from pydantic import BaseModel


class Step(BaseModel):
    explanation: str
    output: str


class MathReasoning(BaseModel):
    steps: list[Step]
    final_answer: str


load_dotenv()  # load environment variables from .env


client = OpenAI()
chat_completion = client.beta.chat.completions.parse(
    messages=[
        {
            "role": "system",
            "content": "你是一位樂(lè)于助人的數(shù)學(xué)老師。一步步引導(dǎo)用戶(hù)完成解題過(guò)程"
        },
        {
            "role": "user",
            "content": "我該如何解7x + 6 = 41這個(gè)方程"
        }
    ],
    model=os.getenv("MODEL_NAME"),
    response_format=MathReasoning,
)
math_reasoning = chat_completion.choices[0].message.parsed
print(math_reasoning.model_dump_json(indent=4))

輸出結(jié)果為：

{
    "steps":[
        {
            "explanation":"首先，我們需要將方程中的常數(shù)項(xiàng)移至等式的另一邊。從7x + 6 = 41開(kāi)始，我們可以從兩邊同時(shí)減去6。",
            "output":"7x + 6 - 6 = 41 - 6"
        },
        {
            "explanation":"簡(jiǎn)化上一步的等式，得到7x = 35。",
            "output":"7x = 35"
        },
        {
            "explanation":"接下來(lái)，我們需要解出x的值。為此，我們可以將方程兩邊同時(shí)除以7。",
            "output":"7x / 7 = 35 / 7"
        },
        {
            "explanation":"簡(jiǎn)化上一步的等式，得到x = 5。",
            "output":"x = 5"
        }
    ],
    "final_answer":"x = 5"
}

JSON Schema結(jié)構(gòu)化輸出 VS JSON模式

JSON Schema結(jié)構(gòu)化輸出是JSON模式的進(jìn)階版本。JSON模式是通過(guò)設(shè)置response_format為{ "type": "json_object" }打開(kāi)。使用JSON模式時(shí)，你必須始終通過(guò)對(duì)話(huà)中的某些消息（例如系統(tǒng)消息）指示模型生成JSON。JSON 模式不能保證輸出符合任何特定的模式。

總結(jié)

JSON Schema結(jié)構(gòu)化輸出提供了一個(gè)強(qiáng)大的解決方案，可確保您的大語(yǔ)言模型生成可靠、可預(yù)測(cè)且機(jī)器可讀的回復(fù)。結(jié)構(gòu)化輸出有助于您在不同應(yīng)用程序中保持一致的數(shù)據(jù)格式，從而更輕松地管理復(fù)雜的工作流程。

責(zé)任編輯：龐桂玉來(lái)源： AI大模型應(yīng)用開(kāi)發(fā)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看