Serverless LoRA Inference 사용 - Weights & Biases Documentation

이 페이지에서는 W&B Serverless Inference에서 자체 커스텀 LoRA 어댑터를 서빙하는 방법을 설명합니다. 인프라를 직접 관리하지 않고 지원되는 기본 모델의 파인튜닝된 변형을 배포하려는 개발자와 ML 실무자를 위한 문서입니다. LoRA(Low-Rank Adaptation)를 사용하면 완전히 새로운 모델 전체를 만드는 대신, 경량 어댑터만 트레이닝하고 저장하여 대규모 언어 모델을 사용자 지정할 수 있습니다. 이를 통해 사용자 지정에 드는 크기와 비용을 줄일 수 있습니다. LoRA를 트레이닝하거나 업로드해 기본 모델에 새로운 기능을 추가할 수 있습니다. 예를 들어 고객 지원, 창의적 글쓰기, 또는 특정 기술 분야에 특화되도록 만들 수 있습니다. 이렇게 하면 모델 전체를 다시 트레이닝하거나 재배포하지 않고도 모델의 동작을 조정할 수 있습니다.

LoRAs에 Serverless Inference를 사용하는 이유

LoRAs용 Serverless Inference는 다음과 같은 이점을 제공합니다.

한 번 업로드하면 서버를 관리할 필요 없이 배포할 수 있습니다.
아티팩트 버전 관리를 통해 현재 서비스 중인 버전을 추적할 수 있습니다.
전체 모델 가중치 대신 작은 LoRA 파일을 교체해 모델을 업데이트할 수 있습니다.

워크플로

커스텀 LoRA를 서빙하는 과정은 크게 세 단계로 이루어집니다:

LoRA 가중치를 W&B 아티팩트로 업로드합니다.
API에서 아티팩트 URI를 모델 이름으로 레퍼런스합니다.
W&B가 Inference를 위해 가중치를 동적으로 로드합니다.

다음 예시는 Serverless Inference를 사용해 커스텀 LoRA 모델을 호출하는 방법을 보여줍니다. 다음 섹션에서는 여기서 레퍼런스한 LoRA를 업로드하거나 학습하는 방법을 설명합니다.

from openai import OpenAI

model_name = f"wandb-artifact:///{WB_TEAM}/{WB_PROJECT}/qwen_lora:latest"

client = OpenAI(
    base_url="https://api.inference.wandb.ai/v1",
    api_key=API_KEY,
    project=f"{WB_TEAM}/{WB_PROJECT}",
)

resp = client.chat.completions.create(
    model=model_name,
    messages=[{"role": "user", "content": "Say 'Hello World!'"}],
)
print(resp.choices[0].message.content)

LoRA를 생성해 아티팩트로 W&B에 업로드하는 방법을 대화형으로 보여주는 이 시작하기 노트북을 참조하세요.

사전 요구 사항

다음이 필요합니다:

W&B API 키.
W&B 프로젝트.
openai 및 wandb 패키지가 설치된 Python 3.8+: pip install wandb openai.

LoRA를 추가하고 사용하기

두 가지 방법으로 W&B 계정에 LoRA를 추가하고 사용을 시작할 수 있습니다. LoRA를 트레이닝한 위치에 맞는 탭을 선택하세요.

다른 곳에서 트레이닝한 LoRA 업로드
W&B로 새 LoRA 트레이닝

직접 만든 커스텀 LoRA 디렉터리를 W&B 아티팩트로 업로드합니다. LoRA를 다른 환경(로컬 환경, cloud provider 또는 파트너 서비스)에서 트레이닝한 경우에 적합합니다.이 Python 코드는 로컬에 저장된 LoRA 가중치를 버전 관리되는 W&B 아티팩트로 업로드합니다. 필수 메타데이터(기본 모델 및 storage region)가 포함된 lora 유형 아티팩트를 생성하고, 로컬 디렉터리의 LoRA 파일을 추가한 다음, Inference에 사용할 수 있도록 W&B 프로젝트에 기록합니다.

import wandb

run = wandb.init(entity=WB_TEAM, project=WB_PROJECT)

artifact = wandb.Artifact(
    "qwen_lora",
    type="lora",
    metadata={"wandb.base_model": "OpenPipe/Qwen3-14B-Instruct"},
    storage_region="coreweave-us",
)

artifact.add_dir("[PATH-TO-LORA-WEIGHTS]")
run.log_artifact(artifact)

주요 요구 사항

자체 LoRA를 Inference에서 사용하려면 다음을 확인하세요.

LoRA는 지원되는 기본 모델 섹션에 나열된 모델 중 하나로 트레이닝되어 있어야 합니다.
LoRA는 PEFT 형식으로 저장되어 있어야 하며, W&B 계정에 lora 유형 아티팩트로 존재해야 합니다.
지연 시간을 최소화하려면 LoRA가 storage_region="coreweave-us"에 저장되어 있어야 합니다.
업로드할 때 트레이닝에 사용한 기본 모델 이름(예: meta-llama/Llama-3.1-8B-Instruct)을 포함하세요. 그래야 W&B가 올바른 모델과 함께 LoRA를 로드할 수 있습니다.

LoRA를 아티팩트로 프로젝트에 추가한 후에는 어떤 방법을 사용했는지와 관계없이, 모델 이름으로 해당 URI를 전달해 모든 Inference call에서 이를 참조할 수 있습니다:

# 트레이닝이 완료되면 아티팩트를 바로 사용하세요
model_name = f"wandb-artifact:///{WB_TEAM}/{WB_PROJECT}/your_trained_lora:latest"

지원되는 기본 모델

LoRA는 다음 기본 모델 중 하나를 기반으로 학습되어야 합니다. 추론 시 W&B가 어댑터를 올바른 기본 모델과 연결할 수 있도록 wandb.base_model을 설정할 때는 정확한 모델 ID 문자열을 사용하세요.

API 사용 시 모델 ID	최대 LoRA 랭크
`meta-llama/Llama-3.1-70B-Instruct`	16
`meta-llama/Llama-3.1-8B-Instruct`	16
`openai/gpt-oss-120b`	64
`OpenPipe/Qwen3-14B-Instruct`	16
`Qwen/Qwen3.6-27B`	16
`Qwen/Qwen3-30B-A3B-Instruct-2507`	16

가격

상시 실행 서버나 전용 GPU 인스턴스에 비용을 지불하는 대신, 저장소와 실행한 Inference에 대해서만 비용을 지불하면 됩니다. 가격은 두 가지 구성 요소로 이루어집니다:

저장소: LoRA 가중치를 보관하는 저장소에 대해 요금이 청구됩니다.
Inference 사용: LoRA Artifacts를 사용하는 call에는 표준 모델 Inference와 동일한 요금이 청구됩니다.

​LoRAs에 Serverless Inference를 사용하는 이유

​워크플로

​사전 요구 사항

​LoRA를 추가하고 사용하기

​주요 요구 사항

​지원되는 기본 모델

​가격