> ## Documentation Index
> Fetch the complete documentation index at: https://wb-21fd5541-sdk-testing-latest.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

> CoreWeave가 관리하는 인프라를 사용해 VLLM 호환 모델 체크포인트를 평가합니다

# 모델 체크포인트 평가하기

<Note>
  LLM 평가 작업은 [W\&B Multi-tenant Cloud](/ko/platform/hosting/hosting-options/multi_tenant_cloud)에서 **프리뷰** 기능으로 제공됩니다. 프리뷰 기간에는 컴퓨팅이 무료입니다. 자세한 내용은 [LLM Evaluation Jobs 가격](/ko/models/launch#pricing)을 참조하세요.
</Note>

이 페이지에서는 CoreWeave가 관리하는 인프라를 사용해 W\&B Models의 파인튜닝된 모델에서 일련의 평가 벤치마크를 실행하는 [LLM Evaluation Jobs](/ko/models/launch) 사용 방법을 설명합니다. 공개적으로 접근 가능한 URL에서 서빙되는 호스팅된 API 모델을 평가하려면 [API 호스팅 모델 평가하기](/ko/models/launch/evaluate-hosted-model)를 참조하세요. 또는 간소화된 [퀵스타트](/ko/models/launch#quickstart)를 사용해 공개 OpenAI 모델 엔드포인트에 대해 소규모 벤치마크를 실행할 수 있습니다.

<div id="prerequisites">
  ## 사전 요구 사항
</div>

모델 체크포인트를 평가하기 전에 다음을 완료하세요.

1. LLM Evaluation Jobs의 [요구 사항 및 제한 사항](/ko/models/launch#more-details)을 검토하세요.
2. 일부 벤치마크를 실행하려면 팀 관리자가 필요한 API 키를 [팀 범위 시크릿](/ko/platform/secrets#add-a-secret)으로 추가해야 합니다. 평가 작업을 구성할 때는 모든 팀원이 이 시크릿을 지정할 수 있습니다. 요구 사항은 [Evaluation model catalog](/ko/models/launch/evaluations)를 참조하세요.
   * **OpenAPI API 키**: 점수 산정에 OpenAI 모델을 사용하는 벤치마크에서 사용됩니다. 벤치마크를 선택한 뒤 **Scorer API key** 필드가 나타나면 필요합니다. 시크릿 이름은 `OPENAI_API_KEY`여야 합니다.
   * **Hugging Face 사용자 액세스 토큰**: 하나 이상의 제한된 Hugging Face 데이터셋에 대한 액세스가 필요한 `lingoly`, `lingoly2` 같은 일부 벤치마크에 필요합니다. 벤치마크를 선택한 뒤 **Hugging Face token** 필드가 나타나면 필요합니다. 이 API 키에는 해당 데이터셋에 대한 액세스 권한이 있어야 합니다. 자세한 내용은 Hugging Face 문서의 [User access tokens](https://huggingface.co/docs/hub/en/security-tokens) 및 [accessing gated datasets](https://huggingface.co/docs/hub/en/datasets-gated#access-gated-datasets-as-a-user)를 참조하세요.
3. 평가 결과를 저장할 새 [W\&B 프로젝트](/ko/models/track/project-page)를 만드세요. 프로젝트 사이드바에서 **Create new project**를 클릭합니다.
4. 모델을 VLLM 호환 형식으로 패키징한 뒤 W\&B Models에 아티팩트로 저장하세요. 다른 유형의 아티팩트를 벤치마크하려고 하면 실패합니다. 한 가지 방법은 다음 [예시: Prepare a model](#example-prepare-a-model) 섹션을 참조하세요.
5. 사용할 벤치마크의 문서를 검토해 작동 방식을 이해하고 구체적인 요구 사항을 확인하세요. 편의를 위해 [Available evaluation benchmarks](/ko/models/launch/evaluations) 레퍼런스에 관련 링크가 포함되어 있습니다.

<div id="evaluate-your-model">
  ## 모델 평가
</div>

사전 요구 사항을 완료한 후 다음 단계에 따라 평가 작업을 설정하고 Launch합니다:

1. W\&B에 로그인한 다음 프로젝트 사이드바에서 **Launch**를 클릭합니다. **LLM Evaluation Jobs** 페이지가 표시됩니다.
2. **모델 체크포인트 평가하기**를 클릭하여 평가 작업을 설정합니다.
3. 평가 결과를 저장할 대상 프로젝트를 선택합니다.
4. **Model artifact** 섹션에서 평가할 준비된 모델의 프로젝트, 아티팩트, 버전을 지정합니다.
5. **Evaluations**를 클릭한 다음 벤치마크를 최대 4개까지 선택합니다.
6. 점수 산정에 OpenAI 모델을 사용하는 벤치마크를 선택하면 **Scorer API key** 필드가 표시됩니다. 이 필드를 클릭한 다음 `OPENAI_API_KEY` 시크릿을 선택합니다. 편의를 위해 팀 관리자는 **Create secret**를 클릭해 이 drawer에서 시크릿을 생성할 수 있습니다.
7. Hugging Face의 제한된 데이터셋에 대한 액세스가 필요한 벤치마크를 선택하면 **Hugging Face token** 필드가 표시됩니다. [관련 데이터셋에 대한 액세스를 요청한 다음](https://huggingface.co/docs/hub/en/datasets-gated#access-gated-datasets-as-a-user), Hugging Face 사용자 액세스 token이 포함된 시크릿을 선택합니다.
8. 선택 사항: **Sample limit**를 양의 정수로 설정해 평가할 벤치마크 샘플의 최대 개수를 제한합니다. 그렇지 않으면 작업에 있는 모든 샘플이 포함됩니다.
9. 리더보드를 자동으로 만들려면 **Publish results to leaderboard**를 클릭합니다. 리더보드에는 모든 평가가 워크스페이스 패널에 함께 표시되며, 리포트에서 공유할 수도 있습니다.
10. **Launch**를 클릭하여 평가 작업을 Launch합니다.
11. 페이지 상단의 원형 화살표 아이콘을 클릭하여 최근 run 모달을 엽니다. 평가 작업은 다른 최근 run과 함께 표시됩니다. 완료된 run의 이름을 클릭하면 단일 run 뷰로 열리고, **Leaderboard** 링크를 클릭하면 리더보드가 바로 열립니다. 자세한 내용은 [결과 보기](#view-the-results)를 참조하세요.

<Tip>
  첫 번째 모델을 평가한 후에는 다음 평가 작업을 설정할 때 많은 필드가 가장 최근 값으로 미리 채워집니다.
</Tip>

이 예시 평가 작업은 아티팩트를 대상으로 두 개의 벤치마크를 실행합니다:

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-sdk-testing-latest/9bGjVEZnWlpBI-9p/images/models/llm-evaluation-jobs/model-checkpoint-job-example.png?fit=max&auto=format&n=9bGjVEZnWlpBI-9p&q=85&s=280e7311f1d9e59b9a387d9b55524142" alt="예시 모델 체크포인트 평가 작업" width="375" height="919" data-path="images/models/llm-evaluation-jobs/model-checkpoint-job-example.png" />
</Frame>

이 예시 리더보드는 여러 벤치마크 작업에 대한 여러 모델의 성능을 함께 시각화합니다:

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-sdk-testing-latest/9bGjVEZnWlpBI-9p/images/models/llm-evaluation-jobs/model-checkpoint-leaderboard-example.png?fit=max&auto=format&n=9bGjVEZnWlpBI-9p&q=85&s=b5f5a00ca2d91949ffa299a08f7b0c62" alt="여러 벤치마크 작업에 대한 여러 모델의 성능을 시각화한 예시 리더보드" width="3354" height="1552" data-path="images/models/llm-evaluation-jobs/model-checkpoint-leaderboard-example.png" />
</Frame>

<div id="review-evaluation-results">
  ## 평가 결과 검토
</div>

대상 프로젝트의 워크스페이스에 있는 W\&B Models에서 평가 작업 결과를 검토합니다.

1. 페이지 상단의 원형 화살표 아이콘을 클릭하여 최근 run 모달을 엽니다. 이 모달에는 평가 작업이 프로젝트의 다른 run과 함께 표시됩니다. 평가 작업에 리더보드가 있으면 **Leaderboard**를 클릭해 리더보드를 전체 화면으로 열거나, run 이름을 클릭해 프로젝트의 단일 run 뷰에서 엽니다.
2. 워크스페이스의 **Evaluations** 섹션 또는 **Weave** 사이드바 패널의 **Traces** 탭에서 평가 작업의 트레이스를 확인합니다.
3. **Overview** 탭을 클릭하여 평가 작업의 설정과 요약 메트릭을 포함한 자세한 정보를 확인합니다.
4. **Logs** 탭을 클릭하여 평가 작업의 디버그 로그를 확인, 검색 또는 다운로드합니다.
5. **Files** 탭을 클릭하여 코드, 로그, 설정 및 기타 출력 파일을 포함한 평가 작업의 파일을 찾아보거나 확인하거나 다운로드합니다.

<div id="customize-a-leaderboard">
  ## 리더보드 사용자 지정하기
</div>

리더보드는 지정된 프로젝트로 전송된 모든 평가 작업의 결과를 표시하며, 각 평가 작업의 각 벤치마크마다 한 행씩 표시됩니다. 열에는 트레이스, 입력 값, 출력 값과 같은 평가 작업의 세부 정보가 표시됩니다. 리더보드에 대한 자세한 내용은 [Weave의 리더보드](/ko/weave/guides/core-types/leaderboards)를 참조하세요.

<Tip>리더보드에서 결과에 대한 피드백을 남기려면 **Feedback** 열에서 이모지 아이콘이나 채팅 아이콘을 클릭하세요.</Tip>

* 기본적으로 모든 평가 작업이 표시됩니다. 왼쪽의 run 선택기를 사용해 평가 작업을 필터링하거나 검색하세요.
* 기본적으로 평가 작업은 그룹화되지 않습니다. 하나 이상의 열을 기준으로 그룹화하려면 **Group** 아이콘을 클릭하세요. 그룹을 표시하거나 숨길 수 있으며, 그룹을 펼쳐 해당 run을 볼 수 있습니다.
* 기본적으로 모든 오퍼레이션이 표시됩니다. 하나의 오퍼레이션만 표시하려면 **All ops**를 클릭하고 오퍼레이션을 선택하세요.
* 열을 기준으로 정렬하려면 열 헤더를 클릭하세요. 열 표시를 사용자 지정하려면 **Columns**를 클릭하세요.
  * 기본적으로 헤더는 단일 수준으로 구성됩니다. 관련 헤더를 함께 묶으려면 헤더 깊이를 늘릴 수 있습니다.
  * 개별 열을 선택하거나 선택 해제해 표시하거나 숨길 수 있으며, 한 번의 클릭으로 모든 열을 표시하거나 숨길 수도 있습니다.
  * 고정된 열이 고정되지 않은 열보다 먼저 표시되도록 열을 고정할 수 있습니다.

<div id="export-a-leaderboard">
  ## 리더보드 내보내기
</div>

리더보드를 내보내려면 다음 단계를 따르세요.

1. **Columns** 버튼 근처에 있는 다운로드 아이콘을 클릭합니다.
2. 내보내기 크기를 줄이기 위해 W\&B는 기본적으로 트레이스 루트만 내보냅니다. 전체 트레이스를 내보내려면 **Trace roots only**를 끄세요.
3. 내보내기 크기를 줄이기 위해 W\&B는 기본적으로 피드백과 비용은 내보내지 않습니다. 내보내기에 포함하려면 **Feedback** 또는 **Costs**를 켜세요.
4. 기본적으로 JSONL 형식으로 내보냅니다. 형식을 사용자 지정하려면 **Export to file**을 클릭한 다음 형식을 선택하세요.
5. 브라우저에서 리더보드를 내보내려면 **Export**를 클릭하세요.
6. 리더보드를 프로그래밍 방식으로 내보내려면 **Python** 또는 **cURL**을 선택한 다음 **Copy**를 클릭하고 스크립트나 명령어를 실행하세요.

<div id="re-run-an-evaluation-job">
  ## 평가 작업 다시 실행
</div>

평가 작업이 완료된 후 동일한 설정이나 조정된 설정으로 다시 실행하거나, 해당 설정을 새 작업의 시작점으로 재사용할 수 있습니다. 상황에 따라 평가 작업을 다시 실행하거나 해당 설정을 확인하는 방법은 여러 가지가 있습니다.

* 마지막으로 실행한 평가 작업을 다시 실행하려면 [모델 평가하기](#evaluate-your-model)의 단계를 따르세요. 대상 프로젝트를 선택하면 이전에 선택한 모델 artifact 세부 정보와 벤치마크가 자동으로 채워집니다. 필요에 따라 조정한 다음 평가 작업을 Launch하세요.
* 프로젝트의 **Runs** 탭 또는 run selector에서 평가 작업을 다시 실행하려면 run 이름 위에 마우스를 올리고 **play** 아이콘을 클릭하세요. 설정이 미리 채워진 작업 설정 drawer가 표시됩니다. 필요에 따라 설정을 조정한 다음 **Launch**를 클릭하세요.
* 다른 프로젝트의 평가 작업을 다시 실행하려면 해당 설정을 임포트하세요:
  1. [모델 평가하기](#evaluate-your-model)의 단계를 따르세요. 대상 프로젝트를 선택한 후 **설정 임포트**를 클릭하세요.
  2. 임포트할 평가 작업이 있는 프로젝트를 선택한 다음 해당 평가 작업 run을 선택하세요. 설정이 미리 채워진 작업 설정 drawer가 표시됩니다.
  3. 필요에 따라 설정을 조정하세요.
  4. **Launch**를 클릭하세요.

<div id="export-an-evaluation-job-configuration">
  ## 평가 작업 설정 내보내기
</div>

재사용하거나 레퍼런스로 활용할 수 있도록 평가 작업의 `config.yaml` 로컬 복사본을 저장하려면 run의 **Files** 탭에서 설정을 내보내세요.

1. 단일 run 뷰에서 run을 엽니다.
2. run에서 **Files**를 선택합니다.
3. `config.yaml` 옆의 다운로드 버튼을 선택합니다.

<div id="example-prepare-a-model">
  ## 예시: 모델 준비하기
</div>

모델 체크포인트를 평가하려면 먼저 이를 VLLM 호환 형식으로 패키징한 뒤 W\&B Models에 아티팩트로 저장해야 합니다. 이 예제에서는 이를 수행하는 한 가지 방법을 보여줍니다:

```python lines theme={null}
import os
from transformers import AutoTokenizer, AutoModelForCausalLM

# 모델 로드
model_name = "your-model-name"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# vLLM 호환 형식으로 저장
save_dir = "path/to/save"
tokenizer.save_pretrained(save_dir)
model.save_pretrained(save_dir)

# W&B Models에 저장
import wandb
wandb_run = wandb.init(entity="your-entity-name", project="your-project-name")
artifact = wandb.Artifact(name="your-artifact-name")
artifact.add_dir(save_dir)
logged_artifact = wandb_run.log_artifact(artifact)
logged_artifact.wait()
wandb.finish()
```