> ## Documentation Index
> Fetch the complete documentation index at: https://wb-21fd5541-sdk-testing-latest.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Evaluation 벤치마크 카탈로그

> LLM Evaluation Jobs를 통해 제공되는 Evaluation 벤치마크를 살펴보세요


<Note>
  LLM 평가 작업은 [W\&B Multi-tenant Cloud](/ko/platform/hosting/hosting-options/multi_tenant_cloud)에서 **프리뷰** 기능으로 제공됩니다. 프리뷰 기간에는 컴퓨팅이 무료입니다. 자세한 내용은 [LLM Evaluation Jobs 가격](/ko/models/launch#pricing)을 참조하세요.
</Note>

이 페이지에는 [LLM Evaluation Jobs](/ko/models/launch)를 통해 사용 가능한 Evaluation 벤치마크가 범주별로 정리되어 있습니다. 이 페이지를 사용해 실행할 수 있는 벤치마크를 찾고, 해당 Task ID를 파악하고, 벤치마크에 추가 자격 증명이 필요한지 확인하세요.

일부 벤치마크에는 추가 자격 증명이 필요합니다. 팀 관리자는 팀 멤버가 평가 작업에서 벤치마크를 사용하기 전에 이러한 자격 증명을 [team-scoped secrets](/ko/platform/secrets#add-a-secret)로 추가해야 합니다.

* 벤치마크의 **OpenAI Scorer** 열에 `Yes`가 있으면 해당 벤치마크는 채점에 OpenAI 모델을 사용합니다. 조직 또는 팀 관리자는 OpenAI API 키를 팀 secret으로 추가해야 합니다. 이 요구 사항이 있는 벤치마크로 평가 작업을 설정할 때는 **Scorer API key** 필드에 해당 secret을 설정하세요.
* 벤치마크의 **제한된 HF 데이터셋** 열에 링크가 있으면 해당 벤치마크는 제한된 Hugging Face 데이터셋에 대한 액세스가 필요합니다. 조직 또는 팀 관리자는 Hugging Face에서 해당 데이터셋에 대한 액세스를 요청해야 합니다. 그런 다음 관리자가 Hugging Face 사용자 액세스 토큰을 생성하고, 해당 토큰으로 팀 secret을 구성합니다. 이 요구 사항이 있는 벤치마크를 설정할 때는 **Hugging Face Token** 필드에 해당 secret을 설정하세요.

<div id="knowledge">
  ## 지식
</div>

과학, 언어, 일반 추론 등 다양한 영역의 사실적 지식을 평가합니다.

| 평가                                                                                            | Task ID             | <div className="!w-[100px]">OpenAI Scorer</div> | 제한된 HF 데이터셋 | 설명                             |
| --------------------------------------------------------------------------------------------- | ------------------- | ----------------------------------------------- | ----------- | ------------------------------ |
| [BoolQ](https://github.com/google-research-datasets/boolean-questions)                        | `boolq`             |                                                 |             | 자연어 질의로 구성된 불리언 예/아니오 질문       |
| [GPQA Diamond](https://arxiv.org/abs/2311.12022)                                              | `gpqa_diamond`      |                                                 |             | 대학원 수준의 과학 문제(가장 품질이 높은 하위 집합) |
| [HLE](https://arxiv.org/abs/2501.14249)                                                       | `hle`               |                                                 | 예           | 인간 수준 평가 벤치마크                  |
| [Lingoly](https://arxiv.org/abs/2406.06196)                                                   | `lingoly`           |                                                 | 예           | 언어학 올림피아드 문제                   |
| [Lingoly Too](https://arxiv.org/abs/2503.02972)                                               | `lingoly_too`       |                                                 | 예           | 확장된 언어학 챌린지 문제                 |
| [MMIU](https://arxiv.org/abs/2408.02718)                                                      | `mmiu`              |                                                 |             | 대규모 멀티태스크 언어 이해 벤치마크           |
| [MMLU (0-shot)](https://github.com/hendrycks/test)                                            | `mmlu_0_shot`       |                                                 |             | 예시 없는 대규모 멀티태스크 언어 이해          |
| [MMLU (5-shot)](https://github.com/hendrycks/test)                                            | `mmlu_5_shot`       |                                                 |             | 예시 5개가 포함된 대규모 멀티태스크 언어 이해     |
| [MMLU-Pro](https://arxiv.org/abs/2406.01574)                                                  | `mmlu_pro`          |                                                 |             | MMLU의 더 어려운 버전                 |
| [ONET M6](https://github.com/UKGovernmentBEIS/inspect_evals/tree/main/src/inspect_evals/onet) | `onet_m6`           |                                                 |             | 직무 지식 벤치마크                     |
| [PAWS](https://github.com/google-research-datasets/paws)                                      | `paws`              |                                                 |             | 적대적 단어 치환 기반 패러프레이즈            |
| [SevenLLM MCQ (English)](https://arxiv.org/abs/2405.03446)                                    | `sevenllm_mcq_en`   |                                                 |             | 영어 객관식 문제                      |
| [SevenLLM MCQ (Chinese)](https://arxiv.org/abs/2405.03446)                                    | `sevenllm_mcq_zh`   |                                                 |             | 중국어 객관식 문제                     |
| [SevenLLM QA (English)](https://arxiv.org/abs/2405.03446)                                     | `sevenllm_qa_en`    |                                                 |             | 영어 질의응답                        |
| [SevenLLM QA (Chinese)](https://arxiv.org/abs/2405.03446)                                     | `sevenllm_qa_zh`    |                                                 |             | 중국어 질의응답                       |
| [SimpleQA](https://openai.com/index/introducing-simpleqa/)                                    | `simpleqa`          | 예                                               |             | 단순한 사실 기반 질의응답                 |
| [SimpleQA Verified](https://openai.com/index/introducing-simpleqa/)                           | `simpleqa_verified` |                                                 |             | 검증된 답변이 포함된 SimpleQA의 검증 하위 집합 |
| [WorldSense](https://github.com/facebookresearch/worldsense)                                  | `worldsense`        |                                                 |             | 세계 지식과 상식에 대한 이해를 평가           |

<div id="reasoning">
  ## 추론
</div>

논리적 사고, 문제 해결, 상식적 추론 능력을 평가합니다.

| 평가                                                                  | Task ID          | OpenAI Scorer | 제한된 HF 데이터셋 | 설명                                         |
| ------------------------------------------------------------------- | ---------------- | ------------- | ----------- | ------------------------------------------ |
| [AGIE AQUA-RAT](https://arxiv.org/abs/1705.04146)                   | `agie_aqua_rat`  |               |             | 풀이 근거를 포함한 대수 문제 질의응답                      |
| [AGIE LogiQA (English)](https://arxiv.org/abs/2007.08124)           | `agie_logiqa_en` |               |             | 영어 논리 추론 문제                                |
| [AGIE LSAT Analytical Reasoning](https://www.lsac.org/)             | `agie_lsat_ar`   |               |             | LSAT 분석적 추론(로직 게임) 문제                      |
| [AGIE LSAT Logical Reasoning](https://www.lsac.org/)                | `agie_lsat_lr`   |               |             | LSAT 논리 추론 문제                              |
| [ARC Challenge](https://huggingface.co/datasets/allenai/ai2_arc)    | `arc_challenge`  |               |             | 추론이 필요한 어려운 과학 문제(AI2 Reasoning Challenge) |
| [ARC Easy](https://huggingface.co/datasets/allenai/ai2_arc)         | `arc_easy`       |               |             | ARC 데이터셋의 비교적 쉬운 과학 문제 모음                  |
| [BBH](https://github.com/suzgunmirac/BIG-Bench-Hard)                | `bbh`            |               |             | BIG-Bench Hard: BIG-Bench의 어려운 작업          |
| [CoCoNot](https://arxiv.org/abs/2310.03697)                         | `coconot`        |               |             | 반사실적 상식 추론 벤치마크                            |
| [CommonsenseQA](https://huggingface.co/datasets/tau/commonsense_qa) | `commonsense_qa` |               |             | 상식 추론 문제                                   |
| [HellaSwag](https://arxiv.org/abs/1905.07830)                       | `hellaswag`      |               |             | 상식 기반 자연어 추론                               |
| [MUSR](https://arxiv.org/abs/2310.16049)                            | `musr`           |               |             | 다단계 추론 벤치마크                                |
| [PIQA](https://yonatanbisk.com/piqa/)                               | `piqa`           |               |             | 물리 상식 추론                                   |
| [WinoGrande](https://winogrande.allenai.org/)                       | `winogrande`     |               |             | 대명사 해소를 통한 상식 추론                           |

<div id="math">
  ## 수학
</div>

초등 수준부터 경시대회 수준까지, 다양한 난이도의 수학 문제 해결 능력을 평가합니다.

| 평가                                                                                      | Task ID                    | OpenAI Scorer | 제한된 HF 데이터셋 | 설명                                                     |
| --------------------------------------------------------------------------------------- | -------------------------- | ------------- | ----------- | ------------------------------------------------------ |
| [AGIE Math](https://arxiv.org/abs/2410.12211)                                           | `agie_math`                |               |             | AGIE 벤치마크 모음의 고급 수학 추론                                 |
| [AGIE SAT Math](https://satsuite.collegeboard.org/sat)                                  | `agie_sat_math`            |               |             | SAT 수학 문제                                              |
| [AIME 2024](https://artofproblemsolving.com/wiki/index.php/AIME_Problems_and_Solutions) | `aime2024`                 |               |             | 2024년 American Invitational Mathematics Examination 문제 |
| [AIME 2025](https://artofproblemsolving.com/wiki/index.php/AIME_Problems_and_Solutions) | `aime2025`                 |               |             | 2025년 American Invitational Mathematics Examination 문제 |
| [GSM8K](https://github.com/openai/grade-school-math)                                    | `gsm8k`                    |               |             | Grade School Math 8K: 여러 step으로 이루어진 수학 문장제 문제         |
| [InfiniteBench Math Calc](https://arxiv.org/abs/2402.13718)                             | `infinite_bench_math_calc` |               |             | 긴 문맥에서의 수학 계산                                          |
| [InfiniteBench Math Find](https://arxiv.org/abs/2402.13718)                             | `infinite_bench_math_find` |               |             | 긴 문맥에서 수학적 패턴 찾기                                       |
| [MATH](https://github.com/hendrycks/math)                                               | `math`                     |               |             | 경시대회 수준의 수학 문제                                         |
| [MGSM](https://github.com/google-research/url-nlp/tree/main/mgsm)                       | `mgsm`                     |               |             | 다국어 Grade School Math                                  |

<div id="code">
  ## 코드
</div>

디버깅, 코드 실행 예측, 함수 호출 등 프로그래밍 및 소프트웨어 개발 역량을 평가합니다.

| 평가                                                                                         | Task ID                     | OpenAI Scorer | 제한된 HF 데이터셋 | 설명                                                              |
| ------------------------------------------------------------------------------------------ | --------------------------- | ------------- | ----------- | --------------------------------------------------------------- |
| [BFCL](https://gorilla.cs.berkeley.edu/blogs/8_berkeley_function_calling_leaderboard.html) | `bfcl`                      |               |             | Berkeley Function Calling Leaderboard: 함수 호출 및 도구 사용 역량을 테스트합니다 |
| [InfiniteBench Code Debug](https://arxiv.org/abs/2402.13718)                               | `infinite_bench_code_debug` |               |             | 긴 컨텍스트 코드 디버깅 작업                                                |
| [InfiniteBench Code Run](https://arxiv.org/abs/2402.13718)                                 | `infinite_bench_code_run`   |               |             | 긴 컨텍스트 코드 실행 예측                                                 |

<div id="reading">
  ## 읽기
</div>

복잡한 텍스트의 독해력과 정보 추출 능력을 평가합니다.

| Evaluation                                                                                                  | Task ID                       | OpenAI Scorer | 제한된 HF 데이터셋 | 설명                                         |
| ----------------------------------------------------------------------------------------------------------- | ----------------------------- | ------------- | ----------- | ------------------------------------------ |
| [AGIE LSAT Reading Comprehension](https://www.lsac.org/)                                                    | `agie_lsat_rc`                |               |             | LSAT 독해 지문과 문제                             |
| [AGIE SAT English](https://satsuite.collegeboard.org/sat)                                                   | `agie_sat_en`                 |               |             | 지문이 포함된 SAT 읽기 및 쓰기 문제                     |
| [AGIE SAT English (No Passage)](https://satsuite.collegeboard.org/sat)                                      | `agie_sat_en_without_passage` |               |             | 지문 없이 제공되는 SAT 영어 문제                       |
| [DROP](https://github.com/allenai/allennlp-reading-comprehension/blob/master/allennlp_rc/eval/drop_eval.py) | `drop`                        |               |             | 문단 기반 이산 추론: 수치 추론이 필요한 독해                 |
| [RACE-H](https://www.cs.cmu.edu/~glai1/data/race/)                                                          | `race_h`                      |               |             | 영어 시험 기반 독해 문제(고난도)                        |
| [SQuAD](https://rajpurkar.github.io/SQuAD-explorer/)                                                        | `squad`                       |               |             | Stanford 질문 답변 데이터셋: 위키백과 문서에 대한 추출형 질문 답변 |

<div id="long-context">
  ## 긴 컨텍스트
</div>

검색과 패턴 인식을 포함해, 긴 컨텍스트를 처리하고 그 위에서 추론하는 능력을 평가합니다.

| Evaluation                                                                  | Task ID                              | OpenAI Scorer | 제한된 HF 데이터셋 | 설명                          |
| --------------------------------------------------------------------------- | ------------------------------------ | ------------- | ----------- | --------------------------- |
| [InfiniteBench KV Retrieval](https://arxiv.org/abs/2402.13718)              | `infinite_bench_kv_retrieval`        |               |             | 긴 컨텍스트에서 키-값 검색             |
| [InfiniteBench LongBook (English)](https://arxiv.org/abs/2402.13718)        | `infinite_bench_longbook_choice_eng` |               |             | 긴 분량의 책에 대한 객관식 질문          |
| [InfiniteBench LongDialogue QA (English)](https://arxiv.org/abs/2402.13718) | `infinite_bench_longdialogue_qa_eng` |               |             | 긴 대화를 대상으로 한 질의응답           |
| [InfiniteBench Number String](https://arxiv.org/abs/2402.13718)             | `infinite_bench_number_string`       |               |             | 긴 시퀀스에서 숫자 패턴 인식            |
| [InfiniteBench Passkey](https://arxiv.org/abs/2402.13718)                   | `infinite_bench_passkey`             |               |             | 긴 컨텍스트에서 정보 검색              |
| [NIAH](https://arxiv.org/abs/2406.07230)                                    | `niah`                               |               |             | 건초더미에서 바늘 찾기: 긴 컨텍스트 검색 테스트 |

<div id="safety">
  ## 안전
</div>

정렬, 편향 탐지, 유해 콘텐츠에 대한 저항성, 진실성을 평가합니다.

| 평가                                                                                                           | Task ID                         | OpenAI Scorer | 제한된 HF 데이터셋 | 설명                                                   |
| ------------------------------------------------------------------------------------------------------------ | ------------------------------- | ------------- | ----------- | ---------------------------------------------------- |
| [AgentHarm](https://arxiv.org/abs/2410.09024)                                                                | `agentharm`                     | 예             |             | 유해한 에이전트 행동 및 오용 시나리오에 대한 모델의 저항성을 테스트합니다            |
| [AgentHarm Benign](https://arxiv.org/abs/2410.09024)                                                         | `agentharm_benign`              | 예             |             | 거짓 양성 비율을 측정하기 위한 AgentHarm의 무해한 기준선입니다              |
| [Agentic Misalignment](https://arxiv.org/abs/2510.05179)                                                     | `agentic_misalignment`          |               |             | 에이전트적 행동에서 발생할 수 있는 정렬 불일치 가능성을 평가합니다                |
| [AHB](https://arxiv.org/abs/2503.04804)                                                                      | `ahb`                           |               |             | Agent Harmful Behavior: 유해한 에이전트적 행동에 대한 저항성을 테스트합니다 |
| [AIRBench](https://arxiv.org/abs/2410.02407)                                                                 | `air_bench`                     |               |             | 적대적 지시문에 대한 저항성을 테스트합니다                              |
| [BBEH](https://arxiv.org/abs/2502.19187)                                                                     | `bbeh`                          |               |             | 유해한 행동을 평가하기 위한 편향 벤치마크                              |
| [BBEH Mini](https://arxiv.org/abs/2502.19187)                                                                | `bbeh_mini`                     |               |             | BBEH 벤치마크의 소규모 버전                                    |
| [BBQ](https://arxiv.org/abs/2110.08193)                                                                      | `bbq`                           |               |             | Question Answering을 위한 편향 벤치마크                       |
| [BOLD](https://arxiv.org/abs/2101.11718)                                                                     | `bold`                          |               |             | 개방형 언어 생성 데이터셋의 편향                                   |
| [CYSE3 Visual Prompt Injection](https://arxiv.org/abs/2408.01605)                                            | `cyse3_visual_prompt_injection` |               |             | 시각적 프롬프트 인젝션 공격에 대한 저항성을 테스트합니다                      |
| [Make Me Pay](https://arxiv.org/abs/2410.08691)                                                              | `make_me_pay`                   |               |             | 금융 사기 및 사기 시나리오에 대한 저항성을 테스트합니다                      |
| [MASK](https://arxiv.org/abs/2503.03750)                                                                     | `mask`                          | 예             | 예           | 민감한 정보를 모델이 처리하는 방식을 테스트합니다                          |
| [Personality BFI](https://github.com/UKGovernmentBEIS/inspect_evals/tree/main/src/inspect_evals/personality) | `personality_BFI`               |               |             | Big Five 성격 특성 평가                                    |
| [Personality TRAIT](https://arxiv.org/abs/2406.14703)                                                        | `personality_TRAIT`             |               | 예           | 포괄적인 성격 특성 평가                                        |
| SOSBench                                                                                                     | `sosbench`                      | 예             |             | 안전성과 감독에 대한 스트레스 테스트                                 |
| [StereoSet](https://github.com/moinnadeem/StereoSet)                                                         | `stereoset`                     |               |             | 언어 모델의 고정관념적 편향을 측정합니다                               |
| [StrongREJECT](https://arxiv.org/abs/2402.10260)                                                             | `strong_reject`                 |               |             | 유해한 요청을 거부하는 모델의 능력을 테스트합니다                          |
| [Sycophancy](https://arxiv.org/abs/2310.13548)                                                               | `sycophancy`                    |               |             | 아첨하는 경향을 평가합니다                                       |
| [TruthfulQA](https://github.com/sylinrl/TruthfulQA)                                                          | `truthfulqa`                    |               |             | 모델의 진실성과 거짓 정보에 대한 저항성을 테스트합니다                       |
| [UCCB](https://huggingface.co/datasets/CraneAILabs/UCCB)                                                     | `uccb`                          |               |             | 유해 콘텐츠 분류 벤치마크                                       |
| [WMDP Bio](https://www.wmdp.ai/)                                                                             | `wmdp_bio`                      |               |             | 생물학 분야의 위험한 지식을 테스트합니다                               |
| [WMDP Chem](https://www.wmdp.ai/)                                                                            | `wmdp_chem`                     |               |             | 화학 분야의 위험한 지식을 테스트합니다                                |
| [WMDP Cyber](https://www.wmdp.ai/)                                                                           | `wmdp_cyber`                    |               |             | 사이버 보안 분야의 위험한 지식을 테스트합니다                            |
| [XSTest](https://arxiv.org/abs/2308.01263)                                                                   | `xstest`                        | 예             |             | 과도한 거부 탐지를 위한 과장된 안전성 테스트                            |

<div id="domain-specific">
  ## 도메인 특화
</div>

의학, 화학, 법률, 생물학 및 기타 전문 분야의 전문 지식을 평가합니다.

| 평가                                                             | Task ID                       | OpenAI Scorer | 제한된 HF 데이터셋 | 설명                       |
| -------------------------------------------------------------- | ----------------------------- | ------------- | ----------- | ------------------------ |
| [ChemBench](https://arxiv.org/abs/2404.01475)                  | `chembench`                   |               |             | 화학 지식 및 문제 해결 벤치마크       |
| [HealthBench](https://arxiv.org/abs/2406.09746)                | `healthbench`                 | Yes           |             | 헬스케어 및 의학 지식 평가          |
| [HealthBench Consensus](https://arxiv.org/abs/2406.09746)      | `healthbench_consensus`       | Yes           |             | 전문가 합의가 반영된 헬스케어 질문      |
| [HealthBench Hard](https://arxiv.org/abs/2406.09746)           | `healthbench_hard`            | Yes           |             | 까다로운 헬스케어 시나리오           |
| [LabBench Cloning Scenarios](https://arxiv.org/abs/2407.10362) | `lab_bench_cloning_scenarios` |               |             | 실험실 실험 계획 및 클로닝          |
| [LabBench DBQA](https://arxiv.org/abs/2407.10362)              | `lab_bench_dbqa`              |               |             | 실험실 시나리오를 위한 데이터베이스 질의응답 |
| [LabBench FigQA](https://arxiv.org/abs/2407.10362)             | `lab_bench_figqa`             |               |             | 과학적 맥락에서의 그림 해석          |
| [LabBench LitQA](https://arxiv.org/abs/2407.10362)             | `lab_bench_litqa`             |               |             | 연구용 문헌 기반 질의응답           |
| [LabBench ProtocolQA](https://arxiv.org/abs/2407.10362)        | `lab_bench_protocolqa`        |               |             | 실험실 프로토콜 이해              |
| [LabBench SeqQA](https://arxiv.org/abs/2407.10362)             | `lab_bench_seqqa`             |               |             | 생물학적 서열 분석 질문            |
| [LabBench SuppQA](https://arxiv.org/abs/2407.10362)            | `lab_bench_suppqa`            |               |             | 보충 자료 해석                 |
| [LabBench TableQA](https://arxiv.org/abs/2407.10362)           | `lab_bench_tableqa`           |               |             | 과학 논문의 표 해석              |
| [MedQA](https://github.com/jind11/MedQA)                       | `medqa`                       |               |             | 의사 면허 시험 문제              |
| [PubMedQA](https://pubmedqa.github.io/)                        | `pubmedqa`                    |               |             | 연구 초록 기반 생의학 질의응답        |
| [SEC-QA v1](https://arxiv.org/abs/2406.14806)                  | `sec_qa_v1`                   |               |             | SEC 공시 문서 질의응답           |
| [SEC-QA v1 (5-shot)](https://arxiv.org/abs/2406.14806)         | `sec_qa_v1_5_shot`            |               |             | 예시 5개를 사용한 SEC-QA        |
| [SEC-QA v2](https://arxiv.org/abs/2406.14806)                  | `sec_qa_v2`                   |               |             | 업데이트된 SEC 공시 문서 벤치마크     |
| [SEC-QA v2 (5-shot)](https://arxiv.org/abs/2406.14806)         | `sec_qa_v2_5_shot`            |               |             | 예시 5개를 사용한 SEC-QA v2     |

<div id="multimodal">
  ## 멀티모달
</div>

시각적 입력과 텍스트 입력을 결합해 비전 및 언어 이해를 평가합니다.

| 평가                                                                      | Task ID                                      | OpenAI Scorer | 제한된 HF 데이터셋 | 설명                            |
| ----------------------------------------------------------------------- | -------------------------------------------- | ------------- | ----------- | ----------------------------- |
| [DocVQA](https://www.docvqa.org/)                                       | `docvqa`                                     |               |             | 문서 이미지에 대한 질문에 답하는 문서 시각 질의응답 |
| [MathVista](https://mathvista.github.io/)                               | `mathvista`                                  |               |             | 비전과 수학을 결합한 시각적 맥락에서의 수학적 추론  |
| [MMMU Multiple Choice](https://mmmu-benchmark.github.io/)               | `mmmu_multiple_choice`                       |               |             | 객관식 형식의 멀티모달 이해               |
| [MMMU Open](https://mmmu-benchmark.github.io/)                          | `mmmu_open`                                  |               |             | 개방형 응답 형식의 멀티모달 이해            |
| [V\*Star Bench Attribute Recognition](https://arxiv.org/abs/2411.10006) | `vstar_bench_attribute_recognition`          |               |             | 시각적 속성 인식 작업                  |
| [V\*Star Bench Spatial Relationship](https://arxiv.org/abs/2411.10006)  | `vstar_bench_spatial_relationship_reasoning` |               |             | 시각적 입력을 활용한 공간 추론             |

<div id="instruction-following">
  ## 지시사항 준수
</div>

특정 지시사항과 형식 요구사항 준수 여부를 평가합니다.

| 평가                                         | Task ID  | OpenAI Scorer | 제한된 HF 데이터셋 | 설명                     |
| ------------------------------------------ | -------- | ------------- | ----------- | ---------------------- |
| [IFEval](https://arxiv.org/abs/2311.07911) | `ifeval` |               |             | 정확한 지시사항 준수 능력을 테스트합니다 |

<div id="system">
  ## 시스템
</div>

기본 시스템 검증 및 사전 점검.

| 평가                                                              | Task ID      | OpenAI Scorer | 제한된 HF 데이터셋 | 설명                 |
| --------------------------------------------------------------- | ------------ | ------------- | ----------- | ------------------ |
| [Pre-Flight](https://github.com/UKGovernmentBEIS/inspect_evals) | `pre_flight` |               |             | 기본 시스템 점검 및 검증 테스트 |

<div id="next-steps">
  ## 다음 단계
</div>

* [모델 체크포인트 평가하기](/ko/models/launch/evaluate-model-checkpoint)
* [호스팅된 API 모델 평가하기](/ko/models/launch/evaluate-hosted-model)
* [AISI Inspect Evals](https://inspect.aisi.org.uk/evals/)에서 특정 벤치마크의 세부 정보 보기