2025.09.25 (목)

  • 맑음동두천 25.8℃
  • 구름조금강릉 27.3℃
  • 맑음서울 26.6℃
  • 구름많음대전 25.0℃
  • 흐림대구 22.6℃
  • 흐림울산 23.8℃
  • 구름많음광주 24.8℃
  • 흐림부산 27.2℃
  • 구름조금고창 25.2℃
  • 제주 24.5℃
  • 맑음강화 25.7℃
  • 구름많음보은 24.4℃
  • 구름많음금산 25.9℃
  • 구름많음강진군 26.3℃
  • 흐림경주시 22.1℃
  • 구름많음거제 25.3℃
기상청 제공

삼성전자, AI 업무 생산성 평가 지표 ‘트루벤치’ 공개

10개 카테고리·2,485개 항목 세밀 평가
글로벌 오픈소스 리더보드로 투명성 확보


삼성전자가 자체 개발한 AI 업무 생산성 벤치마크 ‘트루벤치(TRUEBench)’를 공개했다. 실제 오피스 환경을 반영한 세밀한 평가와 다국어 지원으로 기존 벤치마크의 한계를 보완한 것이 특징이다.


25일 삼성전자는 DX부문 선행 연구개발조직 삼성리서치가 사내 생성형 AI 적용 경험을 바탕으로 AI 업무 생산성을 측정하는 ‘트루벤치’를 개발·공개했다고 밝혔다.

 

기존 벤치마크가 영어 중심·단일 대화 평가에 그쳤던 한계를 넘어, 트루벤치는 10개 카테고리, 46개 업무, 총 2485개 세부 항목으로 구성돼 콘텐츠 생성, 데이터 분석, 번역, 연속 대화 등 실제 업무 활용도를 평가한다.

 

평가 결과는 한 번에 최대 5개 모델을 비교할 수 있으며, 응답 길이·효율성 지표 등 세부 데이터를 함께 제공한다. 영어·한국어·일본어·중국어·스페인어 등 12개 언어를 지원하며, 교차 언어 번역 기능 평가도 가능하다. 삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스에 데이터 샘플과 리더보드를 공개해 평가 결과를 투명하게 공유했다.

 

트루벤치는 AI를 활용한 교차 검증 방식을 도입해 평가 기준의 오류·편향을 최소화하고 일관성을 높였다.

 

전경훈 삼성리서치장은 “트루벤치는 실제 업무 환경에 적합한 생산성 평가 기준을 제시해 삼성전자의 AI 기술 리더십을 강화할 것”이라고 말했다.

 

[ 경기신문 = 오다경 기자 ]







배너


COVER STORY