N 36 21 22
E 127 23 46
Archive vol. 01
Depth0000mSURFACE
Research Note / Technical Document

TruLens

현재 Survey 논문을 읽고 있는데 해당 내용이 이해가 안가서 설명 형식으로 이어나갈 예정.

일단 논문 내용 정리부터.

TruLens 자체는 TruEra1에서 개발했고, LLM에 대한 개발 평과 및 모니터링하기 위한 오픈 소스 툴킷입니다.

해당 기능의 핵심은 사전 정의된 표준과 출력을 비교하여 품질을 보장하는 TruLens-Eval.

기능

  1. LLM을 통합하고 입력 및 출력의 로깅 기록 지원

  2. 관련성 모델 OR 보조 모델을 활용하는 피드백 기능을 사용하여 RAG traid에 대한 평가를 수행한다.

이런 평가를 수행할 때, invoked from various providers, 즉 다양한 ..제공업체?로부터 호출되어진다.

예시를 들면 근거성을 판단할 때는 OpenAI API를 사용하여 LLM을 호출한다. 아니면 Huggin FACE에서 NLI 모델을 사용한다.

또한 py를 통해 사용자 정의에 맞는 피드백 함수를 사용가능하다.

-> 이런 모든 기능들은 리더보드에서 시각화를 수행할 수 있다.

그럼 여기서 궁금증은 LLM을 통합하고?? <- 이걸 어떻게 통합하겠다는 거지?

약간 느낌이.. LLM을 평가 대상이자, 평가 도구로 활용할 수 있도록 인터페이스를 제공하겠다느 느낌?

TurLens에서는

  1. 평가 대상(Traget LLM)

  2. 평가자 (Judge LLM)

  3. 인프라 추상화(Provider abstraction)

으로 LLM을 플러그인처럼 끼워 넣을 수 있는 평가 프레임워크처럼 사용한다.

실제 대시보드의 모습.

그러니까 약간 이 툴은 RAG 검증이나, LLM을 검증할 때 따른 API들을 불러서 사용할 수도 있고 아니면 내가 만든 py로 피드백 함수를 줄 수도 있고. 그런 것들을 통해서 대시보드를 활용해 품질 및 점수들을 보면서 LLM을 튜닝할 수 있도록 만드는 툴? 그런 느낌이다.

https://lablab.ai/ai-tutorials/trulens-tutorial-langchain-chatbot

[Evaluate and Improve your Chatbots with TruLens Tutorial

A guide on how to evaluate and track LLM Applications

lablab.ai](https://lablab.ai/ai-tutorials/trulens-tutorial-langchain-chatbot)