문서 검색 모델 최적화하기

이제 문서 검색 AI 모델 트레이닝을 위한 트레이닝 데이터를 직접 업로드할 수 있습니다 (문서 검색과 지식 베이스에 대한 일반적인 내용은 해당 유저 가이드를 참고하세요). 아래에서 자세한 내용을 알아보겠습니다.

AI 모델 트레이닝이란?

Alli는 문서에서 질문에 대한 답을 추출하기 위해 사전에 미리 훈련된 AI 모델을 사용합니다. 이에 추가로 특정 산업 도메인(금융, 보험 등), 혹은 특정 기업/조적에서 사용되는 데이터를 학습시키면 문서 검색 결과가 더욱 정확해지게 되는데요, 아래는 예시를 위해 단 한개의 트레이닝 데이터를 입력한 전/후의 문서 검색 결과 비교입니다.

트레이닝 이전
트레이닝 이후

물론 더 많은 데이터를 추가하면 더욱 좋은 결과를 예상할 수 있습니다.

AI 모델 관리

AI 모델 및 데이터를 관리하시려면 지식 베이스 > 문서 메뉴로 이동한 후, 좌측 상단의 톱니바퀴 모양 설정 버튼을 클릭해주세요.

AI 모델 및 데이터 관리 버튼

‘모델’ 탭에서는 현재 사용 중인 모델을 포함, 트레이닝된 이력이 있는 모델들을 확인할 수 있습니다. 이 곳에서는, 트레이닝된 모델의 정량적/정성적인 성능을 확인하고, 해당 모델을 적용하거나 삭제하실 수 있습니다. 이름이나 부연 설명을 수정하는 것도 가능합니다.

모델 상세 내역 확인

우선 성능 확인 방법에 대해 알아보겠습니다. 답변 정확도, 문서 적중 정확도를 통해 모델의 정량적인 성능을 확인하실 수 있습니다. 두 지표는 모두, 트레이닝이 완료된 시점에, 미리 입력된 테스트 데이터(질문, 답변이 포함된 문서, 답변 세트)를 기반으로 계산됩니다. 테스트 데이터가 없을 경우 계산이 되지 않습니다. 테스트 데이터를 입력하는 방법에 대해서는 아래 ‘테스트 데이터 관리’ 단락을 참고해주세요.

  • 답변 정확도 = (현재 모델이 검색한 상위 5개 답변 내에 정답이 존재하는 테스트 데이터의 수) / (답변이 입력된 전체 테스트 데이터의 수) 로, ‘AI 모델의 답변 검색 결과가 정답을 얼마나 잘 찾는가’를 나타냅니다.
  • 문서 적중 정확도 = (현재 모델이 검색한 상위 5개 답변 내에 ‘정답이 포함된 문서’가 존재하는 테스트 데이터의 수) / (‘정답이 포함된 문서’가 입력된 전체 테스트 데이터의 수)로, ‘AI 모델의 답변 검색 결과가 ‘정답이 포함된 문서’를 얼마나 잘 찾는가’를 나타냅니다.

정성적인 성능은 두 지표 옆에 있는 ‘현재 모델의 테스트 데이터 검색 결과’ 버튼을 눌러서 확인하실 수 있습니다. 여기서는 테스트 데이터로 등록된 질문 별 실제 모델이 검색한 결과를 볼 수 있고, 입력한 정답이 강조표기되어있어서 기대 결과와 실제 결과를 비교해볼 수 있습니다.

성능 확인이 끝났다면, ‘적용’ 버튼을 눌러서 해당 AI 모델을 문서 검색에 사용하실 수 있습니다. 과거의 모델을 다시 적용하는 것도 당연히 가능합니다.

모델 이름을 수정하거나, 부연 설명을 추가/수정하고 싶으시면 연필 모양의 ‘모델 수정하기’ 아이콘을 눌러서 수정해주세요. 유지하실 수 있는 총 모델의 개수는, Enterprise 플랜 5개, Custom 플랜 10개이므로, 사용하지 않는 모델은 ‘삭제하기’ 버튼을 눌러 삭제해주세요. 삭제된 모델은 복구되지 않습니다.

트레이닝 데이터 관리

트레이닝 데이터 관리 메뉴 위치

여기에서 직접 트레이닝 데이터를 입력, 수정 및 삭제할 수 있습니다. 또한 다수의 트레이닝 데이터를 한꺼번에 업로드하거나, 이미 등록한 테스트 데이터에서 트레이닝 데이터를 불러올 수 있습니다.

*트레이닝 데이터의 질문/문서 제목 항목 쌍은 고유한 값이어야 합니다. 즉, 트레이닝 데이터 내에 동일한 질문/문서 제목 쌍은 두개 이상 존재할 수 없습니다.

트레이닝 데이터 관리 화면

질문과 문서 제목을 입력했다면, 답변을 선택적으로 추가할 수 있습니다. 답변은 입력한 문서 내에서 검색후 선택하는 과정을 거쳐 추가되기 때문에, 이미 문서가 지식 베이스에 업로드되어있는 경우에만 입력가능합니다. 질문, 문서 제목만 입력되어있는 경우보다, 질문, 문서 제목, 답변이 입력되어있는 경우가 더 성능이 뛰어난 모델을 만들 수 있다는 점을 참고해주세요.

업로드하는 파일에는 Question, Document Title 열이 존재해야 합니다. 업로드 창에서 파일 샘플을 다운로드할 수 있습니다. 업로드가 완료되면 필요한 항목이 누락되어 업로드되지 않은 항목들이 아래와 같이 표시됩니다. 또한, 답변 선택은 업로드를 통해 이루어질 수 없기 때문에, 추가로 ‘트레이닝 데이터’ 탭에서 각 질문에 해당하는 답변을 추가하는 과정을 거쳐야합니다.

업로드 실패 항목 정보창

미답변 탭에서 트레이닝 데이터를 추가할 수도 있습니다. 질문만 존재하거나 문서가 업로드 되어있지 않은 항목은 트레이닝 데이터로 추가할 수 없는 점 기억하시기 바랍니다.

미답변 탭에서 트레이닝 데이터 추가하기‌

테스트 데이터 관리

테스트 데이터 관리 화면

테스트 데이터도 트레이닝 데이터와 같은 방식으로 추가/업로드가 가능합니다. (질문, 문서 제목, 답변(Optional))의 데이터 세트를 직접 추가하거나, 업로드하거나, 트레이닝 데이터에서 불러와서 추가하실 수 있습니다. 테스트 데이터는 AI 모델의 품질 향상에 직접적으로 기여하지는 않습니다만, 트레이닝된 모델의 품질을 정성/정량적으로 측정할 때에 사용됩니다. 위 ‘모델 관리’ 항목을 참고해주세요. 단, 테스트 데이터는 총 100 건까지만 등록이 가능합니다.

AI 모델 트레이닝

트레이닝 및 테스트 데이터가 등록되고 나면 모델을 트레이닝해야 합니다. 문서 탭 우측 상단의 ‘문서 트레이닝’ 버튼을 클릭하시면 됩니다.

트레이닝 진행중 화면

트레이닝 완료에는 시간이 걸리므로 그동안 다른 작업을 할 수 있습니다. 트레이닝이 종료되면 ‘트레이닝 진행 중’ 텍스트가 다시 ‘AI 모델 관리’ 로 변경됩니다. 모델 트레이닝이 완료되고 나면 관련 검색을 진행해 트레이닝이 적절히 진행되었는지 확인하세요.

모델 트레이닝 설정

모델 트레이닝과 관련된 설정을 변경할 수 있는 설정 메뉴도 함께 추가되었습니다. 문서 탭에서 문서 검색 설정 아이콘을 클릭하고 ‘모델 트레이닝 설정’ 탭을 선택하면 됩니다.

모델 트레이닝 설정 위치

각각의 설정 항목에 대한 간략한 설명입니다 (툴팁에서도 확인할 수 있습니다).

  • 검색에 문서 제목 고려: 켜져있는 경우 문서 검색 시 문서의 제목(파일명)을 함께 고려하여 검색합니다.
  • 문서 제목 영향도: 본 설정은 문서의 제목이 검색 결과에 얼마나 영향을 미칠지 결정합니다. ‘검색에 문서 제목 고려’ 설정이 켜져있을 때 작동합니다.
  • 문서당 최대 답변 후보 수: 동일한 문서에서 최대 몇개까지의 결과를 추출할지 결정합니다. 0인 경우 무제한으로 설정됩니다.
  • 유사 검색 결과 제거: 문서 검색 결과 중 유사한 결과를 보여주지 않도록 설정합니다. 유사한 결과 전체, 혹은 같은 해시태그를 가진 결과만, 혹은 같은 문서에서 추출된 결과만 보여주지 않도록 설정할 수 있습니다.

검색 결과에 대한 고객 및 에이전트 피드백, 혹은 지식 베이스의 학습 메뉴를 이용해 검색 결과를 최적화할 수도 있습니다. 관련 내용은 아래 유저 가이드를 참고하세요.

모델 트레이닝을 통해 문서 검색 결과를 최적화하는 방법을 소개해 드렸습니다. 문서 검색 및 지식 베이스 전반에 대한 내용은 아래 유저 가이드를 참고하세요.