메인 콘텐츠로 건너뛰기

개요

Casibase는 ChatGPT로 구동되는 오픈 소스 도메인 지식 데이터베이스, 인스턴트 메시징 및 포럼 소프트웨어입니다.

Casibase 특징

  1. Golang으로 개발된 프론트엔드-백엔드 분리 아키텍처를 채택하여 Casibase는 고동시성을 지원하고, 웹 기반 관리 인터페이스를 제공하며, 다국어(중국어, 영어)를 지원합니다.

  2. Casibase는 GitHub, Google, QQ, WeChat 등의 타사 애플리케이션 로그인을 지원하며 플러그인을 통해 타사 로그인을 확장할 수 있습니다.

  3. 임베딩과 프롬프트 엔지니어링을 통한 지식 관리를 통해 Casibase는 사용자 정의 임베딩 방법 및 언어 모델을 지원합니다.

  4. Casibase는 데이터베이스 동기화를 통해 기존 시스템과의 통합을 가능하게 하여 사용자가 원활하게 Casibase로 전환할 수 있습니다.

  5. Casibase는 주요 데이터베이스인 MySQL, PostgreSQL, SQL Server 등을 지원하며 플러그인을 통해 새로운 데이터베이스를 확장할 수 있습니다.

  6. Casibase는 RDP, VNC 및 SSH 프로토콜을 통해 자산에 쉽게 연결할 수 있고 기계에 대한 원격 연결을 효율적으로 처리하는 강력한 자산 관리 도구입니다.

  7. Casibase의 보안 로깅 기능을 통해 원격 연결을 쉽게 추적하고 모니터링할 수 있으며, 연결 시작 시간, 지속 시간 및 기타 관련 세부 정보에 대한 자세한 기록을 제공하는 동시에 Casdoor 작업에 대한 API 로그를 캡처하고 분석하여 보안 및 운영 투명성을 향상시킵니다.

  8. Casibase는 데이터베이스 관리를 지원합니다. Casibase의 데이터베이스 관리 기능을 통해 데이터베이스를 쉽게 연결, 관리 및 구성하면서 액세스를 제어할 수 있어 데이터베이스 리소스에 대한 사용자 관리 및 권한 부여를 단순화합니다.

작동 방식

단계 0(사전 지식)

Casibase의 지식 검색 프로세스는 임베딩과 프롬프트 엔지니어링을 기반으로 하므로 임베딩이 어떻게 작동하는지에 대해 간략히 알아보는 것이 강력히 권장됩니다. 여기 임베딩에 대한 소개가 있습니다.

embedding

단계 1(지식 가져오기)

Casibase를 시작하기 위해 사용자는 다음 단계에 따라 지식을 가져오고 도메인별 지식 데이터베이스를 생성해야 합니다:

  1. 스토리지 구성: Casibase 대시보드에서 사용자는 먼저 스토리지 설정을 구성해야 합니다. 여기에는 문서, 이미지 또는 기타 관련 데이터와 같은 지식 관련 파일을 저장하는 데 사용되는 스토리지 시스템을 지정하는 것이 포함됩니다. 사용자는 자신의 선호도와 요구사항에 따라 다양한 스토리지 옵션 중에서 선택할 수 있습니다.

  2. 스토리지에 파일 업로드: 스토리지가 설정되면 사용자는 도메인별 지식이 포함된 파일을 구성된 스토리지 시스템에 업로드할 수 있습니다. 이러한 파일은 텍스트 문서, 이미지 또는 구조화된 데이터 파일(CSV나 JSON 같은)과 같은 다양한 형식일 수 있습니다.

  3. 지식 생성을 위한 임베딩 방법 선택: 파일을 업로드한 후, 사용자는 지식 및 해당 벡터를 생성하기 위한 임베딩 방법을 선택할 수 있습니다. 임베딩은 텍스트나 시각적 콘텐츠의 숫자적 표현으로, 효율적인 유사성 검색 및 데이터 분석을 가능하게 합니다.

지식은 어떻게 임베딩되나요?

  • 텍스트 데이터의 경우: 사용자는 Word2Vec, GloVe, BERT와 같은 다양한 임베딩 방법을 선택하여 텍스트 지식을 의미 있는 벡터로 변환할 수 있습니다.

  • 시각적 데이터의 경우: 업로드된 파일에 이미지나 시각적 콘텐츠가 포함된 경우, 사용자는 CNN 기반 특징 추출과 같은 이미지 임베딩 기술을 선택하여 대표적인 벡터를 생성할 수 있습니다.

  • 더 많은 방법이 곧 제공될 예정입니다...

이러한 단계를 따르면 사용자는 Casibase에서 효과적인 검색, 클러스터링 및 지식 검색에 사용될 관련 정보와 해당 임베딩으로 도메인별 지식 데이터베이스를 채울 수 있습니다. 임베딩 프로세스를 통해 시스템은 다양한 지식 조각 간의 컨텍스트와 관계를 이해할 수 있어, 더 효율적이고 통찰력 있는 지식 관리와 탐색이 가능해집니다.

단계 2(지식 검색)

도메인 지식을 가져온 후, Casibase는 이를 벡터로 변환하고 이러한 벡터를 벡터 데이터베이스에 저장합니다. 이러한 벡터 표현을 통해 유사성 검색관련 정보의 효율적인 검색과 같은 강력한 기능이 가능해집니다. 컨텍스트나 콘텐츠를 기반으로 관련 데이터를 빠르게 찾고, 고급 쿼리를 수행하며, 도메인 지식에서 가치 있는 통찰력을 발견할 수 있습니다.

단계 3(프롬프트 구축)

Casibase는 저장된 지식 벡터에 대해 유사성 검색을 수행하여 사용자 쿼리와 가장 일치하는 항목을 찾습니다. 검색 결과를 사용하여 특정 질문에 대한 응답을 구성하기 위해 언어 모델에 대한 프롬프트 템플릿을 생성합니다. 이를 통해 Casibase에 저장된 도메인 지식을 기반으로 정확하고 컨텍스트 관련 응답이 제공됩니다.

단계 4(목표 달성)

이 단계에서는 Casibase를 사용하여 필요한 지식을 성공적으로 얻었습니다. 도메인 지식을 벡터로 혁신적으로 변환하고 ChatGPT와 같은 강력한 언어 모델과 결합함으로써 Casibase는 귀하의 쿼리에 정확하고 관련성 있는 응답을 제공합니다. 이를 통해 Casibase에 저장된 특정 도메인 정보에 효율적으로 접근하고 활용할 수 있어, 귀하의 지식 요구사항을 쉽게 충족시킬 수 있습니다.

단계 5(선택적 미세 조정)

결과가 완전히 만족스럽지 않은 경우, 다음과 같은 방법으로 더 나은 결과를 얻을 수 있습니다:

  • 언어 모델 매개변수 조정

  • 여러 질문 제기

  • 원본 파일 최적화

이러한 미세 조정 옵션을 활용함으로써 Casibase에서의 지식 관리 효율성을 향상시키고, 시스템이 귀하의 목표에 더 잘 맞도록 하며, 더 정확하고 통찰력 있는 정보를 제공할 수 있습니다.

힌트

결과를 최적화하는 다른 방법(소스 코드 변경이 필요할 수 있음):

  • 임베딩 결과 업데이트: 도메인 지식의 임베딩을 조정하여 지식 표현을 개선합니다.

  • 프롬프트 템플릿 수정: 프롬프트를 사용자 정의함으로써 언어 모델로부터 더 정확한 응답을 얻을 수 있습니다.

  • 다양한 언어 모델 탐색: 다양한 모델을 시도하여 응답 생성 요구사항에 가장 적합한 모델을 찾습니다.

온라인 데모

읽기 전용 사이트(모든 수정 작업이 실패합니다)

쓰기 가능 사이트(원본 데이터가 5분마다 복원됩니다)

글로벌 관리자 로그인:

  • 사용자 이름: admin
  • 비밀번호: 123

아키텍처

Casibase는 2개 부분으로 구성됩니다:

이름설명언어소스 코드
프론트엔드Casibase 애플리케이션의 사용자 인터페이스자바스크립트 + 리액트https://github.com/casibase/casibase/tree/master/web
백엔드Casibase의 서버 측 로직 및 APIGolang + Beego + MySQLhttps://github.com/casibase/casibase

Architecture

지원되는 모델

언어 모델

모델하위 유형링크
오픈에이아이gpt-4-32k-0613, gpt-4-32k-0314, gpt-4-32k, gpt-4-0613, gpt-4-0314, gpt-4, gpt-3.5-turbo-0613, gpt-3.5-turbo-0301, gpt-3.5-turbo-16k, gpt-3.5-turbo-16k-0613, gpt-3.5-turbo, text-davinci-003, text-davinci-002, text-curie-001, text-babbage-001, text-ada-001, text-davinci-001, davinci-instruct-beta, davinci, curie-instruct-beta, curie, ada, babbage오픈에이아이
허깅 페이스메타-라마/라마-2-7b, tiiuae/falcon-180B, bigscience/bloom, gpt2, baichuan-inc/Baichuan2-13B-Chat, THUDM/챗GLM2-6b허깅페이스
클로드클로드-2, 클로드-v1, 클로드-v1-100k, 클로드-instant-v1, 클로드-instant-v1-100k, 클로드-v1.3, 클로드-v1.3-100k, 클로드-v1.2, 클로드-v1.0, 클로드-instant-v1.1, 클로드-instant-v1.1-100k, 클로드-instant-v1.0클로드
오픈라우터구글/팜-2-codechat-bison, 구글/팜-2-chat-bison, 오픈에이아이/gpt-3.5-turbo, 오픈에이아이/gpt-3.5-turbo-16k, 오픈에이아이/gpt-4, 오픈에이아이/gpt-4-32k, 앤트로픽/클로드-2, 앤트로픽/클로드-instant-v1, 메타-라마/라마-2-13b-chat, 메타-라마/라마-2-70b-chat, 팜-2-codechat-bison, 팜-2-chat-bison, gpt-3.5-turbo, gpt-3.5-turbo-16k, gpt-4, gpt-4-32k, 클로드-2, 클로드-instant-v1, 라마-2-13b-chat, 라마-2-70b-chat오픈라우터
어니어니-Bot, 어니-Bot-turbo, BLOOMZ-7B, 라마-2어니
아이플라이텍스파크-v1.5, 스파크-v2.0아이플라이텍
챗GLM챗GLM2-6b챗GLM
미니맥스abab5-챗미니맥스
로컬맞춤형-모델Local Computer

임베딩 모델

모델하위 유형링크
오픈에이아이Ada 유사도, Babbage 유사도, Curie 유사도, Davinci 유사도, Ada 문서검색, Ada 질의검색, Babbage 문서검색, Babbage 질의검색, Curie 문서검색, Curie 질의검색, Davinci 문서검색, Davinci 질의검색, Ada 코드검색 (코드), Ada 코드검색 (텍스트), Babbage 코드검색 (코드), Babbage 코드검색 (텍스트), Ada 임베딩V2오픈에이아이
허깅 페이스문장-트랜스포머/all-MiniLM-L6-v2허깅페이스
코히어임베드-영어-v2.0, 임베드-영어-라이트-v2.0, 임베드-다국어-v2.0코히어
어니기본어니
로컬맞춤형-임베딩Local Computer