오픈소스 언어 모델 포켓은 중국어 친화적이거나 중국 팀이 주로 개발한 모델에 중점을 둔 오픈소스 언어 모델의 큐레이션된 목록입니다. 이 리소스는 다양한 애플리케이션과 도메인을 포괄하는 사용 가능한 모델에 대한 포괄적인 개요를 제공하는 것을 목표로 합니다. 다양한 프로젝트에 오픈소스 언어 모델을 탐색하고 활용하려는 연구원, 개발자 및 애호가에게 귀중한 도구 역할을 합니다. 이 포켓 가이드는 빠르게 발전하는 AI 및 언어 모델 환경을 반영하기 위해 지속적으로 업데이트됩니다.
“ 범용 중국어 오픈소스 언어 모델
이 섹션에서는 중국어 친화적이거나 중국 팀이 개발한 범용 언어 모델을 강조합니다. 이러한 모델은 다양한 작업을 처리하도록 설계되었으며 일반 애플리케이션에 적합합니다. 예로는 Baichuan, Chinese LLaMA & Alpaca, Tongyi Qianwen Qwen 등이 있습니다. 이러한 모델은 종종 중국어와 영어를 모두 지원하며 광범위한 기능을 달성하기 위해 대규모 데이터 세트로 학습됩니다. 이 목록에는 ChatGLM, Skywork, Yi-6B/34B와 같은 모델도 포함되어 중국 오픈소스 커뮤니티의 다양성과 혁신을 보여줍니다. Qwen1.5 및 DeepSeek LLM과 같은 모델은 최첨단을 대표하며 다양한 자연어 처리 작업에 대한 향상된 성능과 기능을 제공합니다.
“ 의료 및 의학 중국어 LLM
이 섹션에서는 의료 및 의학 애플리케이션을 위해 특별히 설계된 언어 모델에 중점을 둡니다. 이러한 모델은 의료 지식 및 데이터로 학습되어 의료 도메인에서 정확하고 신뢰할 수 있는 정보를 제공합니다. 예로는 BenCao, HuaTuo, BianQue, Mingyi(MING)가 있습니다. 이러한 모델은 의료 질문 답변, 진단 지원 및 의료 텍스트 생성과 같은 작업을 수행할 수 있습니다. 이 섹션에는 전문 의료 상담을 위해 설계된 DoctorGLM 및 ChatMed와 같은 모델도 포함됩니다. Llama-3-8B-UltraMedical 및 ProLLM과 같은 모델의 포함은 이 중요한 영역에서 지속적인 발전을 강조합니다.
“ 금융 및 경제 중국어 LLM
이 섹션에서는 금융 및 경제 애플리케이션에 맞춰진 언어 모델을 나열합니다. 이러한 모델은 금융 데이터로 학습되었으며 금융 언어 및 개념을 이해하고 처리하도록 설계되었습니다. 예로는 PIXIU FinMA, XuanYuan, FinGLM이 있습니다. 이러한 모델은 금융 분석, 위험 평가 및 경제 예측과 같은 작업에 사용될 수 있습니다. Deepmoney 및 Cornucopia-LLaMA-Fin-Chinese와 같은 모델의 개발은 LLM을 금융 부문에 적용하는 데 대한 관심이 증가하고 있음을 보여줍니다.
“ 법률 중국어 LLM
이 섹션에서는 법률 애플리케이션을 위해 설계된 언어 모델을 소개합니다. 이러한 모델은 법률 텍스트로 학습되었으며 법률 언어를 이해하고 처리할 수 있습니다. 예로는 HanFei, Zhihai Luwen, ChatLaw가 있습니다. 이러한 모델은 법률 연구, 계약 분석 및 법률 문서 생성과 같은 작업에 도움이 될 수 있습니다. LaWGPT 및 Lawyer LLaMA와 같은 모델의 포함은 법률 분야에서 전문 LLM의 중요성을 강조합니다.
“ 교육 및 수학 중국어 LLM
이 섹션에서는 교육 및 수학에 중점을 둔 언어 모델을 강조합니다. 이러한 모델은 교육 자료 및 수학 데이터로 학습되어 학습 및 문제 해결을 지원합니다. 예로는 TaoLi, EduChat, InternLM-Math가 있습니다. 이러한 모델은 튜터링, 숙제 지원 및 수학적 추론과 같은 작업에 사용될 수 있습니다. DeepSeekMath 및 Qwen2-Math와 같은 모델의 개발은 AI 기반 교육 도구에 대한 수요 증가를 반영합니다.
“ 코드 및 프로그래밍 중국어 LLM
이 섹션에서는 코드 및 프로그래밍 관련 작업을 위해 설계된 언어 모델을 나열합니다. 이러한 모델은 코드 리포지토리 및 프로그래밍 설명서로 학습되어 코드 생성, 디버깅 및 소프트웨어 개발을 지원합니다. 예로는 CodeShell, DeepSeek Coder, Magicoder가 있습니다. 이러한 모델은 코드 완성, 버그 감지 및 코드 번역과 같은 작업에 사용될 수 있습니다. CodeQwen1.5 및 CodeGemma와 같은 모델은 AI 지원 코딩의 발전을 보여줍니다.
“ 기타 주목할 만한 오픈소스 모델
이 섹션에는 특정 애플리케이션 또는 고유한 기능으로 주목할 만한 다양한 기타 오픈소스 모델이 포함됩니다. 이러한 모델은 운송(TransGPT), 자체 미디어(MediaGPT) 및 고대 중국어(Erya)를 포함한 광범위한 도메인을 다룹니다. 이 섹션에는 중국 외부에서 개발된 Cerebras, MPT-7B, Dolly 1&2와 같은 모델도 포함되어 오픈소스 언어 모델 환경에 대한 더 넓은 관점을 제공합니다. Mistral 7B 및 Llama 3와 같은 모델은 이 분야에 상당한 기여를 합니다.
“ 학습 및 추론 리소스
이 섹션에서는 언어 모델의 학습 및 추론을 위한 리소스와 도구를 제공합니다. Alpaca-LoRA, ColossalAI, DeepSpeed-Chat과 같은 프레임워크 및 기술이 포함됩니다. 이러한 리소스는 개발자가 언어 모델을 효율적으로 미세 조정하고 배포하는 데 도움이 됩니다. 이 섹션에는 모델 성능을 개선하고 계산 비용을 줄이는 데 사용되는 DPO(Direct Preference Optimization) 및 QLoRA와 같은 방법도 포함됩니다. 최적화된 추론을 위해 llama.cpp 및 vLLM과 같은 도구도 나열됩니다.
“ 평가 벤치마크
이 섹션에서는 언어 모델의 성능을 평가하는 데 사용되는 평가 벤치마크를 나열합니다. 이러한 벤치마크는 다양한 작업에서 모델을 평가하기 위한 표준화된 메트릭을 제공합니다. 예로는 FlagEval, C-Eval, HaluEval이 있습니다. 이러한 벤치마크는 연구원과 개발자가 다양한 모델을 비교하고 이 분야의 진행 상황을 추적하는 데 도움이 됩니다. 이 섹션에는 특정 도메인을 위해 설계된 CMB(중국어 종합 의료 벤치마크) 및 Fin-Eva와 같은 벤치마크도 포함됩니다.
우리는 사이트 작동에 필수적인 쿠키를 사용합니다. 사이트를 개선하기 위해 방문자들의 사용 방식을 이해하고, 소셜 미디어 플랫폼에서의 트래픽을 측정하며, 개인화된 경험을 제공하는 데 도움이 되는 추가 쿠키를 사용하고자 합니다. 일부 쿠키는 제3자가 제공합니다. 모든 쿠키를 수락하려면 '수락'을 클릭하세요. 선택적 쿠키를 모두 거부하려면 '거부'를 클릭하세요.
댓글(0)