详情介绍
LMSYS Org并非一家商业公司,而是一个由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学的学生与教职员工共同发起的非营利性开源研究团体。名称“LMSYS”是“Large Model Systems”的缩写,清晰地表明了它的研究焦点:围绕大型模型(如大语言模型)构建完整的系统生态。它的核心使命是通过开放和协作,降低大模型的研究和使用门槛。它的大部分成果,包括数据集、模型权重、训练和评估工具,都以开源的形式发布,供的研究者和开发者免费。它的工作连接了学术界和产业界,不仅推动了技术本身的进步,也为整个AI社区建立了一套客观评估模型能力的“度量衡”。
官网入口地址
LMSYS Org的所有项目和研究成果都可以从官方网站和GitHub页面找到入口。
-
官网入口网址:https://lmsys.org
-
主要开源项目(如FastChat)GitHub地址:https://github.com/lm-sys/FastChat
下载地址
LMSYS Org的项目是开源的,因此没有统一的“下载”地址,需要根据你想使用的具体项目去获取:
-
Vicuna模型权重:需要从GitHub仓库(如FastChat)的说明中,找到模型发布的链接(在Hugging Face等模型托管平台)。
-
FastChat框架:可以通过Git克隆GitHub仓库:https://github.com/lm-sys/FastChat ,或者使用Python的pip工具安装。
-
数据集与评测工具(如MT-Bench):在官方网站或GitHub仓库中均有提供下载链接。
功能介绍
LMSYS Org的工作并非一个单一的“工具”,而是一系列围绕大模型生态的项目:
-
Chatbot Arena(聊天机器人竞技场):这是LMSYS Org具有影响力的项目之一。它是一个众包的、匿名的、基于Elo评分系统的模型评测平台。用户可以在平台上同时与两个匿名模型对话,根据哪个模型的回答更好进行投票。通过收集海量的用户偏好数据,平台生成了一个动态更新的、公认度很高的大模型性能排行榜。
-
Vicuna(小羊驼)系列模型:LMSYS Org利用用户共享的对话数据,对Meta的LLaMA模型进行微调,训练出了Vicuna聊天机器人。Vicuna以高质量的回答和接近GPT-3.5的性能表现,在开源社区引起了巨大反响,证明了通过高质量的微调数据,较小的开源模型也能取得惊人效果。
-
FastChat(快速聊天)框架:这是一个用于训练、服务和评估大语言模型的一体化开放平台。它支持多种主流开源模型(如LLaMA、Vicuna、Mistral等),提供了高效的模型部署、分布式训练和性能评估工具,极大地简化了研究者和开发者使用大模型的工作流程。
-
MT-Bench(多轮对话评测集):这是一个专门用于评估大模型在多轮对话中能力的高质量评测集。它包含80个具有挑战性的多轮问题,覆盖写作、角色扮演、推理、数学等多个维度。结合Chatbot Arena的众包投票,MT-Bench提供了一种更精细、更可靠的模型能力评估方法。
-
他开放数据集与工具:LMSYS Org还发布了大量用于训练和评估的对话数据集,以及用于分析模型行为的工具,为整个研究社区提供了宝贵的资源。
应用场景
LMSYS Org的项目在不同层面服务于不同的人群:
-
对于AI研究人员和开发者:
-
模型选型:通过查看Chatbot Arena排行榜和MT-Bench分数,为特定应用选择性能的开源基础模型。
-
模型训练与微调:使用FastChat框架,在自己的数据上高效地训练或微调大模型。
-
模型评估:利用MT-Bench和相关的评测工具,对自己开发的模型进行标准化评估,并与社区先进水平对比。
-
-
对于普通AI爱好者与用户:
-
体验前沿模型:通过Chatbot Arena平台,可以免费、匿名地与各种顶尖模型(包括闭源和开源)进行对话,直观感受不同模型的能力。
-
参与“模型评测”:用户的每一次投票,都在为更准确的大模型排行榜贡献一份力量,直接参与到社区驱动的评测中。
-
-
对于企业决策者:参考LMSYS Org发布的权威排行榜和评测报告,作为技术选型和投资决策的客观依据。
补充必要信息
-
定价:LMSYS Org作为一个非营利性研究团体,所有核心项目,包括Chatbot Arena、FastChat框架、Vicuna模型权重、MT-Bench评测集等,对用户都是免费的。Chatbot Arena平台可以免费,开源工具可以免费下载和用于商业或非商业目的。
-
应用示例:一个学生想写一篇关于AI模型能力的报告。他可以先访问Chatbot Arena,亲自与排名靠前的几个模型对话,感受它们在逻辑推理和创意写作上的差异。然后,他可以在LMSYS的GitHub页面下载MT-Bench的评测结果数据,进行量化分析。,他甚至可以借助FastChat框架,在自己的电脑上快速部署一个Vicuna模型进行深入体验。
-
社区驱动:LMSYS Org的成功很大程度上依赖于社区的贡献。无论是Chatbot Arena的匿名投票,还是开发者对FastChat框架的代码贡献,都体现了开放协作的巨大价值。
lmsysorg常见问题
LMSYS Org不是一家公司,而是一个开放性质的研究团体,主要由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学的学生和教职员工组成。
有的,他们最出名的项目Chatbot Arena就是可以直接在网页上体验的。你可以直接访问它的官网 lmsys.org,在网站上就能找到Chatbot Arena的入口,进去后就能和不同的AI模型匿名聊天了。
你可以把它理解成一个由顶尖大学发起的、专门研究大模型技术的非营利性“俱乐部”。他们不卖产品,主要工作是开发一些好用的开源工具,比如FastChat,让大家能更方便地训练和使用大模型。另外他们还搞了个叫Chatbot Arena的“AI比武场”,让的用户来给各种AI模型打分排名,这个排名现在很有权威性。
当然可以,而且非常合适。你就直接去Chatbot Arena的网页,那里就像一个AI模型体验店。你可以同时和两个模型聊天,它们是GPT-4,也是某个的开源模型,整个过程都是匿名的,免费,这是体验不同模型能力的好方法。
是的,它们提供的所有服务,包括Chatbot Arena体验平台、Vicuna模型、FastChat框架等等,目前都是免费的。因为它本质上是一个学术研究项目,背后是大学,目标是推动技术进步,不是为了盈利,所以短时间内没有收费的计划,可以放心使用。
关于数据安全,LMSYS Org在它的官网上有相关说明。Chatbot Arena是匿名的,他们收集数据的主要目的是为了给模型投票和进行学术研究,分析模型的性能。虽然用户对话会被匿名化后用于改进模型,但他们会注意保护用户隐私。如果你非常在意数据隐私,在使用时建议避免输入个人敏感信息。
对于开发者来说,选模型可以分两步走。第一步,先去Chatbot Arena的排行榜上,根据你关心的领域比如编程或者中文能力,看看哪些开源模型的评分比较高。第二步,去他们的GitHub仓库下载FastChat框架,它支持一键部署很多主流模型。你可以在自己的机器上用框架自带的评估工具,或者用他们发布的MT-Bench评测集,实际测试一下几个候选模型在你特定任务上的表现,用数据说话,这样选出的模型更靠谱。
Vicuna这类开源模型跟OpenAI的闭源模型的不同在于开放性和可控性。OpenAI的模型能力很强,但你只能通过API调用,不能看到它的内部结构,也不能随意修改。而Vicuna是开源的,这意味着你可以下载它的整个模型文件,在你自己的服务器上运行,甚至可以用你自己的数据再对它进行微调,让它更贴合你的特定需求。在综合能力上,顶尖的开源模型和闭源模型目前还在你追我赶。
LMSYS Org本身的项目主要聚焦在模型评测和基础框架上,没有直接生成PPT或视频的功能。但是,你可以用FastChat框架部署一个像Vicuna这样的模型,然后通过编写提示词,让它帮你写PPT的大纲、每一页的标题和要点,或者写视频脚本。你需要借助他的工具来把文本内容变成最终的PPT或视频文件。
对于研究和开发大模型的人来说,FastChat非常好用,可以说是一个“瑞士--”。它把训练、部署、评测模型这些复杂流程都整合在一起了。你不需要自己写复杂的代码,就能用它在单卡或多卡上快速跑起一个模型,搭建一个类似ChatGPT的服务,或者对你的模型进行一系列标准化的性能测试,极大地提高了工作效率。
在Chatbot Arena上,单次对话的长度主要受限于你对话的那个模型自身的上下文窗口大小。现在的模型都能处理几千甚至上万个token,相当于几千字的内容,对于日常的闲聊和深度交流来说,这个长度是相当充裕的。如果对话太长,超出了模型的限制,平台会有相应的提示。
| 分享笔记 (共有 篇笔记) |