支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

模型训练 | 完全开源大模型:OLMo

发布日期:2024-04-19 06:43:46 浏览次数: 2708
作者:大语言模型技术进展

微信搜一搜,关注“大语言模型技术进展”

艾伦人工智能研究所(AI2)联合多个顶尖学术机构发布了史上首个100%开源的大模型“OLMo”!它的英文全称就叫Open Language Model。

OLMo的独特之处是 完全开源

  • • 完整的训练数据,包括生成训练数据的代码

  • • 完整的训练和评估代码

  • • 中间模型检查点,每个基础模型有500多个检查点,来自训练过程中每1000个步骤

  • • 训练日志

OLMo目前开源的模型主要有三个规模

Size Training Tokens Training Config Layers Hidden Size Attention Heads
1B 2T configs/official/OLMo-1B.yaml 16 2048 16
7B 3T configs/official/OLMo-7B.yaml 32 4096 32
65B*

80 8192 64

其中65B的模型还在训练中,目前开源的最大模型是OLMo 7B

Dolma简介

Dolma主要由两部分组成:

  • • Dolma Dateset:一个包含3万亿tokens的数据集,该数据集包含网页内容、学术出版物、代码、书籍、百科全书等,该数据大小约5.4TB。

  • • Dolma Toolkit:一个用于整理语言建模数据集的高性能工具包

Dolma Dateset

数据集统计结果 v1.6(发布于2024-01-31)

来源 类型 大小(GB) 文档数量(百万) Llama tokens(十亿)
Common Crawl 网页 9,022 3,370 2,281
The Stack 代码 1,043 210 411
C4 网页 790 364 198
Reddit 社媒 339 377 89
PeS2o 学术 268 38.8 70
Project Gutenberg 书籍 20.4 0.056 6.0
Wikipedia, Wikibooks 百科 16.2 6.2 4.3
总计
11,519 4,367 3,059

Dolma Toolkit

特点

  • • 高性能:由于内置并行性,可以同时处理数十亿个文档。

  • • 可移植性:适用于单机、集群或云环境。

  • • 快速去重:使用 Rust Bloom 过滤器快速进行文档重复数据删除。

  • • 可扩展:支持自定义标记器和AWS S3兼容位置。

  • • 内置标记器:包括通常用于管理数据集的现成标记器,

安装

pip install dolma

OLMo

安装

git clone https://github.com/allenai/OLMo.git
pip install ai2-olmo

推理

from transformers import pipelineolmo_pipe = pipeline("text-generation", model="allenai/OLMo-7B") # 这里可以直接指定自己的目录print(olmo_pipe("Language modeling is"))
## 输出## Language modeling is a process of training a machine learning model to learn from data...

量化

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-7B", torch_dtype=torch.float16, load_in_8bit=True)

训练

torchrun --nproc_per_node=8 scripts/train.py configs/official/OLMo-1B.yaml

微调

torchrun --nproc_per_node=8 scripts/train.py {path_to_train_config} \--data.paths=[{path_to_data}/input_ids.npy] \--data.label_mask_paths=[{path_to_data}/label_mask.npy] \--load_path={path_to_checkpoint} \--reset_trainer_state

评估

OMLo还提供了一个用于评估开源模型的仓库OLMo-Eval,使用此管道,可以评估 t 个任务集上的 m 个模型,其中每个任务集由一个或多个单独的任务组成。使用task_sets 允许您计算多个任务的聚合指标。可选集成可用于报告。

小结

虽然OLMo在效果上并没有那么惊艳,但是为AI研究提供了大模型宝贵的资源,有助于降低研究和开发的门槛,推动AI技术的创新和发展。

OLMo的发布,标志着AI开源模型进入了一个新的时代。随着越来越多的研究机构和企业加入到开源的行列,相信未来的AI技术将更加开放、透明和创新。




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询