猫先生官方网站他们最终是想要将整个互联网变成Tokens,换言之全都转化成ChatGPT等大模型理解这个世界的方式。
一旦这样的数据集诞生,那岂不是为开发出GPT-4这样的大模型又新增一大利器,上知天文下知地理指日可待了?!
而这背后仅是四个平均年龄20岁的少年发起猫先生官方网站,目前Arxiv所有论文数据集已经发布,他们将于下周发布嵌入(Embedding)搜索平台。
选择的方式是嵌入,简单来说,就是将现实世界的各种对象具象成计算机所能理解的向量。
比如,当有10个词表示同一事物时,很难通过关键词查找论文。但嵌入就可以完成猫先生官方网站,因此很适用于搜索、聚类、推荐和分类。
在测试各种模型之后,最终选择使用InstructorXL文本嵌入模型,通过简单地提供任务指令,而无需任何微调,适合于多种任务(比如分类、检索、聚类、文本评估等)和领域(比如科学、金融、医学等)》
下周他们将发布Arxiv搜索。目前为止的流程是,首先对100篇最接近的文章进行相似性搜索,然后即时计算这些内容的嵌入,并进行第二次更复杂的搜索。
一方面是嵌入巨大的价值。世界上很多问题只是搜索、 聚类、推荐或分类,而这些事情嵌入都非常擅长。而且也如前所述,可以解决一些复杂的难题。
另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次计算。目前每1亿个Token只需1美元。
接下来他们还将开放更多的数据集,而这些均由这些用户自行选择。在官网上除了已公开的数据集,剩下的几个待开源项目开启了投票通道。
就官方介绍,他们致力于为ChatGPT和其他类似产品构建插件,同时也在开发核心产品猫先生官方网站,基于大模型的个人研究助理,帮助学习、教学和科研。
原标题:《四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。