从社区数据看大模型开发生态的全景与趋势-蚂蚁集团+王旭+小雅.docx

从社区数据看大模型开发生态的全景与趋势-蚂蚁集团+王旭+小雅.docx

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

从社区数据看大模型开发生态

全景与趋势

演讲人:王旭,夏小雅

关于我们

王旭

写开源Bug,做开源项目,搞开源创业,混

写开源Bug,做开源项目,搞开源创业,混开源社区,管公司开源,参与开源基金会。

分析开源数据,发开源论文,搞开源学术,

分析开源数据,发开源论文,搞开源学术,

写开源代码,管开源社区,做公司开源策略。

夏小雅

...

...大人,时代变了,大模型来了

目录

01案例:热点到数据

01案例:热点到数据

02全景:社区关系网

04

04架构与全景图

03热点:项目与趋势

案例研究

从热点新闻到社区数据

社区的行为数据只反映一部分的社区关系,既不全面,也不充分,并不被视为是对项目本身「好坏」的公平评价,我们

只是以此来提供一些参考信息。

我们怎么观察AI开发生态

项目之间可能有的生态关系?

项目之间可能有的生态关系

?依赖性

?有依赖性的项目,有可能会有互相的,尤其是对被依赖项目的贡献

?竞争性/可替换性

?同一位置的项目,有可能会有上下游同时给他们贡献

?上下游(合作)

?合作者有可能会有彼此的贡献

*这里都是有可能,但不是必然的。

从GitHub上,我们可以有的行为信息

?项目本身的活动数据。

?项目本身的Commit/PR/Issue数量、频率、分布情况等

?项目之间的彼此关联信息——项目之间的互动——通过共同的参与人达到的互动。

?同时对两个项目的Commit/PR/Issue/Comments等。

?以及Star/Fork(以下分析中没有使用这两个数据)

从PyTorch,vLLM,LangChain出发

https://xiaoya-yaya.github.io/ant-ospo-insights/

+AutoGPT

https://xiaoya-yaya.github.io/ant-ospo-insights/

从AutoGPT,llama.cpp,Chatchat出发

https://xiaoya-yaya.github.io/ant-ospo-insights/

向下:从DeepSpeed,Triton,ONNX出发

https://xiaoya-yaya.github.io/ant-ospo-insights/

插播一个有趣的发现

从过去一年里项目名/仓库名发生变化的这些热门AI项目们:

?

?openai/triton-triton-lang/triton

?OpenDevin/OpenDevin-All-Hands-AI/OpenHands

?jmorganca/ollama-ollama/ollama

?google/jax-jax-ml/jax

?jerryjliu/llama_index-run-llama/llama_index

?hiyouga/LLaMA-Efficient-Tuning-hiyouga/LLaMA-Factory

?KillianLucas/open-interpreter-OpenInterpreter/open-interpreter

?ollama-webui/ollama-webui-open-webui/open-webui

?joaomdmoura/CrewAI-crewAIInc/crewAI

多数为从个人项目发起,迅速火爆继而transfer到GitHubORG下面和社区共同治理的,也有从如Google这样的企业生长出来演变成一个中立社区进行托管的,还有因为项目在演化过程中

roadmap逐渐发生变化而修改项目名以重新定位公众认知的,如LLaMA-Factory,OpenHands。

一些发现

哪些项目不会

哪些项目不会被引入进来

?比如Kubernetes,就完全没有被引入,虽然大家都会用它,我们推测:

?API已经比较稳定,即使是利用了接口也不需要去社区互动;

?同时快速发展的项目可能更容易有互动

?以及有很可能的一点——计算生态圈和AI生态圈的开发者之间可能是有相对强的隔离的

?有些很多人用的项目,但是互动比较少:

?比如大部分Nvidia的项目都没有被引入进来,推测是单向使用,或者社区比较高

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档