Releases: zjhellofss/KuiperInfer
Releases · zjhellofss/KuiperInfer
Release: 新推了一门自制大模型推理框架课程,助力秋招
新推了一门自制大模型推理框架课程
课程链接:动手自制大模型推理框架开课了
- 一个月,手把手教你用C++和Cuda打造高性能大模型推理框架!来自一线芯片企业的专业开发者,拥有多年C++项目设计与开发经验,其开发的免费课程曾在C++项目榜单上名列前茅,GitHub全站排名前120,今年秋招季更是成为热门;
- 鉴于免费课程的高人气,今年我们顺势推出了进阶版——大模型推理框架课程。涵盖Cuda和CPU双后端,全面支持int8量化和LLama系列模型,让你的技术实力更上一层楼。
- 课程使用CUDA实现大模型推理需要的每个算子!通过精心设计的图文课件、详尽的视频讲解,我们将复杂的机制简化,让你轻松掌握这一关键技术。别再错过,立即加入,让你的简历在众多求职者中脱颖而出!
项目优势节选
- 优秀的项目管理形式,我们采用CMake+Git的方式管理项目,接轨大厂;
- 授人以渔,教大家怎么设计一个现代C++项目,同时教大家怎么用单元测试和Benchmark去测试验证自己的项目;
- 采用最新的C++ 20标准去写代码,学新不学旧;
- CPU算子和CUDA算子都有,同时学学怎么在两种设备上写算子,比比CUDA的速度优势到底有多大。
欢迎扫描下方的二维码或微信 lyrry1997 咨询课程
What's Changed
- Update tensor.cpp by @PerrySkywalker in #54
- 最近邻上采样算子中,在内层循环中没有必要判断目标位置的列数与行数是否小于目标图像的宽和高 by @delve-wang in #58
- Fix typo in AdaptiveAveragePoolingLayer::check to prevent coredump in forward_average_pooling_out1x1 test by @z-learner in #59
New Contributors
- @PerrySkywalker made their first contribution in #54
- @delve-wang made their first contribution in #58
- @z-learner made their first contribution in #59
Full Changelog: v0.1.1...v0.1.2 #64
#announcement
新推了一门自制大模型推理框架课程,助力秋招
- 一个月,手把手教你用C++和Cuda打造高性能大模型推理框架!来自一线芯片企业的专业开发者,拥有多年C++项目设计与开发经验,其开发的免费课程曾在C++项目榜单上名列前茅,GitHub全站排名前120,今年秋招季更是成为热门;
- 鉴于免费课程的高人气,今年我们顺势推出了进阶版——大模型推理框架课程。涵盖Cuda和CPU双后端,全面支持int8量化和LLama系列模型,让你的技术实力更上一层楼。
- 课程使用CUDA实现大模型推理需要的每个算子!通过精心设计的图文课件、详尽的视频讲解,我们将复杂的机制简化,让你轻松掌握这一关键技术。别再错过,立即加入,让你的简历在众多求职者中脱颖而出!
项目优势节选
- 优秀的项目管理形式,我们采用CMake+Git的方式管理项目,接轨大厂;
- 授人以渔,教大家怎么设计一个现代C++项目,同时教大家怎么用单元测试和Benchmark去测试验证自己的项目;
- 采用最新的C++ 20标准去写代码,学新不学旧;
- CPU算子和CUDA算子都有,同时学学怎么在两种设备上写算子,比比CUDA的速度优势到底有多大。
欢迎扫描下方的二维码或微信 lyrry1997 咨询课程
What's Changed
- Update tensor.cpp by @PerrySkywalker in #54
- 最近邻上采样算子中,在内层循环中没有必要判断目标位置的列数与行数是否小于目标图像的宽和高 by @delve-wang in #58
- Fix typo in AdaptiveAveragePoolingLayer::check to prevent coredump in forward_average_pooling_out1x1 test by @z-learner in #59
New Contributors
- @PerrySkywalker made their first contribution in #54
- @delve-wang made their first contribution in #58
- @z-learner made their first contribution in #59
Full Changelog: v0.1.1...v0.1.2 #64
#announcement
version 0.1
version 0.0.3
版本
0.03
运行时间统计(五次运行平均)
测试框架为google benchmark, 不含前后处理,运行时间受当时机器负载影响。
模型种类 | 版本 | batch size | 输入大小 | 运行时间 (ms per img) |
---|---|---|---|---|
MobileNet | V3Small | 8 | 224 x 224 | 6.6 ms / image |
ResNet | ResNet18 | 8 | 224 x 224 | 20.91 ms / image |
ResNet | ResNet18 | 16 | 224 x 224 | 14.62 ms / image |
Yolov5 | V5Nano | 4 | 320 x 320 | 22.89 ms / image |
Yolov5 | V5Small | 8 | 640 x 640 | 159.22 ms / image |
Yolov5 | V5Small | 16 | 640 x 640 | 108.79 ms / image |
硬件
硬件租赁于autodl, 所有测试在容器内进行
- CPU: 22 vCPU AMD EPYC 7T83 64-Core Processor
- 内存: 90GB
- 硬盘: 系统盘:30 GB
软件
- KuiperInfer: version 0.03
- OpenBlas: latest
- Armadillo: version 12.4
- OS: Ubuntu 22.04
study_version_0.02
大家学习完B站上的视频课程后,可以阅读下这个tag下的项目代码,学习完整的Kuiperinfer项目。