归档
所有归档文章。
2026 3
五月 3
-
低维表示:投影降维、MRL 与稀疏表示
大规模检索系统里的 embedding 成本不只来自模型前向,也来自向量存储、内存带宽和 KNN 计算。这里比较投影降维、MRL 与 CSR 稀疏表示三种做法。
-
PyTorch 2.12 稀疏矩阵深度解析:COO、CSR、CSC、BSR 与 BSC
从 PyTorch 2.12 的 COO、CSR、CSC、BSR、BSC 数据结构出发,解释稀疏矩阵的存储方式、乘法路径,以及一组 CPU/GPU 实验里的存储和速度比例。
-
当思考(CoT)遇见embedding
生产搜索系统在嵌入查询前会先用大语言模型对其进行改写。ICLR 2026 的两篇论文探究了当改写与嵌入共用同一模型(乃至同一梯度)时会发生什么。
2022 3
四月 1
-
手绘风格的数据可视化
罗列常用手绘风格数据可视化工具及适用图表,包括 rough.js、draw.io、matplotlib xkcd、chart.xkcd 和 cutecharts。
三月 1
-
深度学习模型大小与模型推理速度的探讨
探讨深度学习模型的参数量、计算量、访存量等指标对推理速度的影响,并给出针对不同硬件的网络设计建议。
二月 1
-
图像局部区域(Patch)的描述符学习策略
综述基于学习的图像局部区域描述符(local descriptor)的数据处理与训练策略,关注不同论文在 patch 学习方向上的异同。
2020 4
九月 1
-
pybind: 为cpp/cuda代码提供python接口
通过 pybind11 为 C++/CUDA 代码提供 Python 绑定,实现 numpy/torch 张量与 Eigen/cv::Mat 的零拷贝转换。
七月 1
-
Numba: 简单装饰器加速python代码
介绍如何通过 numba 库为 Python 函数添加装饰器的方式进行即时编译加速,简单易用、灵活高效。
六月 2
-
通过NPP加速TensorRT部署时图片数据预处理
介绍如何通过 NVIDIA NPP 库加速 TensorRT 推理部署时的图片数据预处理(uint8→float32)过程。
-
Numba: 通过python快速学习cuda编程
通过 Python 的 numba 库快速上手 CUDA 多线程高并发编程,降低 CUDA 入门门槛。