✨【你好,我是筱可,欢迎来到"筱可AI的工程实验仓库"】✨
🌈 期待与你成为"AI+成长"的双向奔赴伙伴!
这里是筱可AI的工程实验仓库!
- 实验代码中部分项目可能处于开发阶段或实验性质
- 部分实验可能存在失败案例,这些都是学习过程的一部分
- 请以公众号文章说明为准,代码仅供学习参考
- 在生产环境中使用前,请进行充分的测试和验证
- MMR多样性检索:最大边际相关性搜索算法,平衡相关性与多样性,地址: datas/test_mmr_search
- K-means聚类检索:基于聚类的文档分组与多样性检索策略,地址: datas/test_k_means
- SimHash相似度:局部敏感哈希算法实现,用于近似相似度计算,地址: datas/test_simhash
- BGE稀疏检索:稀疏向量检索与稠密向量检索对比分析,地址: datas/test_bge_sparse
- 语义文档分块:基于语义的文档分块策略,地址: datas/test_semantic_splitter
- SQLite向量扩展在RAG中的应用:sqlite-vec扩展的使用教程,实现向量存储与检索,地址: datas/test_sqlite
- DuckDB数据库在RAG中的应用:现代分析型数据库DuckDB的向量搜索与全文检索,地址: datas/test_duckdb
- 分词算法:BPE、WordPiece、SentencePiece等分词算法原理与实现,地址: datas/test_tokenizer
- 文档分块:结合语义和结构的混合分块策略,地址: datas/test_hybrid_chunking
- 延迟分块:先编码后分块的策略,保持上下文连贯性,地址: datas/test_late_chunking
- 布局排序算法:针对复杂文档布局的智能排序方法,地址: datas/layout_sorter
- SpaCy模型微调:自然语言处理模型的微调和训练,地址: datas/spacy_finetune
- 句子长度影响分析:句子长度对相似度计算的影响研究,地址: datas/test_sentence_length
- 代码表格相似度:特殊格式文本的相似度计算方法,地址: datas/test_sentence_similarity_with_code_or_table
- BGE重排序模型:使用BGE Reranker提升检索精度,地址: datas/test_rerank
- BM25增强检索:传统BM25与现代向量检索的结合,地址: datas/test_bm25_augmentation
- 深度搜索:构建一个deepsearch,地址: datas/test_deepsearch
- BGE-VL多模态:视觉-语言多模态模型的实战应用,地址: datas/test_bge_vl
- Jina CLIP:图文匹配与多模态检索实现,地址: datas/test_jina_clip_v2
- CLIP模型微调:CLIP模型的轻量级微调实现,支持冻结部分层以提高训练效率,地址: datas/test_finetune_clip
- OpenVINO加速:Intel OpenVINO模型优化与推理加速,地址: datas/test_openvino
- ONNX模型转换:模型格式转换与优化部署,地址: datas/test_onnx
- Jina OpenVINO:Jina模型的OpenVINO优化方案,地址: datas/test_jina_openvino
- openvino_sentence_transformer:openvino_sentence_transformer intel NPU部署,地址: datas/test_openvino_sentence_transformer
- KV缓存实现:大模型推理中的KV缓机制实现datas/test_kv_cache
- 大模型Logit分析:解析大模型输出概率分布,地址: datas/test_llm_logit
- 知识图谱构建:知识图谱的构建与查询技术,地址: datas/test_kg
- 红楼梦知识图谱:基于红楼梦的知识图谱构建案例,地址: datas/test_hong_lou_meng_kg
- function call:Agent函数调用,地址: datas/test_fc
- UMAP降维:使用UMAP进行高维数据降维与可视化,包含PCA对比和相似度分析,地址: datas/test_umap
- Embedding微调:向量模型的数据准备与微调训练,地址: datas/test_embedding
- 训练:Embedding 模型:示例脚本与数据,用于对嵌入模型进行微调(train_embedding.py),地址: datas/test_train_embedding
- 训练:Reranker(BERT):基于 BERT 的重排序模型训练示例(train_bert_rerank.py),含默认训练数据与损失曲线,地址: datas/test_train_reranker
- 模型下载管理:ModelScope模型下载与管理工具,地址: datas/test_download_modelscope_model
- DPO 训练脚本: DPO(Direct Preference Optimization)训练脚本,支持按样本量与 epoch 控制,地址: datas/test_dpo/dpo.py
- Rust Python集成:使用Rust优化Python性能瓶颈,地址: datas/test_rust_in_python
- 模型量化:基于bitsbytes的模型量化,地址: datas/test_quantize_model/quantize_qwen.py
我们欢迎所有形式的贡献,包括但不限于:
- 🐛 问题反馈
- 💡 新功能建议
- 🔧 代码优化
- 📝 文档完善
请通过Issue或Pull Request的方式参与贡献。
本项目基于 Apache 2.0 许可证 开源。
- 🧑💻 作者:li-xiu-qi
- 📧 邮箱:[email protected]
- 📢 公众号:筱可AI
- 🌐 仓库地址:GitHub
感谢您的关注和支持!让我们一起探索AI的无限可能!🚀
