筱可AI工程实验仓库

✨【你好，我是筱可，欢迎来到"筱可AI的工程实验仓库"】✨

🌈 期待与你成为"AI+成长"的双向奔赴伙伴！

这里是筱可AI的工程实验仓库！

📋 免责声明

⚠️ 重要提醒：

实验代码中部分项目可能处于开发阶段或实验性质
部分实验可能存在失败案例，这些都是学习过程的一部分
请以公众号文章说明为准，代码仅供学习参考
在生产环境中使用前，请进行充分的测试和验证

📚 技术学习与实验代码

🔍 向量检索与相似度计算

MMR多样性检索：最大边际相关性搜索算法，平衡相关性与多样性，地址： datas/test_mmr_search
K-means聚类检索：基于聚类的文档分组与多样性检索策略，地址： datas/test_k_means
SimHash相似度：局部敏感哈希算法实现，用于近似相似度计算，地址： datas/test_simhash
BGE稀疏检索：稀疏向量检索与稠密向量检索对比分析，地址： datas/test_bge_sparse
语义文档分块：基于语义的文档分块策略，地址： datas/test_semantic_splitter

🗃️ 向量数据库数据库

SQLite向量扩展在RAG中的应用：sqlite-vec扩展的使用教程，实现向量存储与检索，地址： datas/test_sqlite
DuckDB数据库在RAG中的应用：现代分析型数据库DuckDB的向量搜索与全文检索，地址： datas/test_duckdb

🔤 分词与文本处理

分词算法：BPE、WordPiece、SentencePiece等分词算法原理与实现，地址： datas/test_tokenizer
文档分块：结合语义和结构的混合分块策略，地址： datas/test_hybrid_chunking
延迟分块：先编码后分块的策略，保持上下文连贯性，地址： datas/test_late_chunking
布局排序算法：针对复杂文档布局的智能排序方法，地址： datas/layout_sorter
SpaCy模型微调：自然语言处理模型的微调和训练，地址： datas/spacy_finetune
句子长度影响分析：句子长度对相似度计算的影响研究，地址： datas/test_sentence_length
代码表格相似度：特殊格式文本的相似度计算方法，地址： datas/test_sentence_similarity_with_code_or_table

🎯 检索增强与重排序

BGE重排序模型：使用BGE Reranker提升检索精度，地址： datas/test_rerank
BM25增强检索：传统BM25与现代向量检索的结合，地址： datas/test_bm25_augmentation
深度搜索：构建一个deepsearch，地址： datas/test_deepsearch

🎨 多模态AI技术

BGE-VL多模态：视觉-语言多模态模型的实战应用，地址： datas/test_bge_vl
Jina CLIP：图文匹配与多模态检索实现，地址： datas/test_jina_clip_v2
CLIP模型微调：CLIP模型的轻量级微调实现，支持冻结部分层以提高训练效率，地址： datas/test_finetune_clip

🤖 模型优化与部署

OpenVINO加速：Intel OpenVINO模型优化与推理加速，地址： datas/test_openvino
ONNX模型转换：模型格式转换与优化部署，地址： datas/test_onnx
Jina OpenVINO：Jina模型的OpenVINO优化方案，地址： datas/test_jina_openvino
openvino_sentence_transformer：openvino_sentence_transformer intel NPU部署，地址： datas/test_openvino_sentence_transformer

🧮 算法基础与数学原理

KV缓存实现：大模型推理中的KV缓机制实现datas/test_kv_cache
大模型Logit分析：解析大模型输出概率分布，地址： datas/test_llm_logit
知识图谱构建：知识图谱的构建与查询技术，地址： datas/test_kg
红楼梦知识图谱：基于红楼梦的知识图谱构建案例，地址： datas/test_hong_lou_meng_kg
function call：Agent函数调用，地址： datas/test_fc
UMAP降维：使用UMAP进行高维数据降维与可视化，包含PCA对比和相似度分析，地址： datas/test_umap

📊 模型微调训练与评估

Embedding微调：向量模型的数据准备与微调训练，地址： datas/test_embedding
训练：Embedding 模型：示例脚本与数据，用于对嵌入模型进行微调（train_embedding.py），地址： datas/test_train_embedding
训练：Reranker（BERT）：基于 BERT 的重排序模型训练示例（train_bert_rerank.py），含默认训练数据与损失曲线，地址： datas/test_train_reranker
模型下载管理：ModelScope模型下载与管理工具，地址： datas/test_download_modelscope_model
DPO 训练脚本： DPO（Direct Preference Optimization）训练脚本，支持按样本量与 epoch 控制，地址： datas/test_dpo/dpo.py

🔧 系统集成与工程化

Rust Python集成：使用Rust优化Python性能瓶颈，地址： datas/test_rust_in_python

🧠 模型工程

模型量化：基于bitsbytes的模型量化，地址： datas/test_quantize_model/quantize_qwen.py

🤝 贡献指南

我们欢迎所有形式的贡献，包括但不限于：

🐛 问题反馈
💡 新功能建议
🔧 代码优化
📝 文档完善

请通过Issue或Pull Request的方式参与贡献。

📄 许可证

本项目基于 Apache 2.0 许可证开源。

📞 联系我

🧑‍💻 作者：li-xiu-qi
📧 邮箱：[email protected]
📢 公众号：筱可AI
🌐 仓库地址：GitHub

公众号：

感谢您的关注和支持！让我们一起探索AI的无限可能！🚀

Name		Name	Last commit message	Last commit date
Latest commit History 101 Commits
datas		datas
images		images
projects		projects
utils		utils
.env.example		.env.example
.gitattributes		.gitattributes
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
LICENSE		LICENSE
README.md		README.md
__init__.py		__init__.py
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

筱可AI工程实验仓库

📋 免责声明

📚 技术学习与实验代码

🔍 向量检索与相似度计算

🗃️ 向量数据库数据库

🔤 分词与文本处理

🎯 检索增强与重排序

🎨 多模态AI技术

🤖 模型优化与部署

🧮 算法基础与数学原理

📊 模型微调训练与评估

🔧 系统集成与工程化

🧠 模型工程

🤝 贡献指南

📄 许可证

📞 联系我

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

li-xiu-qi/XiaokeAILabs

Folders and files

Latest commit

History

Repository files navigation

筱可AI工程实验仓库

📋 免责声明

📚 技术学习与实验代码

🔍 向量检索与相似度计算

🗃️ 向量数据库数据库

🔤 分词与文本处理

🎯 检索增强与重排序

🎨 多模态AI技术

🤖 模型优化与部署

🧮 算法基础与数学原理

📊 模型微调训练与评估

🔧 系统集成与工程化

🧠 模型工程

🤝 贡献指南

📄 许可证

📞 联系我

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages