A NLP developer from China. You can find more on my blog site .
- domain_keyphrase_extract:领域关键短语抽取,帮助业务挖掘知识中的领域实体词库及其常用说法。具体实验方案的解读在博客
- chinese-interrogative-recognition:中文疑问句识别,用于 query 理解;
- corpus-generalization-spider:语料泛化爬虫工具,借助爬虫和相似性度量,对标准问扩展相似问,丰富训练数据;
- metric_learning:这个项目是为了训练 Embedding 模型,包括了度量学习和对比学习的一些实验,主要有双塔、triple loss、AMSoftmax+simcse、rdrop、Bert-whitening等。具体介绍在博客
- seq2seq_with_bert_unilm:以“BERT+UniLM”为基础架构,训练一个Seq2Seq模型,用于坐席辅助-话术生成。主要借鉴了苏剑林.《Seq2Seq+前缀树:检索任务新范式(以KgCLUE为例) 》 Blog post
- learning_to_rank:主要是排序学习LTR的一些实验,用于协助企业内搜的精排阶段。相关模型介绍在博客
- 组内项目的目标不明确,导致工作的时候像个无头苍蝇般迷茫,干的很累和疲惫,每天沟通、对齐,却又每天都没对齐
- 我的直觉告诉我,我并不适合这家公司,遂放弃了
- learnpytorch:最早懵懵懂懂学pytorch框架,不太清楚底层原理
- another-pytorch:深入到深度学习底层原理,复现pytorch框架,开始入门
- pytorch-transformer:学习transformer,成功复现翻译模型,信心增加
- bpe-tokenizer:开始准备实现chatgpt效果,先复现了BPE tokenizer
- chatgpt:基于前面的积累,复现了decoder-only的GPT模型
- qwen-dpo:陆续跟进了一些阿里云Qwen大模型的技术,比如DPO训练的复现
- qwen-vllm:基于asyncio封装推理服务,对vLLM封装的研究
- mnist-onnx-runtime:onnx推理框架的使用研究,包括复现MoE模型
- nano-graphrag:微软graphrag技术的源码研究
- vanna-chatbi:ChatBI场景的源码研究
- xgboost-py:趁热打铁,回头研究xgboost树模型理论,完成复现
- ddp-demo:探索torch集合通讯原语,支撑分布式训练理解
- qwen2.5-0.5b-grpo:基于通义千问2.5的0.5B模型,复现DeepSeek R1的顿悟时刻