0. Step 为什么需要 RAG 当我们在 ChatBox 中敲下回车,发送了一条请求「电子科技大学核心通识课程修满溢出的学分可以转换为自主选修学分吗」,可预料到的并不会得到有效结论:在 ChatGPT Web 中,GPT 5.2 Thinking 通过强大的搜索能力检索学校相关文件、校园论坛帖子最终得出「不能」的结论;ChatBox 中的 DeepSeek 直接乱答 再比如,向 AI 提问「菩萨告诉孙悟空有人救他的原文句子或段落,并标注回目」,十分具体的问题:在 ChatGPT Web 中,思考 2 分钟多,查了 106 个网页,答非所问,似乎没理解题意 ::: grid {c...
0. 引言 本文章将会以“天气怎么样”这个话题讲述 Structured Output、Function Calling 和 MCP 这三个概念,通过本地在 LM Studio 上部署的 qwen/qwen3-4b-2507 进行示例展示 1. Function Calling 工具调用 1.1. Tool 工具 1.1.1 Why 为什么 传统的大模型都表现为对话形式,一问一答,只能 chat,无法与现实世界交互 以最常见的「今天天气怎么样」为例,ai 肯定无法给出或者直接编造出一个回答 那么如何解决这种问题呢,如下: 用户发送消息 ...
1. 绪论 在高吞吐量的系统中,例如促销期间的电商平台,为每笔订单快速分配一个全局唯一且不冲突的编号至关重要 如果只凭借数据库自增 ID,那么吞吐量一大,数据库就成了系统当中的瓶颈; 而在多实例部署的情况下,无法保证各节点生成的 ID 全局唯一、不会冲突; 以及完全随机生成的乱序 ID 可能导致数据库索引频繁页分裂; 还有可能会因为 ID 暴露系统的隐私信息,比如业务量 这就是分布式 ID 需要解决的:全局唯一、高可用高性能、趋势递增、安全 于是涌现了许多方案:划分 bit 位的雪花算法、批量产生 ID 的号段模式、纯本地生成的 UUID... 2. ID 形态:四类...
shell 用于接受用户命令传递给 os 执行 image.png|500 基本导航与查看 pwd pwd,展示当前目录绝对路径 ls list,列出当前目录下的文件 参数: -l 列出每个文件的属性,一般都会有 ll 的缩写 ` drwxr-xr-x@ 2 fling staff 64 5 24 15:42 test ^ ^ ^ ^ ^ ^ ^ ^ ...
一、场景引入 场景 - URL 去重过滤在亿级数据量下的解决方案 以大规模网页爬虫为例,在针对特定关键词的大规模网页爬虫中,待抓取的 URL 数量可能达到数亿,重复 URL 不仅浪费爬取资源,还可能导致爬虫陷入死循环或无效抓取,严重影响抓取效率和数据质量 传统的方案 存入数据库,添加约束 unique I/O 瓶颈 使用缓存,例如 HashSet 内存开销大 方案优化 考虑到 URL 爬虫去重允许误判,大数据量的情况下小部分数据误判完全允许 使用位图,单哈希压缩存储,利用二进制数组记录 URL 是否出现,内存空间占用更小 百...
终端安装 iTerm2 直接在网上下载iTerm2 首先 xcode-select --install 配置brew 使用国内源安装 /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 配置oh-my-zsh `shell wget https://gitee.com/pocmon/ohmyzsh/raw/master/tools/install.s...