人工智能与认知系统

欢迎来到我的数字大脑中的人工智能部分。本空间致力于追踪大型语言模型（LLM）、智能体工作流、集成协议以及测试框架的快速演变格局。

1. 现代大型语言模型（LLM）

当前人工智能的发展由专有前沿模型和高能力开源权重模型共同推动：

专有前沿模型：
- Gemini 1.5 Pro / Flash：以其原生多模态能力和巨大的 200万词元上下文窗口 而闻名，这改变了我们处理长文档研究和代码库分析的方式。
- Claude 3.5 Sonnet：在软件开发、编码辅助和推理任务方面处于领先地位，展现出高空间推理和逻辑能力。
- GPT-4o / o1：OpenAI 的多模态和推理模型，专为复杂的_多步骤规划_和_思维链执行_而设计。
开源权重生态系统：
- Llama 3 / 3.1 / 3.2：Meta 的旗舰开源模型，支持高达 4050 亿参数和 128k 上下文窗口，支持前沿级能力的本地部署。
- Gemma 2：谷歌的轻量级、高性能开源模型（90 亿和 270 亿参数），针对本地开发和效率进行了优化。

我们正在从简单的“系统提示与响应”式聊天转向自主智能体，它们能够规划、反思并与工具交互。

**模型上下文协议（MCP）**是 Anthropic 提出的一项开放标准，它使开发者能够构建人工智能模型与其数据源或开发工具之间安全、标准化的连接。

为何选择 MCP？ 在 MCP 之前，每位开发者都必须为每个工具（GitHub、Postgres、Slack 等）和每个模型提供商编写自定义的 API 集成。
工作原理：正如语言服务器协议（LSP）标准化了编程语言的 IDE 集成一样，MCP 充当了一个通用桥梁。
- MCP 主机：运行 LLM 的应用程序，如 IDE（Cursor、VS Code）或聊天界面。
- MCP 客户端：协调访问的中间客户端。
- MCP 服务器：公开特定工具、提示或资源的标准化服务器（例如，文件系统服务器、数据库查看器或网络搜索工具）。

随着人工智能应用变得越来越复杂，定性的“凭感觉检查”已不再足够。我们需要结构化的评估工具来防止退步并衡量性能：

标准基准测试：
- MMLU (Massive Multitask Language Understanding)：评估 57 个学科（人文科学、自然科学等）的知识。
- GSM8K & MATH：用于小学数学和高级竞赛数学的基准测试。
- HumanEval：包含带单元测试的 Python 编码问题的标准编码评估。
工具实现：
- EleutherAI LM-Eval-Harness：一个开放框架，用于通过零样本/少样本配置在数百个学术基准上评估大型语言模型。
- 自定义智能体工具：模拟环境（使用沙盒工具和预记录输出），自动运行智能体执行编码或网页导航任务，并根据最终系统状态对结果进行评分。