AI工具15 分钟

2025年最新Browser Use使用指南:让AI控制浏览器的开源工具与中转API推荐

本文详细介绍Browser Use工具的使用方法,这是一款让AI代理控制浏览器的强大开源工具,并推荐国内用户通过laozhang.ai中转API轻松使用这些功能。

API中转服务 - 一站式大模型接入平台
老张
老张·AI接入服务专家

2025年最新Browser Use使用指南:让AI控制浏览器的开源工具与中转API推荐

Browser Use使用指南

前言:Browser Use带来的革命性体验

Browser Use是一款强大的开源工具,它可以让AI代理(如GPT-4o、Claude、Gemini等)直接控制网页浏览器,实现浏览网页、点击按钮、填写表单等复杂操作。这是AI应用的一次重大突破,让AI真正能够像人类一样与网络世界交互。本文将详细介绍Browser Use的使用方法、优势以及如何通过API接入这一功能,特别是针对国内用户提供无障碍使用方案。

一、Browser Use工具概述

1.1 什么是Browser Use?

Browser Use是一个开源的Python库,它允许AI代理控制浏览器执行各种任务。通过这一工具,AI可以:

  • 访问任何网站并浏览内容
  • 点击按钮、链接和其他交互元素
  • 填写表单并提交
  • 提取和处理网页上的数据
  • 在多个网页间导航并执行复杂任务
  • 生成操作过程的视频记录
Browser Use功能一览

1.2 Browser Use与传统网络爬虫的区别

Browser Use不同于传统的网络爬虫或自动化工具,其主要区别在于:

特性Browser Use传统网络爬虫
控制方式AI自然语言控制需要手写代码脚本
适应能力可动态适应页面变化页面变化通常需要重写代码
智能程度具备理解网页内容和结构的能力仅按预定逻辑执行
交互复杂度可执行多步骤复杂任务通常执行简单重复任务
开发难度低(只需描述任务)高(需要编程知识)

二、快速入门指南

2.1 安装环境准备

使用Browser Use需要Python 3.11或更高版本,安装步骤如下:

hljs bash
# 安装Browser Use
pip install browser-use

# 安装Playwright(Browser Use依赖的浏览器自动化工具)
playwright install chromium

2.2 基础使用示例

以下是一个简单的使用示例,让AI比较两个大语言模型的价格:

hljs python
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()

async def main():
    agent = Agent(
        task="比较GPT-4o和DeepSeek-V3的价格",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    await agent.run()

asyncio.run(main())

为了使用上面的代码,你需要在.env文件中添加相应的API密钥:

OPENAI_API_KEY=your_openai_api_key

2.3 支持的AI模型

Browser Use支持多种主流的大语言模型,包括:

  • OpenAI (GPT-4o, GPT-4, GPT-3.5等)
  • Anthropic (Claude系列)
  • Google (Gemini系列)
  • DeepSeek (DeepSeek-V3等)
  • Azure OpenAI服务

三、Browser Use的实用案例

3.1 自动购物结账

AI可以帮助用户在电商网站添加商品到购物车并完成结账流程:

hljs python
async def main():
    agent = Agent(
        task="在京东网站搜索iPhone 15 Pro,添加到购物车,并导航到结账页面",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    await agent.run()

3.2 LinkedIn到Salesforce的信息同步

AI可以自动将LinkedIn上的新关注者添加到Salesforce的销售线索中:

hljs python
async def main():
    agent = Agent(
        task="登录我的LinkedIn账号,查看最近的新关注者,并将其添加到Salesforce的销售线索中",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    await agent.run()

3.3 自动化工作申请

AI可以帮助用户找到工作机会并自动申请:

hljs python
async def main():
    agent = Agent(
        task="阅读我的简历,在招聘网站上寻找合适的机器学习工作机会,然后开始申请过程",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    await agent.run()

3.4 文档处理自动化

AI可以在Google Docs等平台上创建和编辑文档:

hljs python
async def main():
    agent = Agent(
        task="在Google Docs中创建一封感谢信,内容为感谢我的父亲对我的支持,完成后将文档保存为PDF",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    await agent.run()
Browser Use接入方式对比

四、国内用户无障碍使用Browser Use

4.1 访问障碍与解决方案

国内用户在使用Browser Use时可能面临以下问题:

  • OpenAI、Claude等模型的API在中国大陆地区访问受限
  • 需要海外信用卡和账单地址注册官方API
  • 需要科学上网工具,稳定性受影响

推荐解决方案:使用laozhang.ai提供的中转API服务

4.2 使用laozhang.ai中转服务的优势

  1. 无需科学上网:API服务器部署在国内可直接访问
  2. 支持国内支付方式:接受支付宝、微信支付等国内主流支付方式
  3. 简单注册流程:仅需邮箱即可注册,无需海外信用卡
  4. 完整功能支持:支持多种模型API,与官方兼容
  5. 技术支持:提供中文技术支持和文档
  6. 新用户福利:注册即送1美元使用额度,可测试所有功能

4.3 结合laozhang.ai使用Browser Use

通过laozhang.ai中转API使用Browser Use的示例代码:

hljs python
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
import os

# 设置环境变量,使用laozhang.ai的API密钥和基础URL
os.environ["OPENAI_API_KEY"] = "your_laozhang_api_key"
os.environ["OPENAI_API_BASE"] = "https://api.laozhang.ai/v1"

async def main():
    agent = Agent(
        task="在淘宝上搜索最新款的华为手机,比较不同型号的价格和配置",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    await agent.run()

asyncio.run(main())

五、高级用法与技巧

5.1 提供更详细的任务描述

为了获得更好的结果,建议提供详细的任务描述:

hljs python
task = """
请执行以下任务:
1. 访问 https://www.example.com
2. 在搜索框中输入"智能手机"
3. 筛选价格在2000-5000元的产品
4. 按评分排序,选择评分最高的三款手机
5. 比较它们的核心参数,包括处理器、内存、电池和相机
6. 创建一个表格展示比较结果
"""

agent = Agent(
    task=task,
    llm=ChatOpenAI(model="gpt-4o"),
)

5.2 启用屏幕录制功能

Browser Use可以录制AI操作的过程,对于调试和演示非常有用:

hljs python
agent = Agent(
    task="在京东上找到最受欢迎的笔记本电脑",
    llm=ChatOpenAI(model="gpt-4o"),
    enable_screenshot=True,  # 启用屏幕截图
    enable_recording=True,   # 启用视频录制
)

5.3 人机协作模式

在复杂任务中,可以启用人机协作模式,让AI在关键步骤询问用户:

hljs python
agent = Agent(
    task="帮我在某电商网站搜索产品并下单",
    llm=ChatOpenAI(model="gpt-4o"),
    human_in_the_loop=True  # 启用人机协作模式
)
Browser Use工作流

六、国内自建模型与Browser Use集成

除了使用国际知名的大型模型外,国内用户也可以考虑将国产开源模型与Browser Use集成使用:

6.1 使用国产开源模型

hljs python
# 使用基于智谱API的模型
from langchain_zhipuai import ChatZhipu

async def main():
    agent = Agent(
        task="在百度搜索最新的AI技术新闻",
        llm=ChatZhipu(model_name="glm-4", temperature=0),
    )
    await agent.run()

6.2 本地部署模型

对于有条件的用户,可以考虑本地部署开源模型:

hljs python
# 使用本地Ollama部署的模型
from langchain_ollama import Ollama

async def main():
    agent = Agent(
        task="查找最新的科技产品信息",
        llm=Ollama(model="qwen:14b"),
    )
    await agent.run()

七、常见问题与解决方案

7.1 浏览器控制问题

问题:AI无法正确点击或识别某些网页元素 解决方案

  • 提供更具体的任务描述,包括可能的元素位置
  • 使用更高级的模型(如GPT-4o或Claude 3.5 Sonnet)
  • 尝试使用CSS选择器或XPath来明确定位元素

7.2 处理需要登录的网站

问题:许多操作需要用户登录 解决方案

  • 使用playwright的持久会话功能保存登录状态
  • 考虑使用密码管理器集成
  • 对于敏感账户,采用人机协作模式,让用户手动登录

7.3 性能优化

问题:Browser Use在复杂任务中可能较慢 解决方案

  • 使用响应更快的模型
  • 拆分复杂任务为多个简单任务
  • 增加系统内存和处理能力
  • 使用laozhang.ai的专业版API以获得更高的并发和响应速度

八、安全与隐私建议

使用Browser Use时,请注意以下安全与隐私事项:

  1. 避免敏感信息:不要让AI访问包含个人敏感信息的网页
  2. API密钥保护:妥善保管API密钥,不要泄露或公开分享
  3. 合规使用:尊重网站的使用条款和robots.txt规定
  4. 监督AI行为:启用屏幕录制并定期检查AI的操作
  5. 限制权限:仅提供AI完成任务所需的最小权限

结语:Browser Use的未来发展

Browser Use代表了AI代理与网络交互的未来方向。随着技术的发展,我们可以期待以下方面的改进:

  • 更强的记忆压缩和RAG能力,提升长任务处理能力
  • 增强的规划能力,能够针对特定网站加载优化上下文
  • 更高效的DOM元素提取和状态表示
  • 复杂UI元素(如日期选择器、下拉菜单)的更好支持
  • 人机协作执行的优化体验
  • 用于特定任务的微调模型

通过laozhang.ai提供的中转API服务,国内用户现在就能便捷地使用这一强大工具,无需科学上网,无需海外支付方式,让AI浏览器控制的应用场景在工作和日常生活中不断扩展。

立即访问laozhang.ai注册账号,新用户即可获得1美元免费额度,体验Browser Use带来的全新AI使用体验!

推荐阅读