找回密码
 立即注册
首页 业界区 业界 AgentRun 实战:快速构建 AI 舆情实时分析专家 ...

AgentRun 实战:快速构建 AI 舆情实时分析专家

梁宁 3 天前
舆情分析是企业感知市场脉搏、预警公关危机的“听诊器”,然而传统的舆情分析系统更像是一个个“手工作坊”,面临数据收集效率低、分析深度不够、实时性差等问题,经常反馈之后,等企业拿到报告时,舆论热点早已转移,错过最佳时间。这些挑战,正是所有舆情系统开发者共同的痛点。
本方案将基于真实的代码实现,向您介绍如何使用函数计算 AgentRun 平台,构建一个现代化的“舆情分析专家”,该系统不仅实现了从数据采集到报告生成的可视化、全流程自动化,更通过流式架构,让洞察实时呈现。
系统架构设计

整个舆情分析系统采用分层架构设计,核心思想是通过代码严格控制流程执行顺序,而非依赖 LLM 的自主决策。
1.png

快速体验和效果预览

在深入技术细节前,我们先直观感受一下这套系统的效果。通过 AgentRun 平台,只需简单几步即可完成部署。
快速部署

打开阿里云函数计算 AgentRun 探索页面:
2.png

可以找到舆情分析专家案例,并点击卡片右下角进行部署,填写完整对应的参数信息即可点击右下角确定创建按钮:
3.png

此处需要稍等片刻,创建完之后可以看到体验地址,也可以跳转到运行时与沙箱看到部署完的Agent:
4.png

5.png

首页地址即右侧main_web地址,直接查看线上效果
6.png

也可以查看该应用案例代码,并进行在线二次开发:
7.png

效果体验

打开体验地址,可以看到舆情分析专家页面,此时可以输入一个词进行舆情分析:
8.png

分析过程中,系统会调用 函数计算 AgentRun 的 Sandbox 沙箱(确切说是创建的时候,选择的浏览器沙箱),可以看到 AI 控制云上的浏览器进行数据检索:
9.png

完成之后,系统会整理所有采集到的数据和信息:
10.png

最终生成文字+图表的可视化报告
11.png

12.png

AgentRun 相比传统方案的核心优势

安全隔离的执行环境

传统舆情系统通常直接在服务器上运行爬虫程序,面临着安全风险和环境污染问题。当某个网站的反爬机制触发时,可能影响整个服务器的稳定性。而 AgentRun Sandbox 提供了完全隔离的浏览器环境,即使单个采集任务出现问题,也不会影响系统的整体运行。
  1. async def create_browser_sandbox() -> Optional[BrowserSandbox]:
  2.     """创建隔离的浏览器环境,避免环境污染"""
  3.     try:
  4.         sandbox = await Sandbox.create_async(
  5.             template_type=TemplateType.BROWSER,
  6.             template_name=agentrun_browser_sandbox_name,
  7.         )
  8.         _sandboxes[sandbox.sandbox_id] = sandbox
  9.         return sandbox
  10.     except Exception as e:
  11.         # 单个Sandbox失败不影响其他实例
  12.         raise SandboxCreationError(f"创建 Sandbox 失败: {e}")
复制代码
真实浏览器环境模拟

传统爬虫方案通常使用简单的HTTP请求库,容易被现代网站的反爬机制识别和拦截。AgentRun Sandbox 提供的是真实的 Chrome 浏览器环境,能够完整执行JavaScript、处理复杂的页面交互,大大提高了数据采集的成功率。从代码中可以看到,系统通过 Playwright 连接到真实的 Chrome 实例:
  1. async with async_playwright() as playwright:
  2.     browser = await playwright.chromium.connect_over_cdp(sandbox.get_cdp_url())
  3.     context = browser.contexts[0] if browser.contexts else await browser.new_context()
  4.     page = context.pages[0] if context.pages else await context.new_page()
复制代码
可视化调试能力

函数计算 AgentRun 最独特的优势是提供了实时的 VNC 预览功能,开发者和用户可以实时观察浏览器的操作过程。这种透明性在传统方案中是无法实现的,它不仅有助于调试和优化采集逻辑,还能让用户直观地了解系统的工作状态。
13.png

弹性扩展和故障恢复

传统系统在面临大规模采集任务时,往往需要复杂的分布式架构设计。而 函数计算 AgentRun 天然支持多 Sandbox 并行处理,系统可以根据需要动态创建和销毁浏览器实例。更重要的是,当某个实例出现故障时,系统能够自动检测并重建:
  1. async def recreate_sandbox_if_closed(sandbox_id: str, error_message: str):
  2.     """智能故障检测和自动重建机制"""
  3.     closed_error_patterns = [
  4.         "Target page, context or browser has been closed",
  5.         "Browser has been closed",
  6.         "Connection closed",
  7.     ]
  8.    
  9.     is_closed_error = any(pattern.lower() in error_message.lower()
  10.                          for pattern in closed_error_patterns)
  11.    
  12.     if is_closed_error:
  13.         await remove_sandbox(sandbox_id)
  14.         new_sandbox = await create_browser_sandbox()
  15.         return new_sandbox
复制代码
AgentRun Sandbox 采用阿里云函数计算实现,支持百万沙箱模板(函数级别)并发运行,Serverless弹性伸缩,支持3.5w+沙箱/分钟,支持缩容到0,按请求感知调度。
后端核心实现

Agent 工具链设计

系统的核心是一个基于 PydanticAI 的智能体,该智能体包含四个关键工具,每个工具负责舆情分析的不同阶段。Agent 的设计遵循严格的执行顺序,确保数据收集的完整性和分析的准确性。
  1. opinion_agent = Agent(
  2.     agentrun_model,
  3.     deps_type=StateDeps,
  4.     system_prompt="""你是舆情分析系统的执行者。
  5. 你的任务是按照以下严格流程执行舆情分析:
  6. 【流程】
  7. 1. 收到关键词后,调用 collect_data 工具收集数据
  8. 2. 数据收集完成后,调用 analyze_data 工具分析数据
  9. 3. 分析完成后,调用 write_report 工具撰写报告
  10. 4. 报告完成后,调用 render_html 工具生成 HTML
  11. 【重要规则】
  12. - 必须按顺序调用工具
  13. - 每个工具只调用一次
  14. - 不要跳过任何步骤
  15. - 不要编造数据
  16. """,
  17.     retries=3,
  18. )
复制代码
流式输出与实时反馈

传统舆情系统通常采用批处理模式,用户需要等待很长时间才能看到结果。而基于 函数计算 AgentRun 的系统实现了真正的流式输出,用户可以实时观察每个处理步骤的进展。这种实时性不仅提升了用户体验,也便于及时发现和解决问题。
  1. async def push_state_event(run_id: str, state: OpinionState):
  2.     """实时推送状态更新,用户无需等待"""
  3.     event = StateSnapshotEvent(
  4.         type=EventType.STATE_SNAPSHOT,
  5.         snapshot=state.model_dump(),
  6.         timestamp=int(time.time() * 1000)
  7.     )
  8.     await event_manager.push_event(run_id, event)
复制代码
智能数据质量控制

系统实现了严格的数据质量控制机制,通过多维度评估确保收集到的数据具有较高的相关性和价值。这种质量控制在传统系统中往往是缺失的,导致大量噪音数据影响分析结果。
  1. async def evaluate_relevance(keyword: str, title: str, snippet: str) -> float:
  2.     """多维度相关性评估,确保数据质量"""
  3.     text = f"{title} {snippet}"
  4.     text_lower = text.lower()
  5.    
  6.     # 检测关键词匹配度
  7.     has_chinese_keyword = any('\u4e00' <= char <= '鿿' for char in keyword)
  8.     result_has_chinese = any('\u4e00' <= char <= '鿿' for char in text)
  9.    
  10.     # 中文关键词必须在结果中有中文内容
  11.     if has_chinese_keyword and not result_has_chinese:
  12.         return 0.0
  13.    
  14.     # 排除明显的无关网站
  15.     irrelevant_patterns = [
  16.         "calculator", "deepseek", "chegg", "stackoverflow",
  17.         "翻译", "dictionary", "词典"
  18.     ]
  19.     if any(pattern in text_lower for pattern in irrelevant_patterns):
  20.         return 0.0
  21.         
  22.     # 计算相关性得分
  23.     score = 0.0
  24.     if keyword in text:
  25.         score += 0.6  # 基础分
  26.    
  27.     # 时效性加分
  28.     time_keywords = ["最新", "今日", "近日", "2024", "2025"]
  29.     if any(tk in text for tk in time_keywords):
  30.         score += 0.1
  31.    
  32.     return max(0.0, min(1.0, score))
复制代码
部署与运维优势

简化的部署流程

相比传统舆情系统需要复杂的分布式爬虫集群部署,AgentRun 系统的部署相对简单。只需要配置好环境变量和 AgentRun Sandbox 模板,系统就能自动管理浏览器实例的创建和销毁:
  1. async def explore_page_with_llm(page, keyword: str, url: str, source: str, initial_content: str):
  2.     """基于平台特性的智能内容抓取"""
  3.    
  4.     if "weibo.com" in url:
  5.         # 微博特定的评论和转发抓取
  6.         available_actions = [
  7.             {"action": "view_comments", "selector": ".WB_feed_expand, [class*='comment']"},
  8.             {"action": "view_retweets", "selector": ".WB_feed_expand, [class*='repost']"},
  9.         ]
  10.     elif "zhihu.com" in url:
  11.         # 知乎回答和评论抓取
  12.         available_actions = [
  13.             {"action": "view_more_answers", "selector": ".AnswerItem, .List-item"},
  14.             {"action": "view_comments", "selector": ".Comments-container, .CommentItem"},
  15.         ]
  16.     elif "bilibili.com" in url:
  17.         # B站视频评论抓取
  18.         available_actions = [
  19.             {"action": "view_comments", "selector": ".reply-item, .root-reply"},
  20.             {"action": "view_related", "selector": ".video-page-card, .recommend-list"},
  21.         ]
复制代码
自动化运维能力

系统内置了完善的监控和自恢复机制,大大降低了运维复杂度。当检测到异常时,系统能够自动重建资源,保证服务的连续性:
  1. async def llm_decide_exploration(keyword: str, page_url: str, page_content: str, source: str):
  2.     """LLM 智能决策是否进行深度探索"""
  3.     prompt = f"""请根据以下信息决定是否需要进一步探索页面获取更多舆情数据。
  4. 【搜索关键词】{keyword}
  5. 【当前页面】{page_url}
  6. 【已获取内容预览】{page_content[:500]}
  7. 【决策标准】
  8. 1. 如果当前内容已经足够丰富,可能不需要进一步探索
  9. 2. 如果是微博/B站等平台,评论区通常包含重要的舆情信息
  10. 3. 权衡时间成本,每个页面最多探索1-2个操作
  11. 请返回 JSON 格式的决策结果。
  12. """
  13.    
  14.     result = await explorer.run(prompt)
  15.     return json.loads(result.output)
复制代码
性能与扩展性分析

并发处理能力

传统系统的并发能力往往受限于单机资源,而 函数计算 AgentRun 系统可以根据需要动态创建多个 Sandbox 实例,实现真正的水平扩展。系统通过异步编程模型和连接池管理,能够高效处理大量并发请求:
  1. function loadScript(url) {
  2.     return new Promise(function(resolve, reject) {
  3.         var script = document.createElement('script');
  4.         script.src = baseUrl + url;
  5.         script.onload = resolve;
  6.         script.onerror = function() {
  7.             // 本地加载失败,尝试 CDN
  8.             var fallbackUrl = url.includes('wordcloud')
  9.                 ? 'https://cdn.jsdelivr.net/npm/echarts-wordcloud@2.1.0/dist/echarts-wordcloud.min.js'
  10.                 : 'https://cdn.jsdelivr.net/npm/echarts@5.4.3/dist/echarts.min.js';
  11.             var fallbackScript = document.createElement('script');
  12.             fallbackScript.src = fallbackUrl;
  13.             fallbackScript.onload = resolve;
  14.             fallbackScript.onerror = reject;
  15.             document.head.appendChild(fallbackScript);
  16.         };
  17.         document.head.appendChild(script);
  18.     });
  19. }
复制代码
资源弹性管理

系统实现了智能的资源管理策略,能够根据任务负载动态调整 Sandbox 实例数量。这种弹性扩展能力是传统固定架构难以实现的:
  1. const adjustWebSocketUrl = useCallback((url: string): string => {
  2.     const isHttps = window.location.protocol === 'https:';
  3.    
  4.     if (!isHttps && url.startsWith('wss://')) {
  5.         return url.replace('wss://', 'ws://');
  6.     }
  7.    
  8.     if (isHttps && url.startsWith('ws://')) {
  9.         return url.replace('ws://', 'wss://');
  10.     }
  11.    
  12.     return url;
  13. }, []);
复制代码
总结

基于 函数计算 AgentRun 构建的舆情分析系统展现了现代 AI 技术在实际业务场景中的强大应用潜力。相比传统方案,函数计算 AgentRun 系统在安全性、可靠性、可观测性和扩展性方面都具有显著优势。
通过隔离的浏览器环境,系统解决了传统爬虫面临的安全风险和环境污染问题。实时的 VNC 预览功能提供了前所未有的透明度,让开发者和用户能够直观地观察系统工作状态。智能的故障检测和自恢复机制大大降低了运维复杂度,而流式输出设计则显著提升了用户体验。
更重要的是,函数计算 AgentRun 系统将复杂的舆情分析任务完全自动化,从多平台数据采集、深度内容抓取、智能情感分析到专业报告生成,整个流程无需人工干预。这种端到端的自动化能力,结合 AI 技术的持续进步,将为企业和机构的舆情分析工作带来革命性的改变。
随着技术的不断发展,基于 函数计算 AgentRun 的舆情系统将在准确性、智能化程度和处理效率方面持续提升,成为现代舆情分析和危机管理的重要工具。
欢迎加入“函数计算 AgentRun 客户群”与我们交流,钉钉群号:134570017218。
快速了解函数计算 AgentRun:

​一句话介绍:​函数计算 AgentRun 是一个以高代码为核心的一站式 Agentic AI 基础设施平台。秉持生态开放和灵活组装的理念,为企业级 Agent 应用提供从开发、部署到运维的全生命周期管理。
14.png

函数计算 AgentRun 架构图
AgentRun 运行时基于阿里云函数计算 FC 构建,继承了 Serverless 计算极致弹性、按量付费、零运维的核心优势。通过深度集成 AgentScope、Langchain、RAGFlow、Mem0 等主流开源生态。AgentRun 将 Serverless 的极致弹性、零运维和按量付费的特性与 AI 原生应用场景深度融合,助力企业实现成本与效率的极致优化,平均 TCO 降低 60%
​让​开发者只需专注于 Agent 的业务逻辑创新,无需关心底层基础设施,让 Agentic AI 真正进入企业生产环境。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册