寻找一种更快,更简单的方式来大规模刮擦(只有5行代码)?在Scrapegraphai.com上查看我们的增强版本!
?️Scrapegraphai:您只刮擦一次
英语| 中文| 日本语| 한국어| n Türkçe|德意志| Español| Français|葡萄牙
ScrapeGraphai是一个使用LLM和Direct Graph Logic的Web刮擦Python库来创建用于网站和本地文档的刮擦管道(XML,HTML,JSON,MARKDOWN等)。
只需说您要提取哪些信息,图书馆就会为您完成!
集成
Scrapegraphai提供了与流行框架和工具无缝集成,以增强您的刮擦功能。无论您是使用Python还是Node.js构建,使用LLM Frameworks或使用NoCode平台,我们都可以覆盖我们的全面集成选项。
您可以在以下链接中找到更多信息
集成:
集成:
- API :文档
- SDK :Python,节点
- LLM框架:Langchain,Llama Index,Crew.ai,Agno,Camelai
- 低代码框架:管道,气泡,Zapier,N8N,Dify
- MCP服务器:链接
快速安装
ScrapeGraph-ai的参考页面可在PYPI:PYPI的官方页面上找到。
pip install scrapegraphai
# IMPORTANT (for fetching websites content)
playwright install注意:建议在虚拟环境中安装库,以避免与其他库发生冲突?
用法
有多种标准刮擦管道可用于从网站(或本地文件)中提取信息。
最常见的是SmartScraperGraph,它从给定用户提示和源URL的单个页面中提取信息。
from scrapegraphai . graphs import SmartScraperGraph
# Define the configuration for the scraping pipeline
graph_config = {
"llm" : {
"model" : "ollama/llama3.2" ,
"model_tokens" : 8192
},
"verbose" : True ,
"headless" : False ,
}
# Create the SmartScraperGraph instance
smart_scraper_graph = SmartScraperGraph (
prompt = "Extract useful information from the webpage, including a description of what the company does, founders and social media links" ,
source = "https://*scr*apegra*phai.com/" ,
config = graph_config
)
# Run the pipeline
result = smart_scraper_graph . run ()
import json
print ( json . dumps ( result , indent = 4 ))笔记
对于OpenAI和其他型号,您只需要更改LLM配置!
graph_config = {
"llm" : {
"api_key" : "YOUR_OPENAI_API_KEY" ,
"model" : "openai/gpt-4o-mini" ,
},
"verbose" : True ,
"headless" : False ,
}输出将是如下的字典:
{
"description" : "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction." ,
"founders" : [
{
"name" : "" ,
"role" : "Founder & Technical Lead" ,
"linkedin" : "https://www.*l*ink*edin.com/in/perinim/"
},
{
"name" : "Marco Vinciguerra" ,
"role" : "Founder & Software Engineer" ,
"linkedin" : "https://www.*lin*ked*in.com/in/marco-vinciguerra-7ba365242/"
},
{
"name" : "Lorenzo Padoan" ,
"role" : "Founder & Product Engineer" ,
"linkedin" : "https://www.li**nk*edin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links" : {
"linkedin" : "https://www.link*edi**n.com/company/101881123" ,
"twitter" : "https://x*.com/s*c*rapegraphai" ,
"github" : "https://g*i*thub.*com/ScrapeGraphAI/Scrapegraph-ai"
}
}还有其他管道可用于从多个页面中提取信息,生成python脚本,甚至生成音频文件。
| 管道名称 | 描述 |
|---|---|
| SmartScrapergraph | 仅需要用户提示和输入源的单页刮板。 |
| 搜索图 | 多页刮板从搜索引擎的顶部搜索结果中提取信息。 |
| 语音图 | 单页刮板从网站提取信息并生成音频文件。 |
| ScriptCreatorGraph | 单页刮板从网站提取信息并生成Python脚本。 |
| Smartscrapersultraph | 多页刮板,从一个提示和一个来源列表中提取多个页面中的信息。 |
| ScriptCreatormultaph | 多页刮板生成一个Python脚本,用于从多个页面和来源中提取信息。 |
对于这些图,都有多版本。它允许并行呼叫LLM。
可以通过API(例如OpenAI , Groq , Azure和Gemini )或使用Ollama的本地模型使用不同的LLM。
请记住,如果要使用本地型号,请安装Ollama并使用Ollama Pull命令下载模型。
文档
Scrapegraphai的文档可以在此处找到。还在这里查看纪录片。
?贡献
随时贡献并加入我们的Discord服务器,与我们进行改进并提出建议!
请参阅贡献指南。
scrapegraph API和SDK
如果您正在寻找一个快速的解决方案来集成系统中的ScrapeGraph,请在此处查看我们功能强大的API!
我们在Python和Node.js中提供SDK,从而易于集成到您的项目中。在下面查看它们:
| SDK | 语言 | github链接 |
|---|---|---|
| Python SDK | Python | Scrapegraph-py |
| Node.js SDK | node.js | Scrapegraph-js |
可以在此处找到官方的API文档。
?遥测
我们收集匿名用法指标,以增强包装的质量和用户体验。数据有助于我们确定改进的优先级并确保兼容性。如果您想选择退出,请设置环境变量ScrapeGraphai_telemetry_enabled = false。有关更多信息,请参考此处的文档。
❤️贡献者
?引用
如果您将我们的图书馆用于研究目的,请引用我们以下参考:
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://*gith*u*b.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}
作者
| 联系信息 | |
|---|---|
| Marco Vinciguerra | |
| 洛伦佐·帕多安(Lorenzo Padoan) |
执照
Scrapegraphai已获得MIT许可证的许可。有关更多信息,请参见许可证文件。
致谢
- 我们要感谢该项目和开源社区的所有贡献者的支持。
- ScrapeGraphai仅用于数据探索和研究目的。我们对图书馆的任何滥用概不负责。
由Scrapegraph ai制成的
围巾跟踪
通过命令行克隆项目: