Scrapegraph ai下载-Scrapegraph ai中文版下载-源码网

寻找一种更快，更简单的方式来大规模刮擦（只有5行代码）？在Scrapegraphai.com上查看我们的增强版本！

?️Scrapegraphai：您只刮擦一次

英语| 中文| 日本语| 한국어| n Türkçe|德意志| Español| Français|葡萄牙

ScrapeGraphai是一个使用LLM和Direct Graph Logic的Web刮擦Python库来创建用于网站和本地文档的刮擦管道（XML，HTML，JSON，MARKDOWN等）。

只需说您要提取哪些信息，图书馆就会为您完成！

集成

Scrapegraphai提供了与流行框架和工具无缝集成，以增强您的刮擦功能。无论您是使用Python还是Node.js构建，使用LLM Frameworks或使用NoCode平台，我们都可以覆盖我们的全面集成选项。

您可以在以下链接中找到更多信息

集成：

API ：文档
SDK ：Python，节点
LLM框架：Langchain，Llama Index，Crew.ai，Agno，Camelai
低代码框架：管道，气泡，Zapier，N8N，Dify
MCP服务器：链接

快速安装

ScrapeGraph-ai的参考页面可在PYPI：PYPI的官方页面上找到。

pip install scrapegraphai

# IMPORTANT (for fetching websites content)
playwright install

注意：建议在虚拟环境中安装库，以避免与其他库发生冲突?

用法

有多种标准刮擦管道可用于从网站（或本地文件）中提取信息。

最常见的是SmartScraperGraph，它从给定用户提示和源URL的单个页面中提取信息。

 from scrapegraphai . graphs import SmartScraperGraph

# Define the configuration for the scraping pipeline
graph_config = {
    "llm" : {
        "model" : "ollama/llama3.2" ,
        "model_tokens" : 8192
    },
    "verbose" : True ,
    "headless" : False ,
}

# Create the SmartScraperGraph instance
smart_scraper_graph = SmartScraperGraph (
    prompt = "Extract useful information from the webpage, including a description of what the company does, founders and social media links" ,
    source = "https://*scr*apegra*phai.com/" ,
    config = graph_config
)

# Run the pipeline
result = smart_scraper_graph . run ()

import json
print ( json . dumps ( result , indent = 4 ))

笔记

对于OpenAI和其他型号，您只需要更改LLM配置！

 graph_config = {
   "llm" : {
       "api_key" : "YOUR_OPENAI_API_KEY" ,
       "model" : "openai/gpt-4o-mini" ,
   },
   "verbose" : True ,
   "headless" : False ,
}

输出将是如下的字典：

{
    "description" : "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction." ,
    "founders" : [
        {
            "name" : "" ,
            "role" : "Founder & Technical Lead" ,
            "linkedin" : "https://www.*l*ink*edin.com/in/perinim/"
        },
        {
            "name" : "Marco Vinciguerra" ,
            "role" : "Founder & Software Engineer" ,
            "linkedin" : "https://www.*lin*ked*in.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name" : "Lorenzo Padoan" ,
            "role" : "Founder & Product Engineer" ,
            "linkedin" : "https://www.li**nk*edin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links" : {
        "linkedin" : "https://www.link*edi**n.com/company/101881123" ,
        "twitter" : "https://x*.com/s*c*rapegraphai" ,
        "github" : "https://g*i*thub.*com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

还有其他管道可用于从多个页面中提取信息，生成python脚本，甚至生成音频文件。

管道名称	描述
SmartScrapergraph	仅需要用户提示和输入源的单页刮板。
搜索图	多页刮板从搜索引擎的顶部搜索结果中提取信息。
语音图	单页刮板从网站提取信息并生成音频文件。
ScriptCreatorGraph	单页刮板从网站提取信息并生成Python脚本。
Smartscrapersultraph	多页刮板，从一个提示和一个来源列表中提取多个页面中的信息。
ScriptCreatormultaph	多页刮板生成一个Python脚本，用于从多个页面和来源中提取信息。

对于这些图，都有多版本。它允许并行呼叫LLM。

可以通过API（例如OpenAI ， Groq ， Azure和Gemini ）或使用Ollama的本地模型使用不同的LLM。

请记住，如果要使用本地型号，请安装Ollama并使用Ollama Pull命令下载模型。

文档

Scrapegraphai的文档可以在此处找到。还在这里查看纪录片。

?贡献

随时贡献并加入我们的Discord服务器，与我们进行改进并提出建议！

请参阅贡献指南。

scrapegraph API和SDK

如果您正在寻找一个快速的解决方案来集成系统中的ScrapeGraph，请在此处查看我们功能强大的API！

我们在Python和Node.js中提供SDK，从而易于集成到您的项目中。在下面查看它们：

SDK	语言	github链接
Python SDK	Python	Scrapegraph-py
Node.js SDK	node.js	Scrapegraph-js

可以在此处找到官方的API文档。

?遥测

我们收集匿名用法指标，以增强包装的质量和用户体验。数据有助于我们确定改进的优先级并确保兼容性。如果您想选择退出，请设置环境变量ScrapeGraphai_telemetry_enabled = false。有关更多信息，请参考此处的文档。

❤️贡献者

?引用

如果您将我们的图书馆用于研究目的，请引用我们以下参考：

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://*gith*u*b.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

作者

	联系信息
Marco Vinciguerra
洛伦佐·帕多安（Lorenzo Padoan）

执照

Scrapegraphai已获得MIT许可证的许可。有关更多信息，请参见许可证文件。

致谢

我们要感谢该项目和开源社区的所有贡献者的支持。
ScrapeGraphai仅用于数据探索和研究目的。我们对图书馆的任何滥用概不负责。

由Scrapegraph ai制成的

围巾跟踪

Scrapegraph ai

寻找一种更快，更简单的方式来大规模刮擦（只有5行代码）？在Scrapegraphai.com上查看我们的增强版本！

?️Scrapegraphai：您只刮擦一次

集成

快速安装

用法

文档

?贡献

scrapegraph API和SDK

?遥测

❤️贡献者

?引用

作者

执照

致谢

相关文章

recommenders

daytona

pandas ai

mlflow

推荐阅读

向上：银河游戏免安装正式版

风暴驭使正式中文版

冥河：贪婪之刃中文试玩版

超级键盘侠免安装绿色中文版