gpt crawler下载-gpt crawler免费版下载-源码网

gpt crawler

德意志| Español| Français| 日本语| 한국어|葡萄牙| n 中文

爬网网站生成知识文件以从一个或多个URL创建您自己的自定义GPT

例子
开始
- 本地运行
  - 克隆存储库
  - 安装依赖项
  - 配置爬虫
  - 运行您的爬行者
- 替代方法
  - 在带有Docker的容器中运行
  - 作为API运行
- 将数据上传到OpenAI
  - 创建自定义GPT
  - 创建自定义助手
贡献

例子

这是我迅速提出的自定义GPT，以帮助回答有关如何使用和集成builder.io的问题，只需将URL提供给构建器文档即可。

该项目使文档爬行，并生成了我上传的文件作为自定义GPT的基础。

通过询问有关如何将Builder.io集成到网站的问题来尝试一下。

请注意，您可能需要一个付费的CHATGPT计划来访问此功能

开始

本地运行

克隆存储库

确保您已安装Node.js> = 16。

git clone https://git*h**ub.com/builderio/gpt-crawler

安装依赖项

npm i

配置爬虫

打开config.ts并编辑URL和Selector属性以符合您的需求。

例如，爬网builder.io文档以使我们可以使用我们的自定义GPT：

 export const defaultConfig : Config = {
  url : "https://www.*buil*d*er.io/c/docs/developers" ,
  match : "https://www.b*ui*l*der.io/c/docs/**" ,
  selector : `.docs-builder-container` ,
  maxPagesToCrawl : 50 ,
  outputFileName : "output.json" ,
} ;

有关所有可用选项，请参见Config.ts。这是常见配置选项的示例：

 type Config = {
  /** URL to start the crawl, if sitemap is provided then it will be used instead and download all pages in the sitemap */
  url : string ;
  /** Pattern to match against for links on a page to subsequently crawl */
  match : string ;
  /** Selector to grab the inner text from */
  selector : string ;
  /** Don't crawl more than this many pages */
  maxPagesToCrawl : number ;
  /** File name for the finished data */
  outputFileName : string ;
  /** Optional resources to exclude
   *
   * @example
   * ['png','jpg','jpeg','gif','svg','css','js','ico','woff','woff2','ttf','eot','otf','mp4','mp3','webm','ogg','wav','flac','aac','zip','tar','gz','rar','7z','exe','dmg','apk','csv','xls','xlsx','doc','docx','pdf','epub','iso','dmg','bin','ppt','pptx','odt','avi','mkv','xml','json','yml','yaml','rss','atom','swf','txt','dart','webp','bmp','tif','psd','ai','indd','eps','ps','zipx','srt','wasm','m4v','m4a','webp','weba','m4b','opus','ogv','ogm','oga','spx','ogx','flv','3gp','3g2','jxr','wdp','jng','hief','avif','apng','avifs','heif','heic','cur','ico','ani','jp2','jpm','jpx','mj2','wmv','wma','aac','tif','tiff','mpg','mpeg','mov','avi','wmv','flv','swf','mkv','m4v','m4p','m4b','m4r','m4a','mp3','wav','wma','ogg','oga','webm','3gp','3g2','flac','spx','amr','mid','midi','mka','dts','ac3','eac3','weba','m3u','m3u8','ts','wpl','pls','vob','ifo','bup','svcd','drc','dsm','dsv','dsa','dss','vivo','ivf','dvd','fli','flc','flic','flic','mng','asf','m2v','asx','ram','ra','rm','rpm','roq','smi','smil','wmf','wmz','wmd','wvx','wmx','movie','wri','ins','isp','acsm','djvu','fb2','xps','oxps','ps','eps','ai','prn','svg','dwg','dxf','ttf','fnt','fon','otf','cab']
   */
  resourceExclusions ?: string [ ] ;
  /** Optional maximum file size in megabytes to include in the output file */
  maxFileSize ?: number ;
  /** Optional maximum number tokens to include in the output file */
  maxTokens ?: number ;
} ;

运行您的爬行者

npm start

替代方法

在带有Docker的容器中运行

要通过容器化执行获得输出。JSON，请进入ContainerApp目录，然后修改Config.ts，如上所示。 output.jsonfile应在数据文件夹中生成。注意：Config.ts文件中的outputFileName属性配置为与容器一起使用。

作为API运行

要作为API服务器运行该应用程序，您需要进行NPM安装以安装依赖项。该服务器用Express JS编写。

运行服务器。

NPM运行启动：启动服务器的服务器。默认情况下，该服务器在端口3000上运行。

您可以将端点 /爬网与配置JSON的POST请求主体一起运行爬网。 API文档在端点 /API-DOC上提供，并使用Swagger提供。

要修改环境，您可以将.ENV.example复制到.env并设置诸如端口等的值，以覆盖服务器的变量。

将数据上传到OpenAI

爬网将生成一个名为output.json的文件。将其上传到OpenAI创建您的自定义助手或自定义GPT。

创建自定义GPT

将此选项用于UI访问您的生成知识，您可以轻松地与他人共享

注意：您可能需要一个付费的CHATGPT计划来立即创建和使用自定义GPTS

访问https://chat.o*pe**nai.com/
在左下角点击您的名字
在菜单中选择“我的gpts”
选择“创建GPT”
选择“配置”
在“知识”下，选择“上传文件”并上传您生成的文件
如果您遇到有关文件太大的错误，则可以尝试将其拆分为多个文件，并使用config.ts文件中的选项maxfilesize单独上传它们，或者还使用令牌化以使用config.ts File中的选项maxokens减少文件的大小。

创建自定义助手

使用此选项将API访问您可以集成到产品中的生成知识。

访问https://platform.ope**na*i.com/assistants
单击“+创建”
选择“上传”并上传您生成的文件

贡献

知道如何使这个项目变得更好吗？发送公关！

gpt crawler

gpt crawler

例子

开始

本地运行

克隆存储库

安装依赖项

配置爬虫

运行您的爬行者

替代方法

在带有Docker的容器中运行

作为API运行

将数据上传到OpenAI

创建自定义GPT

创建自定义助手

贡献

相关文章

haystack

learnopencv

h4cker

CopilotKit

推荐阅读

向上：银河游戏免安装正式版

风暴驭使正式中文版

冥河：贪婪之刃中文试玩版

超级键盘侠免安装绿色中文版