|
特性
- 洋葱蜘蛛 (.onion) (已完成)
- 返回页面标题和地址以及关于站点的简短描述 (部分完成)
- 保存到数据库的链接 (待审查的公关)
- 从站点获取电子邮件 (已完成)
- 将抓取到的信息保存到 JSON 文件 (已完成)
- 抓取自定义域 (已完成)
- 检查链接是否有效 (已完成)
- 内置更新程序 (已完成)
- TorBot GUI (进行中)
- 社交媒体整合 (未开始) ... (将更新)
依赖
在运行 torBot 之前,请确保正确完成以下事项:
- 运行 tor service -> sudo service tor start
- 确保 torrc 配置为 SOCKS_PORT localhost:9050
- 安装 Poetry
- 禁用 Poetry virtualenvs (不需要) -> Poetry config settings.virtualenvs.create false
- 安装 TorBot Python (需要) -> poetry install
在 Linux 平台上,可以使用 install.sh 脚本为 TorBot 制作可执行文件。需要使用 chmod +x install.sh 为脚本授予正确的权限,可以运行 ./install.sh 来创建 torBot 二进制文件,运行 ./torBot 以执行程序。
下面显示了运行 torBot 的另一种方法,以及帮助说明。
- python3 torBot.py or use the -h/--help argument
- usage: torBot.py [-h] [-v] [--update] [-q] [-u URL] [-s] [-m] [-e EXTENSION]
- [-i]
- optional arguments:
- -h, --help Show this help message and exit
- -v, --version Show current version of TorBot.
- --update Update TorBot to the latest stable version
- -q, --quiet Prevent header from displaying
- -u URL, --url URL Specifiy a website link to crawl, currently returns links on that page (if used alone e.g. python3 torBot.py -u https://www.github.com)
- -s, --save Save results to a file in json format
- -m, --mail Get e-mail addresses from the crawled sites
- -e EXTENSION, --extension EXTENSION
- Specifiy additional website extensions to the
- list(.com or .org etc)
- -i, --info Info displays basic info of the scanned site (very
- slow)`
复制代码
注意:-u URL 下的所有标志,--url URL 也必须传递一个 -u 标志。
使用 Docker 来运行
- 确保有一个在 9050 端口上运行的 Tor 容器。
- 使用以下命令构建映像 (在根目录中):
- docker build -f docker/Dockerfile -t dedsecinside/torbot
- 运行容器 (确保将 tor 容器链接为 tor):
- docker run --link tor:tor --rm -ti dedsecinside/torbot
准备要做的
- 可视化模块
- 为网络爬虫实现 BFS 搜索
- 使用 Golang 服务进行并发网络爬虫
- 提高稳定性 (优雅地处理错误,扩大测试覆盖率等)
- 创建用户友好的 GUI
- 随机化 Tor 连接 (随机标头和身份)
- 关键字/短语搜索
- 社交媒体整合
- 增加匿名性
- 提高效率
|
|