[应用开发] 东方财富网研报自动下载脚本

用户8537

用户5027

2025年12月10日修改

3447

3757

📌

作者：吵爷

基于CSDN的文章 + ChatGPT o1修改，运行脚本，会在本地根据报告的日期生成文件夹，下载所有的行业研报。脚本直接运行，文件会存储到python脚本对应目录下命名为“reports”的文件夹，有需要可以自行修改。​

注意：爬虫本身并不违法，但抓取的研报有合理的使用范围，禁止用爬虫下载的报告/数据用于商业变现等用途。本脚本仅用于个人学习使用。​

这个数据库里的所有券商报告：

common.docs_name - LarkCCM_Docs_Menu_Image

V1.0 初始版本

代码块

import os​
import time​
import requests​
import random​
import json​
from datetime import datetime, timedelta​
from requests.adapters import HTTPAdapter​
from requests.packages.urllib3.util.retry import Retry​
​
# 获取当前时间戳​
time1 = time.time()​
time2 = int(time1)​
print(time2)​
​
def re_name(excel_name):  # 去除名字中的特殊符号​
    sets = ['/', '\\', ':', '*', '?', '"', '<', '>', '|']​
    for char in excel_name:​
        if char in sets:​
            excel_name = excel_name.replace(char, '')​
    return excel_name​
​
# 设置 User-Agent 列表​
my_headers = [​
    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",​
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",​
    # ... (其他 User-Agent)​
]​
​
headers = {'User-Agent': random.choice(my_headers)}​
​
def get_page(url):  # 封装下载页面方法​
    session = requests.Session()​
    retry = Retry(connect=3, backoff_factor=0.5)​
    adapter = HTTPAdapter(max_retries=retry)​
    session.mount('http://', adapter)​
    session.mount('https://', adapter)​
    try:​
        response = session.get(url, headers=headers)​
        if response.status_code == 200:​
            return response.content.decode("utf-8")  # 应对乱码​
        else:​
            return '爬取失败！'​
    except requests.exceptions.SSLError as e:​
        print(f"SSL错误: {e}")​
        return '爬取失败！'​
​
def down_load(data_end):​
    try:​
        excel_name = data_end['title']​
        excel_organ = data_end['orgSName']​
        industryName = data_end['industryName']​
        down_loadurl = f"https://pdf.dfcfw.com/pdf/H3_{data_end['infoCode']}_1.pdf"​
        excel_name = re_name(excel_name)​
        excel_organ = re_name(excel_organ)​
        industryName = re_name(industryName)​
​
        # 使用 os.path.join 来拼接路径​
        local_folder = os.path.join(os.getcwd(), "reports")  # 将所有报告存储在 "reports" 文件夹中​
        file_name = f"{industryName}-{excel_name}-{excel_organ}.pdf"  # 文件名不包含日期​
        full_path = os.path.join(local_folder, file_name)​
​
        # 创建文件夹（如果不存在）​
        os.makedirs(local_folder, exist_ok=True)​
​
        # 检查文件是否已经存在​
        if os.path.isfile(full_path):​
            print(f"文件已存在，跳过下载: {full_path}")​
            return  # 如果文件已存在，跳过下载​
​
        # 下载并保存文件​
        with open(full_path, 'wb') as code:​
            download_pdf = requests.get(down_loadurl)​
            code.write(download_pdf.content)​
            print(f"文件已保存为: {full_path}")​
​
    except AttributeError:​
        print('没有链接')​
    except Exception as e:​
        print(f"下载文件时出错: {e}")​
​
# 获取报告列表的函数，支持指定日期范围​
def page_data(pageno_num, start_date, end_date):​
    num_random_7 = random.randint(1000000, 9999999)​
    pageno = pageno_num​
    # 生成请求URL，使用指定的日期范围​
    html_url = f'https://reportapi.eastmoney.com/report/list?cb=datatable{num_random_7}&industryCode=*&pageSize=50&industry=*&rating=*&ratingChange=*&beginTime={start_date}&endTime={end_date}&pageNo={pageno}&fields=&qType=1&orgCode=&code=*&rcode=&_={time2}'​
    html = get_page(html_url)​
    html1 = html.strip(f'datatable{num_random_7}(')​
    html2 = html1.rstrip(')')  # 去掉字符串字段​
    data_frist = json.loads(html2)​
    return data_frist​
​
# 设置起始日期和结束日期（格式：YYYY-MM-DD）​
start_date = "2024-11-22"  # 替换为所需的起始日期​
end_date = "2024-12-14"    # 替换为所需的结束日期​
​
# 主执行流程​
data_frist = page_data(str(1), start_date, end_date)​
value_list = data_frist.get('data', [])​
TotalPage = data_frist.get('TotalPage', 1)​
print(value_list)​
​
# 遍历所有页的数据​
for f in range(1, TotalPage + 1):​
    data_frist = page_data(str(f), start_date, end_date)​
    value_list = data_frist.get('data', [])​
    for data_end in value_list:​
        down_load(data_end)  # 下载每一篇报告​
​

[应用开发] 东方财富网研报自动下载脚本​

[应用开发] 东方财富网研报自动下载脚本