当前位置: 首页 > news >正文

青岛企业建设网站公司wordpress 阿里云

青岛企业建设网站公司,wordpress 阿里云,小学生手工制作大全,库存管理系统软件文献copilot:调用文心一言api对论文逐段总结 当我读文献的时候,感觉读得太慢了,看翻译软件翻译的又觉得翻译的不好。于是我就写了个程序辅助我读文献,它可以逐段总结,输出格式是:原文一句话总结分段总结&a…

文献copilot:调用文心一言api对论文逐段总结

当我读文献的时候,感觉读得太慢了,看翻译软件翻译的又觉得翻译的不好。于是我就写了个程序辅助我读文献,它可以逐段总结,输出格式是:原文+一句话总结+分段总结,每一段间用分割线分割。下面给大家看看输出结果。

image-20231019235811626

image-20231019235859586

输入

一个.txt文件,这个直接从论文的网页上复制粘贴到记事本里就行。我平常看nature的期刊比较多,nature的绝大多数都可以直接复制,很方便。一个小建议是鼠标通过导航栏,找到reference,然后自下而上选择一直到标题,复制粘贴即可。

大家可以用这个论文练练手:https://www.nature.com/articles/s41587-022-01448-2。

这种方法其实没有那么优雅和便捷,我也想过用爬虫直接爬取,不过一是因为每个期刊网站不一样,不太方便;二是因为爬虫其实会更慢一些。我还想过通过pdf直接转txt或者直接用pdf来进行总结,这个可行,因为像chatdoc就做成功了,而且非常好(不过chatdoc也不能自动化地逐段总结,并且收费,个性化程度不高),但是难度较大,并且我觉得没太大必要,这种方法已经满足我的需求了。

image-20231020000028411

image-20231020000323929

运行方式

首先把输入文件和输出文件的路径确定了:

  • filepath:论文.txt所在路径(这个斜杠/,不是这个\)
  • outpath:输出路径,可以和filepath一样

大家还需要配置一下文心一言的API_KEY、SECRET_KEY,这个网上教程很多。

import json
import os
import sys
import requests
from tqdm import tqdm
from md_translator import *# 下面两行是不同的运行方式
filename = sys.argv[1] # 这是用命令行的方式
# 这是在编辑器运行的方式
# filename = "论文名字.txt"filepath = "D:/"
outpath = "D:/"# 文心一言的API_KEY、SECRET_KEY
API_KEY = "你的API_KEY"
SECRET_KEY = "你的SECRET_KEY"

编译器内运行

赋值filename为对应的文件名就行,要带后缀。

filename = "论文名字.txt"

然后直接运行即可,会显示一个进度条,结束时会自动打开输出目录。

image-20231020001952388

命令行运行

编译器运行比较麻烦,每次得改文件名,还得点击运行,命令行就方便多了。

直接进到程序的目录,然后改好环境,第二个参数改为文件名即可:

python .\paper_reader.py "论文名字.txt"

image-20231020002204581

输出结果

会输出一个名为总结-论文名字.md的文件。

第一行大标题,论文名字,接着用分割线来分割每一段,上面是英文,下面是用中文的一句话总结和分段总结。

image-20231019235811626

源代码

paper_reader.py

import json
import os
import sys
import requests
from tqdm import tqdm
from md_translator import *# 下面两行是不同的运行方式
filename = sys.argv[1] # 这是用命令行的方式
# 这是在编辑器运行的方式
# filename = "论文名字.txt"filepath = "D:/"
outpath = "D:/"# 文心一言的API_KEY、SECRET_KEY
API_KEY = "你的API_KEY"
SECRET_KEY = "你的SECRET_KEY"f = open(outpath + '总结-' + filename.split('.')[0] + '.md', 'w', encoding='utf-8')
old_out = sys.stdout
sys.stdout = fdef ask_Q(question):url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions?access_token=" + get_access_token()payload = json.dumps({"messages": [{"role": "user","content": question}]})headers = {'Content-Type': 'application/json'}response = requests.request("POST", url, headers=headers, data=payload)return response# print(response.text)def get_access_token():"""使用 AK,SK 生成鉴权签名(Access Token):return: access_token,或是None(如果错误)"""url = "https://aip.baidubce.com/oauth/2.0/token"params = {"grant_type": "client_credentials", "client_id": API_KEY, "client_secret": SECRET_KEY}return str(requests.post(url, params=params).json().get("access_token"))# %%
md_origin = md_df(filepath + filename)# %%
import copymd_res = copy.deepcopy(md_origin)
for i_zyh in tqdm(range(md_origin.shape[0])):# for i_zyh in range(1):try:if md_origin.loc[i_zyh, 'type'] == 'text':# Input = '现在你是一个专业翻译家,一个具有生物学背景的生物信息学教授,你的目标是把生物学领域学术论文中的一段翻译成中文。请翻译时不要带翻译腔,而是要翻译得自然、流畅和地道,使用优美和高雅的表达方式。请注意,提供的段落是markdown格式的,你翻译后需要保留原格式,除了提供给我翻译后的文本,我还需要你分点帮我总结这一段的精要,并且用一句话总结。现在请翻译并总结:' + \#         md_origin.loc[i_zyh, 'content']Input = '现在你是一个生物学教授,你的目标是把生物学领域学术论文中的一个"自然段(paragraph)"[分点总结],并且用[一句话总结]。请注意,呈现方式为:“一句话总结\n:……;分段总结(用markdown的有序列表格式):1. ……;2. ……;3. ……、……”,现在请总结:' + \md_origin.loc[i_zyh, 'content']# Input = '晚上吃什么'ans = ask_Q(Input)ans = json.loads(ans.text)md_res.loc[i_zyh, 'content'] = ans['result']if i_zyh == 0:print('# ' + md_origin.loc[i_zyh, 'content'])else:print(md_origin.loc[i_zyh, 'content'])# print("第",i_zyh,"行")if i_zyh != 0:print(ans['result'])# f.write(ans['result'])print('')print('------')else:# print('------')print(md_res.loc[i_zyh, 'content'])print('')print('------')# f.write(md_res.loc[i_zyh, 'content'])except Exception:print('这一段报错了,不过问题不大')
# 恢复原来的输出流
sys.stdout = old_out# 关闭文件
f.close()os.startfile(outpath)
# print('文件输出路径:\n'+outpath + 'out' + filename)

md_translator.py


# 导入所需的库
import pandas as pd
import re# 定义一个函数,用于读取markdown文件,并按段落分割
def read_markdown(file):# 打开文件,读取内容with open(file, 'r', encoding='utf-8') as f:content = f.read()# 按换行符分割内容,得到一个列表lines = content.split('\n')# 定义一个空列表,用于存储分割后的段落paragraphs = []# 定义一个空字符串,用于拼接段落paragraph = ''# 遍历每一行for line in lines:# 如果是空行,说明段落结束,将拼接好的段落添加到列表中,并清空字符串if line == '':if paragraph != '':paragraphs.append(paragraph)paragraph = ''# 如果是代码块的开始或结束标志,也说明段落结束,将拼接好的段落添加到列表中,并清空字符串elif line.startswith('```'):if paragraph != '':paragraphs.append(paragraph)paragraph = ''# 将代码块的开始或结束标志也添加到列表中paragraphs.append(line)# 如果是图片链接,也说明段落结束,将拼接好的段落添加到列表中,并清空字符串elif re.match(r'!\[.*\]\(.*\)', line):if paragraph != '':paragraphs.append(paragraph)paragraph = ''# 将图片链接也添加到列表中paragraphs.append(line)# 否则,将当前行拼接到字符串中,并加上换行符else:paragraph += line + '\n'# 如果最后还有未添加的段落,也添加到列表中if paragraph != '':paragraphs.append(paragraph)# 返回分割后的段落列表return paragraphs# 定义一个函数,用于识别每个段落的类型(文本、代码、图片)
def identify_type(paragraph):# 如果是代码块的开始或结束标志,返回'code'if paragraph.startswith('```'):return 'code'# 如果是图片链接,返回'image'elif re.match(r'!\[.*\]\(.*\)', paragraph):return 'image'# 否则,返回'text'else:return 'text'def md_df(filepath):# 调用read_markdown函数,读取markdown文件,并按段落分割# paragraphs = read_markdown(filepath + 'data/CellWalkR_Vignette.md')paragraphs = read_markdown(filepath)# 创建一个空的dataframe,有两列:'content'和'type'md_origin = pd.DataFrame(columns=['content', 'type'])# 遍历每个段落,识别其类型,并添加到dataframe中for paragraph in paragraphs:type = identify_type(paragraph)md_origin = md_origin.append({'content': paragraph, 'type': type}, ignore_index=True)# 找到第二列等于"code"的行的索引code_indices = md_origin[md_origin['type'] == 'code'].index.tolist()# 两个两个地读取索引,并设置这两个索引之间行的第二列为"code"for i in range(0, len(code_indices), 2):start_index = code_indices[i]end_index = code_indices[i + 1] if i + 1 < len(code_indices) else None# 设置这两个索引之间行的第二列为"code"md_origin.loc[start_index:end_index - 1, 'type'] = 'code'# i=0# codes=[]# while i < md_origin.shape[0]-2:#     if md_origin.loc[i,'type'] == 'code':#         codes.append(1)#         md_origin.loc[i+1,'type'] = 'code'#         i+=2#     i+=1# 将DataFrame保存为CSV文件return md_origin
# md_origin.to_csv('md_df.csv', index=False)
http://www.yayakq.cn/news/454332/

相关文章:

  • 免费网站建设c3sales在线做网站免费黄搞
  • 网站产品的详情页怎么做公司网站宣传设计
  • 手机上能不能制作网站开发正品海外购网站有哪些
  • 手机网站字体大小自适应网站建设越来越难做
  • 大气的网站首页一流的龙岗网站建设
  • net域名网站如何查询一个网站所属的主机
  • 外贸网站价格表那个网站的详情做的好
  • 深圳工程建设网站学做淘宝网站是骗子吗
  • 聊城做手机网站建设上海建设工程安全质量监督站网站
  • 保山企业网站建设美容公司网站什么做才好
  • 专门做鞋子的网站吗杭州seo网站推广软件
  • 云南旅行社网站开发网络运营与维护
  • 织梦模板下载商城网站模板(高端大气上档次:带数据)云南集优科技网站
  • 其它区便宜营销型网站建设Wordpress 打开xml rpc
  • 花都微网站建设wordpress the
  • 门户网站开发用什么框架好如何建立asp网站
  • 九江市房管局建设官方网站河北建设银行招聘网站
  • 网站什么做的wordpress脚本
  • 伊利集团网站建设实训ps设计素材网站
  • seo关键词排名优化哪好东莞网站关键词优化公司
  • 杭州萧山区抖音seo排行榜凡科网站可以做seo优化
  • 深圳专业网站设计公司价格建设h5响应式网站有什么建议
  • 网站建设教程答允苏州久远网络力天装饰口碑怎么样
  • 平面广告设计师的工作内容长沙seo技术培训
  • 南阳网站建设优化县蒙文网站建设汇报
  • vs网站制作教程网站开发主要技术路线
  • 数据查询网站如何做视频网站开发防止盗链
  • 服务定制网站全景旅游网站建设
  • 购物车网站建设做网站用突发性实例可以吗
  • 江苏省网站备案查询系统基于MVC网站建设课程设计报告