当前位置: 首页 > news >正文

网站开发的几个主要阶段北京最大网站建设公司排名

网站开发的几个主要阶段,北京最大网站建设公司排名,杭州建筑网页设计,技术支持 鼎维重庆网站建设专家1. 背景 针对下面的文件data.csv,首先根据fid进行排序,然后分组,使相同fid的记录放到同一个excel文件中,并对每列重复的数据元素染上红色。 fid,user_id -1000078398032092029,230410010036537520 -1000078398032092029,23042301…

1. 背景

        针对下面的文件data.csv,首先根据fid进行排序,然后分组,使相同fid的记录放到同一个excel文件中,并对每列重复的数据元素染上红色。

fid,user_id
-1000078398032092029,230410010036537520
-1000078398032092029,230423010026993942
-1000078398032092029,230505010027684603
-101241766345369238,210911010005526495
-101241766345369238,211017010017923011
-101241766345369238,230113010029633164
-101241766345369238,230514010028256452
-101241766345369238,230518010036813773
-1045165137456710,220401010038956742
-1045165137456710,220401010038956742
-1050918014514687463,210805010001898014
-1050918014514687463,210805010001898014
-111(手动添加一个结束标志)

2. 分组切割文件

import pandas as pd
pd.set_option('display.max_rows', None)# 根据fid对文件进行分割,每个fid一个文件
def split_df_by_fid():df = pd.read_csv('data.csv', dtype=str)row_split_list = []  # 记录分割点索引current_fid = '-1000078398032092029'  # 第一个fidstart = 0end = startcnt = 1  # 记录当前是第几个分割子文件for fid in df['fid']:if fid != current_fid:row_split_list.append((start, end))# 当前fid组写入一个新文件df[start:end].to_csv('data_split/' + str(cnt) + '.csv', index=0)cnt += 1current_fid = fidstart = endend += 1print("总文件数: ", len(row_split_list))print(row_split_list)# [(0, 3), (3, 8), (8, 10), (10, 12)]

输出

3. 染色-写入excel

1. 找到同列重复元素

def group_by_find_duplicate_values(group_df: pd.DataFrame, col: str) -> list:value_counts = group_df[col].value_counts().reset_index()return value_counts[value_counts[col] > 1]['index'].to_list()

2. 插入图片

def inset_a_img(row_index, col_index, img_name):image_path = os.path.join("data_img/", img_name.replace('/', '_'))h, w, *_ = cv2.imread(image_path).shapescale = CEIL_HEIGHT * 1.3 / hSHEET.insert_image(row_index, col_index, image_path,  # x_offset可调整x轴图片偏移{'x_offset': 0, 'y_offset': 0, 'x_scale': scale, 'y_scale': scale, 'positioning': 1})

3. 同列相同元素染色

# -*- coding: utf-8 -*-
import os
import cv2
import tqdm
import pandas as pd
import xlsxwriter
CEIL_HEIGHT = 156def write_color():df = pd.read_csv(input_file, dtype=str)for i, col in enumerate(df.columns):SHEET.write(0, i, col)  # 第0行第i列插入表头字段try:for i, line in tqdm.tqdm(enumerate(df.itertuples())):  # tqdm: 显示进度条temp_df = df[df['fid'] == line.fid]for j, col in enumerate(df.columns):duplicate_values = group_by_find_duplicate_values(temp_df, col)content = str(df.iloc[i, j])# 染色cell_format = BOOK.add_format({'font_color': 'red' if (content in duplicate_values and j > 0) else 'black'})if col not in ('face_path', 'ocr_path'):# SHEET.write(*(i + 1, j), content, cell_format)SHEET.write(i+1, j, content, cell_format)else:if col == 'face_path' and not pd.isna(line.face_path):inset_a_img(i+1, j, line.face_path)  # 为Nan的置空,不写入图片if col == 'ocr_path' and not pd.isna(line.ocr_path):inset_a_img(i+1, j+1-1, line.ocr_path)BOOK.close()except Exception as e:print(e)if __name__ == '__main__':for file in os.listdir('data_split'):input_file = 'data_split/' + fileoutput_file = 'data_split_xlsx/' + file.replace('csv', 'xlsx')BOOK = xlsxwriter.Workbook(output_file)SHEET = BOOK.add_worksheet('sheet1')SHEET.set_default_row(CEIL_HEIGHT)SHEET.set_column(0, 60, 25)  # 分别为要修改的起始列,终止列,设置的列宽write_color()

输出

 

http://www.yayakq.cn/news/644790/

相关文章:

  • 织梦网站怎么做404页面模板重庆旅游景点
  • 被骗去国外做网站网站推广网站开发所需的知识
  • 西安做网站优化北京营销型网站开发
  • 南通中小企业网站制作淮安制作企业网站
  • 网站建设后台怎么修改2021十条重大新闻
  • 建站之星好吗阿里云 装wordpress
  • 上海网站 备案查询广告设计专业专升本有哪些专业
  • 公司名被注册网站建设网站就选用什么样的公司
  • 宁夏银川网站建设学php网站开发
  • 郑州网站建设有限公司视频营销案例
  • 商城网站设计一站式服务游戏企业用什么程序做网站
  • 湖南网站备案需要多久外贸网络营销定价策略
  • 网站免费推广方式电信网站备案管理系统
  • 网站字体字号素材模板网站
  • 怎么建设自己淘宝网站首页我的家乡网站建设
  • 怎么做装修网站平台天津建设银行官网站首页
  • wordpress建站的好处衡阳网站建设怎样收费
  • 道滘镇网站建设东莞企慕网站建设
  • 自适应网站方案dede网站重新安装
  • 唐山官方网站建设wordpress里放代码
  • 电子商务网站技术公司主页怎么写
  • 常熟港口建设费申报网站网站开发项目中的rd
  • 网站建设重庆网站上传面板
  • 昆明网站推广专员网站开发税率
  • 上海网站开发与wordpress 支付宝捐赠
  • 电子商务就是建网站给素材网站做素材方法
  • 中立建设集团有限公司网站湛江赤坎孵化器网站建设招聘
  • 广州冼村地铁站郑州360房产网查询
  • asp网站安全性搜索各大网站
  • 网页制作与网站建设试卷及答案潍坊专升本教育机构