개발관련/Git

git 히스토리에서 큰 커밋을 찾고 식별하는 방법

Rateye 2021. 12. 14. 14:09
728x90
반응형
질문 : git 히스토리에서 큰 커밋을 찾고 식별하는 방법은 무엇입니까?

300MB git repo가 있습니다. 현재 체크 아웃 한 파일의 총 크기는 2MB이고 나머지 git repo의 총 크기는 298MB입니다. 이것은 기본적으로 몇 MB를 넘지 않아야하는 코드 전용 저장소입니다.

누군가 실수로 큰 파일 (비디오, 이미지 등)을 커밋 한 다음 제거했지만 git에서는 제거하지 않았기 때문에 기록에는 여전히 쓸모없는 대용량 파일이 포함되어 있습니다. git 히스토리에서 대용량 파일을 어떻게 찾을 수 있습니까? 400 개 이상의 커밋이 있으므로 하나씩 진행하는 것은 실용적이지 않습니다.

참고 : 내 질문 파일을 제거하는 방법이 아니라 처음에 파일을 찾는 방법에 관한 것입니다.

답변

이 스크립트는 과거에 git 저장소에서 크고 분명하지 않은 개체를 찾는 데 매우 유용하다는 것을 알았습니다.


#!/bin/bash
#set -x 
 
# Shows you the largest objects in your repo's pack file.
# Written for osx.
#
# @see https://stubbisms.wordpress.com/2009/07/10/git-script-to-show-largest-pack-objects-and-trim-your-waist-line/
# @author Antony Stubbs
 
# set the internal field separator to line break, so that we can iterate easily over the verify-pack output
IFS=$'\n';
 
# list all objects including their size, sort by size, take top 10
objects=`git verify-pack -v .git/objects/pack/pack-*.idx | grep -v chain | sort -k3nr | head`
 
echo "All sizes are in kB's. The pack column is the size of the object, compressed, inside the pack file."
 
output="size,pack,SHA,location"
allObjects=`git rev-list --all --objects`
for y in $objects
do
    # extract the size in bytes
    size=$((`echo $y | cut -f 5 -d ' '`/1024))
    # extract the compressed size in bytes
    compressedSize=$((`echo $y | cut -f 6 -d ' '`/1024))
    # extract the SHA
    sha=`echo $y | cut -f 1 -d ' '`
    # find the objects location in the repository tree
    other=`echo "${allObjects}" | grep $sha`
    #lineBreak=`echo -e "\n"`
    output="${output}\n${size},${compressedSize},${other}"
done
 
echo -e $output | column -t -s ', '

그러면 Blob의 개체 이름 (SHA1sum)이 제공되고 다음과 같은 스크립트를 사용할 수 있습니다.

... 각 blob을 가리키는 커밋을 찾습니다.

출처 : https://stackoverflow.com/questions/10622179/how-to-find-identify-large-commits-in-git-history
728x90
반응형