რა არის ფაილის ენტროპია

რა არის ფაილის ენტროპია
რა არის ფაილის ენტროპია

ვიდეო: რა არის ფაილის ენტროპია

ვიდეო: რა არის ფაილის ენტროპია
ვიდეო: სამი ვიდეო და სამი მაღალჩინოსანი - რა საიდუმლო ფაილები ნახა ბაჩალიაშვილმა? 2024, დეკემბერი
Anonim

ნებისმიერი კომპიუტერული ფაილი შედგება ბაიტებისგან. ბაიტს შეუძლია მიიღოს მნიშვნელობები 0-დან 255-მდე. ინფორმაციის ენტროპია არის სტატისტიკური პარამეტრი, რომელიც აჩვენებს ფაილში გარკვეული ბაიტების წარმოქმნის ალბათობას.

რა არის ფაილის ენტროპია
რა არის ფაილის ენტროპია

თქვენ შეგიძლიათ ვიზუალურად შეაფასოთ ენტროპიის ხარისხი ჰისტოგრამის გამოყენებით - ფაილში იგივე ბაიტების გამეორების ალბათობის განაწილება. ფაილის ენტროპიიდან შეგვიძლია გამოვიცნოთ თუ რა ტიპის ფაილია ჩვენს წინაშე, მხოლოდ მისი ჰისტოგრამის დანახვა.

დემონსტრირებისთვის ავიღოთ სხვადასხვა ტიპის სამი ფაილი და შევადაროთ მათი ჰისტოგრამები. მოდით პირველი იყოს ტექსტური ფაილი (*. TXT). მისი ჰისტოგრამა ნაჩვენებია ნახატზე:

гистограмма=
гистограмма=

ტექსტური ფაილი შეიცავს მხოლოდ ტექსტს. ტექსტის თითოეული სიმბოლო დაშიფრულია გარკვეული ბაიტით, კოდირების ცხრილის შესაბამისად. მიუხედავად იმისა, რომ კოდირების ტიპების დიდი რაოდენობაა, აშკარაა, რომ ალფანუმერული სიმბოლოების შეზღუდული რაოდენობაა, რაც, როგორც წესი, 255-ზე ნაკლებია. ამიტომ, პირველ ჰისტოგრამაზე მხოლოდ ზოგიერთი ადგილია დაკავებული, ზოგი ბაიტი კი საერთოდ არ არის.

შემდეგი ფაილი იქნება PDF ფორმატში:

гистограмма=
гистограмма=

ეს ფაილი შეიცავს ყველა შესაძლო ბაიტს, რადგან PDF კოდირებულია ტექსტური ფაილებისგან განსხვავებით. იგი ინახავს უამრავ სერვისულ ინფორმაციას: ფორმატირება, შრიფტები, სურათები და ა.შ. მაგრამ მისი ჰისტოგრამა გვიჩვენებს, რომ ზოგიერთი ბაიტი დაახლოებით თანაბარი ალბათობით ხდება, სხვები კი - ბევრად უფრო ხშირად, ვიდრე სხვები. აქედან გამომდინარე, ჰისტოგრამაზე მრავლობითი მკვეთრი აფეთქებებია და, ზოგადად, მას აქვს საკმაოდ "გახეხილი" გარეგნობა, თუმცა ის მთელ არსებულ სიგანეს უკავია.

და ბოლო ფაილი დაპატიმრებულია 7Z ფორმატში:

гистограмма=
гистограмма=

ამ ჰისტოგრამას აქვს ორი ძირითადი მახასიათებელი: პირველ რიგში, ყველა ბაიტი გვხვდება დაპრესილ ფაილში მეტნაკლებად თანაბარი ალბათობით (საკმაოდ ბრტყელი ზედა ზღვარი), მეორეც, ჰისტოგრამის ზემოთ პრაქტიკულად არ არის თავისუფალი ადგილი, რაც თითქმის სრულ არარსებობაზე მიუთითებს ზედმეტი ასეთი ფაილი. ამრიგად, შეგვიძლია დავასკვნათ, რომ არქივის ალგორითმი რაიმე განსაკუთრებული გზით "აურევს" ფაილის ბაიტებს მათი მაქსიმალური ერთნაირი განაწილების მისაღწევად.

ამრიგად, ენტროპია კომპიუტერულ მეცნიერებაში, ისევე როგორც ფიზიკაში, არის სისტემაში არსებული აშლილობის საზომი, ამ შემთხვევაში, ფაილში ბაიტების განაწილების დარღვევა. ენტროპია საშუალებას გაძლევთ შეაფასოთ ფაილის შეკუმშვის ხარისხი და - ირიბად - მისი ტიპის შესახებ.

გირჩევთ: