W poprzednich atrukułach zobaczyłeś jak stworzyć wykres punkowy i wykres słupkowy. Każdy z tych wykresów zajmował się w miarę najdokładniejszym odwzorowaniem oryginalnych danych, o żadnej agregacji nie było w nich mowy. Małym krokiem w stronę uogólnienia danych jest budowanie histogramu. Jego zastosowanie to z jednej strony przedstawienie z jakimi danymi mamy do czynienia, a z drugiej strony pozwala niekiedy ocenić, czy dane są dobrane rzetelnie, czy wybrana próbka testowa dobrze prezentuje całą populację.
Do utworzenia wykresu histogramu dane trzeba odpowiednio przygotować – sortujemy zbiór danych ze względu na właściwość/cechę, która ma być prezentowana – tutaj jest to waga kurczaka
ord_chick = chickwts[order(weight),]
Teraz można już rysować histogram:
hist(ord_chick$weight, breaks = 5)
Ideą tego wykresu jest podział danych na 5 grup, czasami mówi się „wiaderek”. Tutaj podział jest na przedziały 100-150, 150-200, 200-250, 250-300 i 300-350 i przy tych wartościach chodzi o wagę kurczaków. Wysokość słupka mówi o ilośći kurczaków z wagą przypadającą na ten przedział. Tu widać, że najwięcej kurczaków miało wagę z przedziału 200-250 – około 10. Najmniej było tych największych 300-350.
Ilość słupków można łatwo zmienić:
hist(ord_chick$weight, breaks = 10)
Sam wygląd wykresu można oczywiście zmieniać przy pomocy licznych parametrów polecenia, np:
- ylim – wysokość osi y, która do tej pory była ustalana automatycznie
- xlab, ylab – opisy osi
- col – kolor
hist(ord_chick$weight, breaks = 10, ylim=c(0,10), ylab="Number of chickens", xlab="Chicken's weight", col = 'green')