Назад | Перейти на главную страницу

10 ГБ ОЗУ не учитываются сверху

Вот мой free и smem вывод:

danslimmon@bad-server:~$ free -m
             total       used       free     shared    buffers     cached
Mem:         30147      29928        218          6          4       3086
-/+ buffers/cache:      26837       3309
Swap:            0          0          0

danslimmon@bad-server:~$ smem -tw
Area                           Used      Cache   Noncache
firmware/hardware                 0          0          0
kernel image                      0          0          0
kernel dynamic memory      12857576    2887440    9970136
userspace memory           17661400    1272468   16388932
free memory                  351592     351592          0
----------------------------------------------------------
                           30870568    4511500   26359068

А вот голова моей top вывод, отсортированный по RSS:

top - 15:51:13 up 248 days, 14:20,  1 user,  load average: 14.43, 11.00, 8.95
Tasks: 510 total,   2 running, 508 sleeping,   0 stopped,   0 zombie
%Cpu(s): 30.6 us,  3.8 sy,  0.9 ni, 63.8 id,  0.1 wa,  0.0 hi,  0.5 si,  0.2 st
KiB Mem:  30870568 total, 30469188 used,   401380 free,     4364 buffers
KiB Swap:        0 total,        0 used,        0 free.  2994052 cached Mem

   PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
 41801 cassand+  20   0 17.501g 7.845g 757184 S 428.9 26.6 181039:29 java
 73105 redacte+  20   0 8401132 6.181g   3684 S 251.1 21.0  11336:12 beam.smp
105293 nobody    20   0 3115584 2.060g   2284 S  97.2  7.0  28:38.51 statsd
  1743 opscent+  20   0 3347672 172816   1460 S   0.0  0.6 383:20.64 java
 73294 redacte+  30  10   70056  58952    988 S   0.3  0.2  13:39.12 consumer:00237
 73279 redacte+  30  10   68052  56916   1008 S   1.0  0.2  47:04.69 consumer:00226
 73281 redacte+  30  10   67552  56464   1012 S   1.7  0.2  61:14.90 consumer:00230
 73304 redacte+  30  10   65512  54404    984 S   0.7  0.2  37:46.67 consumer:00210
 73305 redacte+  30  10   64640  53576    988 S   1.7  0.2  73:32.57 consumer:00228
 73278 redacte+  30  10   64540  53504   1024 S   1.3  0.2  32:16.44 consumer:00212
 73308 redacte+  30  10   64452  53392   1056 S   0.7  0.2  34:27.21 consumer:00220
 73287 redacte+  30  10   64128  53016   1004 S   1.3  0.2  70:54.29 consumer:00218
 73300 redacte+  30  10   64024  52828    984 S   0.7  0.2  33:05.53 consumer:00207
 73299 redacte+  30  10   63744  52680    984 S   1.3  0.2  40:28.91 consumer:00209
 73302 redacte+  30  10   62840  51812   1028 S   1.3  0.2  45:07.17 consumer:00210
 73288 redacte+  30  10   62268  51240   1068 S   1.0  0.2  46:46.53 consumer:00209
 73297 redacte+  30  10   62988  50924    976 S   0.7  0.2  34:03.82 consumer:00203
 73296 redacte+  30  10   62024  50912    984 S   0.7  0.2  41:08.47 consumer:00205
 73280 redacte+  30  10   61748  50588    956 S   0.7  0.2  35:50.30 consumer:00203
 73303 redacte+  30  10   60632  49564    976 S   1.3  0.2  56:31.81 consumer:00182
 73290 redacte+  30  10   60512  49440    980 S   0.7  0.2  41:46.82 consumer:00195
 73283 redacte+  30  10   60444  49356    992 S   1.3  0.2  52:56.75 consumer:00196
 73289 redacte+  30  10   60328  49196    944 S   0.7  0.2  20:24.01 consumer:00189
 73291 redacte+  30  10   60164  49004   1000 S   1.3  0.2  62:30.71 consumer:00202
 73282 redacte+  30  10   59960  48876    980 S   0.7  0.2  34:53.59 consumer:00191
 73293 redacte+  30  10   59684  48512    972 S   0.7  0.2  33:04.45 consumer:00204
 73277 redacte+  30  10   58736  47628   1000 S   1.3  0.2  40:08.13 consumer:00183
 73285 redacte+  30  10   58552  47388   1012 S   0.7  0.2  35:10.61 consumer:00190
 73292 redacte+  30  10   57676  46476    980 S   0.3  0.2  22:59.14 consumer:00185
 73306 redacte+  30  10   55792  44716    988 S   1.0  0.1  21:42.18 consumer:00200
 73301 redacte+  30  10   55744  44696   1012 S   0.0  0.1  11:05.04 consumer:00194
 73298 redacte+  30  10   55128  43972    988 S   0.3  0.1  38:29.62 consumer:00187
 73286 redacte+  30  10   55024  43904    980 S   1.0  0.1  31:53.58 consumer:00170
 73295 redacte+  30  10   53276  42156   1008 S   0.3  0.1  18:50.26 consumer:00172
 73307 redacte+  30  10   52960  41884   1004 S   0.7  0.1  25:10.44 consumer:00169
 73284 redacte+  30  10   52492  41464   1024 S   0.3  0.1  25:27.32 consumer:00167
 98875 root      20   0 1034604  18088   1248 S   0.3  0.1  80:35.73 log-courier
 25696 root      20   0  779288  12232   1144 S   0.0  0.0   1304:55 collectd
  2073 root      20   0   60840  12092   1504 S   0.0  0.0  61:52.72 supervisord
  1255 root      20   0   51436   9844   1032 S   0.0  0.0  16:55.76 munin-node
 87724 root       0 -20   20936   8664   3508 S   0.0  0.0   0:05.79 atop
  2149 nobody    20   0   45352   7424   1624 S   0.0  0.0  13:49.30 consumer_probe
 16973 www-data  20   0  139148   5896   1536 S   0.0  0.0 874:07.04 nginx
 16974 www-data  20   0  139104   5880   1544 S   0.7  0.0 869:08.26 nginx
 16975 www-data  20   0  139148   5880   1532 R   8.6  0.0 880:08.30 nginx
 16972 www-data  20   0  139152   5756   1532 S   0.0  0.0 869:41.00 nginx
  1561 ds-agent  20   0   22336   5628   1004 S   0.0  0.0  87:27.22 datastax_agent_
 90639 syslog    20   0  354552   4364    676 S   0.0  0.0  24:13.76 rsyslogd
  9887 root      20   0  135816   4300   1296 S   0.0  0.0   0:00.01 nginx
101932 danslim+  20   0   21332   3800   1752 S   0.0  0.0   0:00.08 bash
101802 root      20   0  105632   3568   2580 S   0.0  0.0   0:00.01 sshd
  2065 snmp      20   0   45580   3540    764 S   0.0  0.0 171:34.48 snmpd
130366 cassand+  20   0   21120   3140   1304 S   0.0  0.0   0:00.03 bash
130349 danslim+  20   0   21224   3020   1140 S   0.0  0.0   0:00.02 bash
  1087 root      20   0   10224   2884    600 S   0.0  0.0   0:08.15 dhclient
     1 root      20   0   33648   2216    676 S   0.0  0.0   0:24.25 init
111772 danslim+  20   0   24072   2080   1156 R   0.3  0.0   0:00.11 top
101931 danslim+  20   0  105780   1756    752 S   0.3  0.0   0:00.16 sshd
 79834 postfix   20   0   40468   1716    852 S   0.0  0.0   0:32.20 tlsmgr
  3778 ntp       20   0   31444   1644   1044 S   0.0  0.0  14:21.01 ntpd
 85449 root      20   0   59640   1568   1112 S   0.0  0.0   0:00.00 cron
 85592 root      20   0   59640   1568   1112 S   0.0  0.0   0:00.00 cron
 85740 root      20   0   59640   1568   1112 S   0.0  0.0   0:00.00 cron
 85888 root      20   0   59640   1568   1112 S   0.0  0.0   0:00.00 cron
 86041 root      20   0   59640   1568   1112 S   0.0  0.0   0:00.00 cron
 87484 root      20   0   59640   1568   1112 S   0.0  0.0   0:00.00 cron
  1481 root      20   0   61364   1556    876 S   0.0  0.0   1:11.70 sshd
130365 root      20   0   65988   1468    840 S   0.0  0.0   0:00.01 sudo
   869 root      20   0   49724   1320    616 S   0.0  0.0   0:00.04 systemd-udevd
 79827 postfix   20   0   27624   1264    772 S   0.0  0.0   0:22.47 qmgr

Как видите, существует разрыв в ~ 10 ГБ между суммой значений в столбце RSS (~ 18 ГБ) и значением Used-minus-Cached в соответствии с free. Следовательно, кэшированная память очень ограничена. Стоит отметить, что java есть процесс Cassandra, и он очень многопоточен.

я прочел этот ответ, в котором говорится, что наиболее частая причина free сообщить больше используемой памяти, чем top в том, что top не включает общую память в свой столбец RSS. В этом есть смысл, и, возможно, это могло бы объяснить эту разницу в отчетах. Но мне остается только гадать, какие инструменты помогут мне выяснить, какой процесс поглощает всю память, и решить эту проблему.

Это определенно проблема, потому что у меня есть другой сервер, который должен выполнять примерно идентичную работу, и на этом сервере есть гораздо меньший промежуток (~ 400 МБ по сравнению с ~ 10 ГБ) между суммой-значений RSS и Used-minus- Кэшированная и кэшированная память на этом сервере, соответственно, гораздо менее ограничена.

Как понять, что съедает всю память?

Детали системы

uname:

danslimmon@bad-server:~$ uname -a
Linux bad-server 3.13.0-39-generic #66-Ubuntu SMP Tue Oct 28 13:30:27 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux

meminfo:

danslimmon@bad-server:~$ cat /proc/meminfo
MemTotal:       30870568 kB
MemFree:          231428 kB
Buffers:            6048 kB
Cached:          3151268 kB
SwapCached:            0 kB
Active:         19606476 kB
Inactive:        1509568 kB
Active(anon):   17969604 kB
Inactive(anon):      576 kB
Active(file):    1636872 kB
Inactive(file):  1508992 kB
Unevictable:        8656 kB
Mlocked:            8656 kB
SwapTotal:             0 kB
SwapFree:              0 kB
Dirty:              3512 kB
Writeback:             0 kB
AnonPages:      17968288 kB
Mapped:           838648 kB
Shmem:              7116 kB
Slab:             195856 kB
SReclaimable:     113120 kB
SUnreclaim:        82736 kB
KernelStack:        9112 kB
PageTables:        55016 kB
NFS_Unstable:          0 kB
Bounce:                0 kB
WritebackTmp:          0 kB
CommitLimit:    15435284 kB
Committed_AS:   17220572 kB
VmallocTotal:   34359738367 kB
VmallocUsed:       71496 kB
VmallocChunk:   34359632104 kB
HardwareCorrupted:     0 kB
AnonHugePages:  10680320 kB
HugePages_Total:       0
HugePages_Free:        0
HugePages_Rsvd:        0
HugePages_Surp:        0
Hugepagesize:       2048 kB
DirectMap4k:       59392 kB
DirectMap2M:    31528960 kB

lsmod:

danslimmon@bad-server:~$ lsmod
Module                  Size  Used by
tcp_diag               12591  0 
inet_diag              18543  1 tcp_diag
dm_crypt               23177  0 
syscopyarea            12529  0 
sysfillrect            12701  0 
sysimgblt              12640  0 
fb_sys_fops            12703  0 
serio_raw              13462  0 
isofs                  39837  0 
raid10                 48128  0 
raid456                86484  0 
async_memcpy           12762  1 raid456
async_raid6_recov      12984  1 raid456
async_pq               13365  1 raid456
async_xor              13160  2 async_pq,raid456
async_tx               13509  5 async_pq,raid456,async_xor,async_memcpy,async_raid6_recov
xor                    21411  1 async_xor
raid6_pq               97812  2 async_pq,async_raid6_recov
raid0                  17842  0 
multipath              13145  0 
linear                 12894  0 
raid1                  35530  0 
crct10dif_pclmul       14289  0 
crc32_pclmul           13113  0 
ghash_clmulni_intel    13216  0 
aesni_intel            55624  0 
aes_x86_64             17131  1 aesni_intel
lrw                    13286  1 aesni_intel
gf128mul               14951  1 lrw
glue_helper            13990  1 aesni_intel
ablk_helper            13597  1 aesni_intel
cryptd                 20359  3 ghash_clmulni_intel,aesni_intel,ablk_helper
psmouse               106714  0 
floppy                 69418  0 
ixgbevf                50771  0

slabinfo:

danslimmon@bad-server:~$ sudo cat /proc/slabinfo
slabinfo - version: 2.1
# name            <active_objs> <num_objs> <objsize> <objperslab> <pagesperslab> : tunables <limit> <batchcount> <sharedfactor> : slabdata <active_slabs> <num_slabs> <sharedavail>
isofs_inode_cache      0      0    632   51    8 : tunables    0    0    0 : slabdata      0      0      0
UDPLITEv6              0      0   1088   30    8 : tunables    0    0    0 : slabdata      0      0      0
UDPv6                480    480   1088   30    8 : tunables    0    0    0 : slabdata     16     16      0
tw_sock_TCPv6       1024   1024    256   64    4 : tunables    0    0    0 : slabdata     16     16      0
TCPv6                256    256   1984   16    8 : tunables    0    0    0 : slabdata     16     16      0
kcopyd_job             0      0   3312    9    8 : tunables    0    0    0 : slabdata      0      0      0
dm_uevent              0      0   2608   12    8 : tunables    0    0    0 : slabdata      0      0      0
dm_rq_target_io        0      0    424   38    4 : tunables    0    0    0 : slabdata      0      0      0
cfq_queue              0      0    232   70    4 : tunables    0    0    0 : slabdata      0      0      0
bsg_cmd                0      0    312   52    4 : tunables    0    0    0 : slabdata      0      0      0
mqueue_inode_cache     36     36    896   36    8 : tunables    0    0    0 : slabdata      1      1      0
fuse_request           0      0    408   40    4 : tunables    0    0    0 : slabdata      0      0      0
fuse_inode             0      0    768   42    8 : tunables    0    0    0 : slabdata      0      0      0
ecryptfs_key_record_cache      0      0    576   56    8 : tunables    0    0    0 : slabdata      0      0      0
ecryptfs_inode_cache      0      0   1024   32    8 : tunables    0    0    0 : slabdata      0      0      0
fat_inode_cache        0      0    712   46    8 : tunables    0    0    0 : slabdata      0      0      0
fat_cache              0      0     40  102    1 : tunables    0    0    0 : slabdata      0      0      0
hugetlbfs_inode_cache    864    864    600   54    8 : tunables    0    0    0 : slabdata     16     16      0
jbd2_journal_handle   1360   1360     48   85    1 : tunables    0    0    0 : slabdata     16     16      0
jbd2_journal_head   6480   6480    112   36    1 : tunables    0    0    0 : slabdata    180    180      0
jbd2_revoke_table_s    512    512     16  256    1 : tunables    0    0    0 : slabdata      2      2      0
jbd2_revoke_record_s  16128  16768     32  128    1 : tunables    0    0    0 : slabdata    131    131      0
ext4_inode_cache    7115  18546    984   33    8 : tunables    0    0    0 : slabdata    562    562      0
ext4_xattr             0      0     88   46    1 : tunables    0    0    0 : slabdata      0      0      0
ext4_free_data      9408   9408     64   64    1 : tunables    0    0    0 : slabdata    147    147      0
ext4_allocation_context   6780   6780    136   60    2 : tunables    0    0    0 : slabdata    113    113      0
ext4_io_end         8848   8848     72   56    1 : tunables    0    0    0 : slabdata    158    158      0
ext4_extent_status  15380  32232     40  102    1 : tunables    0    0    0 : slabdata    316    316      0
dquot               1024   1024    256   64    4 : tunables    0    0    0 : slabdata     16     16      0
pid_namespace          0      0   2192   14    8 : tunables    0    0    0 : slabdata      0      0      0
user_namespace         0      0    264   62    4 : tunables    0    0    0 : slabdata      0      0      0
posix_timers_cache      0      0    248   66    4 : tunables    0    0    0 : slabdata      0      0      0
UDP-Lite               0      0    896   36    8 : tunables    0    0    0 : slabdata      0      0      0
xfrm_dst_cache         0      0    448   36    4 : tunables    0    0    0 : slabdata      0      0      0
ip_fib_trie          146    146     56   73    1 : tunables    0    0    0 : slabdata      2      2      0
UDP                  576    576    896   36    8 : tunables    0    0    0 : slabdata     16     16      0
tw_sock_TCP        32835  47680    256   64    4 : tunables    0    0    0 : slabdata    745    745      0
TCP                 1134   1134   1792   18    8 : tunables    0    0    0 : slabdata     63     63      0
blkdev_queue          84     84   2264   14    8 : tunables    0    0    0 : slabdata      6      6      0
blkdev_requests     2007   2142    384   42    4 : tunables    0    0    0 : slabdata     51     51      0
blkdev_ioc           780    780    104   39    1 : tunables    0    0    0 : slabdata     20     20      0
fsnotify_event      1156   1156    120   68    2 : tunables    0    0    0 : slabdata     17     17      0
sock_inode_cache    4991   5661    640   51    8 : tunables    0    0    0 : slabdata    111    111      0
shmem_inode_cache   1392   1392    672   48    8 : tunables    0    0    0 : slabdata     29     29      0
Acpi-ParseExt      15546  15624     72   56    1 : tunables    0    0    0 : slabdata    279    279      0
Acpi-State           306    306     80   51    1 : tunables    0    0    0 : slabdata      6      6      0
Acpi-Namespace      4182   4182     40  102    1 : tunables    0    0    0 : slabdata     41     41      0
taskstats            784    784    328   49    4 : tunables    0    0    0 : slabdata     16     16      0
proc_inode_cache    8535  10250    648   50    8 : tunables    0    0    0 : slabdata    205    205      0
sigqueue             816    816    160   51    2 : tunables    0    0    0 : slabdata     16     16      0
bdev_cache           468    468    832   39    8 : tunables    0    0    0 : slabdata     12     12      0
sysfs_dir_cache    27878  28584    112   36    1 : tunables    0    0    0 : slabdata    794    794      0
mnt_cache            357    357    320   51    4 : tunables    0    0    0 : slabdata      7      7      0
inode_cache        12096  12096    584   56    8 : tunables    0    0    0 : slabdata    216    216      0
dentry             30931  45864    192   42    2 : tunables    0    0    0 : slabdata   1092   1092      0
iint_cache             0      0     72   56    1 : tunables    0    0    0 : slabdata      0      0      0
buffer_head       519830 530088    104   39    1 : tunables    0    0    0 : slabdata  13592  13592      0
mm_struct           3153   3276    896   36    8 : tunables    0    0    0 : slabdata     91     91      0
files_cache          969    969    640   51    8 : tunables    0    0    0 : slabdata     19     19      0
signal_cache        2340   2340   1088   30    8 : tunables    0    0    0 : slabdata     78     78      0
sighand_cache       1230   1230   2112   15    8 : tunables    0    0    0 : slabdata     82     82      0
task_xstate         4212   4212    832   39    8 : tunables    0    0    0 : slabdata    108    108      0
task_struct         1227   1270   6144    5    8 : tunables    0    0    0 : slabdata    254    254      0
anon_vma            9665  12544     64   64    1 : tunables    0    0    0 : slabdata    196    196      0
shared_policy_node  16716  20995     48   85    1 : tunables    0    0    0 : slabdata    247    247      0
numa_policy          170    170     24  170    1 : tunables    0    0    0 : slabdata      1      1      0
radix_tree_node    43100  64581    568   57    8 : tunables    0    0    0 : slabdata   1133   1133      0
idr_layer_cache      390    390   2112   15    8 : tunables    0    0    0 : slabdata     26     26      0
dma-kmalloc-8192       0      0   8192    4    8 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-4096       0      0   4096    8    8 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-2048       0      0   2048   16    8 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-1024       0      0   1024   32    8 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-512        0      0    512   64    8 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-256        0      0    256   64    4 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-128        0      0    128   64    2 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-64         0      0     64   64    1 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-32         0      0     32  128    1 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-16         0      0     16  256    1 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-8          0      0      8  512    1 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-192        0      0    192   42    2 : tunables    0    0    0 : slabdata      0      0      0
dma-kmalloc-96         0      0     96   42    1 : tunables    0    0    0 : slabdata      0      0      0
kmalloc-8192         372    372   8192    4    8 : tunables    0    0    0 : slabdata     93     93      0
kmalloc-4096         295    328   4096    8    8 : tunables    0    0    0 : slabdata     41     41      0
kmalloc-2048         553    592   2048   16    8 : tunables    0    0    0 : slabdata     37     37      0
kmalloc-1024        2445   2496   1024   32    8 : tunables    0    0    0 : slabdata     78     78      0
kmalloc-512        25536  25984    512   64    8 : tunables    0    0    0 : slabdata    406    406      0
kmalloc-256        11307  12864    256   64    4 : tunables    0    0    0 : slabdata    201    201      0
kmalloc-192        15569  20202    192   42    2 : tunables    0    0    0 : slabdata    481    481      0
kmalloc-128        15904  25216    128   64    2 : tunables    0    0    0 : slabdata    394    394      0
kmalloc-96          9618   9618     96   42    1 : tunables    0    0    0 : slabdata    229    229      0
kmalloc-64         22131  49536     64   64    1 : tunables    0    0    0 : slabdata    774    774      0
kmalloc-32         24966  29824     32  128    1 : tunables    0    0    0 : slabdata    233    233      0
kmalloc-16         54975  57344     16  256    1 : tunables    0    0    0 : slabdata    224    224      0
kmalloc-8          10752  10752      8  512    1 : tunables    0    0    0 : slabdata     21     21      0
kmem_cache_node      256    256     64   64    1 : tunables    0    0    0 : slabdata      4      4      0
kmem_cache           256    256    256   64    4 : tunables    0    0    0 : slabdata      4      4      0

slabtop:

danslimmon@bad-server:~$ sudo slabtop -o
 Active / Total Objects (% used)    : 939965 / 1147485 (81.9%)
 Active / Total Slabs (% used)      : 23919 / 23919 (100.0%)
 Active / Total Caches (% used)     : 63 / 96 (65.6%)
 Active / Total Size (% used)       : 174670.15K / 219106.31K (79.7%)
 Minimum / Average / Maximum Object : 0.01K / 0.19K / 8.00K

  OBJS ACTIVE  USE OBJ SIZE  SLABS OBJ/SLAB CACHE SIZE NAME
507702 423501  83%    0.10K  13018       39     52072K buffer_head
 64581  46172  71%    0.55K   1133       57     36256K radix_tree_node
 58624  58624 100%    0.02K    229      256       916K kmalloc-16
 49152  22498  45%    0.06K    768       64      3072K kmalloc-64
 46368  32154  69%    0.19K   1104       42      8832K dentry
 44736  38006  84%    0.25K    699       64     11184K tw_sock_TCP
 30090  18932  62%    0.04K    295      102      1180K ext4_extent_status
 29824  22268  74%    0.03K    233      128       932K kmalloc-32
 29448  28805  97%    0.11K    818       36      3272K sysfs_dir_cache
 25664  25664 100%    0.50K    401       64     12832K kmalloc-512
 25216  15466  61%    0.12K    394       64      3152K kmalloc-128
 20995  18058  86%    0.05K    247       85       988K shared_policy_node
 20160  15866  78%    0.19K    480       42      3840K kmalloc-192
 20031   6286  31%    0.96K    607       33     19424K ext4_inode_cache
 16768  16256  96%    0.03K    131      128       524K jbd2_revoke_record_s
 15736  15736 100%    0.07K    281       56      1124K Acpi-ParseExt
 12864  10179  79%    0.25K    201       64      3216K kmalloc-256
 12224  11706  95%    0.06K    191       64       764K anon_vma
 12096  12096 100%    0.57K    216       56      6912K inode_cache
 10752  10752 100%    0.01K     21      512        84K kmalloc-8

dmesg: Суть

Здесь free выход и /proc/meminfo на сервере с тем же заданием, но без этого признака отсутствия распределения:

danslimmon@good-server:~$ free -m
             total       used       free     shared    buffers     cached
Mem:         30148      26946       3201          2        156       9907
-/+ buffers/cache:      16882      13265
Swap:            0          0          0
danslimmon@good-server:~$ cat /proc/meminfo
MemTotal:       30871560 kB
MemFree:         3239620 kB
Buffers:          160000 kB
Cached:         10157876 kB
SwapCached:            0 kB
Active:         16048988 kB
Inactive:        4190252 kB
Active(anon):    9944028 kB
Inactive(anon):      512 kB
Active(file):    6104960 kB
Inactive(file):  4189740 kB
Unevictable:     6737636 kB
Mlocked:         6737636 kB
SwapTotal:             0 kB
SwapFree:              0 kB
Dirty:             13548 kB
Writeback:             0 kB
AnonPages:      16660296 kB
Mapped:          1840700 kB
Shmem:              2752 kB
Slab:             380296 kB
SReclaimable:     295224 kB
SUnreclaim:        85072 kB
KernelStack:       12232 kB
PageTables:        48640 kB
NFS_Unstable:          0 kB
Bounce:                0 kB
WritebackTmp:          0 kB
CommitLimit:    15435780 kB
Committed_AS:   16161132 kB
VmallocTotal:   34359738367 kB
VmallocUsed:       71464 kB
VmallocChunk:   34359649788 kB
HardwareCorrupted:     0 kB
AnonHugePages:  14536704 kB
HugePages_Total:       0
HugePages_Free:        0
HugePages_Rsvd:        0
HugePages_Surp:        0
Hugepagesize:       2048 kB
DirectMap4k:       49152 kB
DirectMap2M:    31539200 kB

danslimmon@good-server:~$ smem -tw
Area                           Used      Cache   Noncache
firmware/hardware                 0          0          0
kernel image                      0          0          0
kernel dynamic memory       8708520    8351840     356680
userspace memory           18329120    1743636   16585484
free memory                 3833920    3833920          0
----------------------------------------------------------
                           30871560   13929396   16942164

Ваш smem -tw вывод показывает, что ваше ядро ​​потребляет более 9 ГБ динамической памяти:

danslimmon@bad-server:~$ smem -tw
Area                           Used      Cache   Noncache
firmware/hardware                 0          0          0
kernel image                      0          0          0
kernel dynamic memory      12857576    2887440    9970136
userspace memory           17661400    1272468   16388932
free memory                  351592     351592          0
----------------------------------------------------------
                           30870568    4511500   26359068

Итак, некоторые модули ядра потребляют много памяти. Основные кандидаты - это капли с закрытым исходным кодом в качестве драйвера ядра NVIDIA.

Можете ли вы опубликовать вывод lsmod и cat /proc/slabinfo ?

Вы, очевидно, знаете о проблеме с общей памятью при интерпретации данных RSS, поэтому я не буду останавливаться на этом.

Системы Linux сильно различаются (например, подумайте о встроенных системах), но я думаю, что список процессов, которые вы получаете сверху, выглядит неполным, с небольшим количеством системных процессов. Вы заметите, что у вас есть процесс инициализации с PID = 1 и ничего больше до PID = 869. Я думаю, вы обнаружите, что многие из этих PID связаны с живыми процессами ядра. Возможно, что-то там использует много оперативной памяти. Ответ @ shodanshok, безусловно, указывает на это. Вы увидите эти идентификаторы процессов в / proc, если у вас смонтирован procfs.

Мне интересно, есть ли у вас файловая система в памяти с существенным содержанием (например, /tmp). Что значит df -h выглядит как?

Если у вас установлен procfs на / proc, вы увидите там полный список идентификаторов процессов. Также / proc / $ PID / maps перечисляет области физической памяти, которые процесс отображает в свое пространство памяти, хотя интерпретация этого далеко не тривиальна.

Если вы используете Apache Cassandra, не могли бы вы указать используемую версию?

DataDog предоставляет довольно хороший инструмент для мониторинга Cassandra. (Источник: https://www.datadoghq.com/blog/how-to-monitor-cassandra-performance-metrics/ )

Некоторые другие контрольные списки для Кассандры:

Oracle рекомендует отключать прозрачные огромные страницы. Когда вы отключите его, вы увидите, что AnonHugePages будет 0. Хороший ответ можно увидеть по адресу: отключить прозрачные огромные страницы