๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
IT

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

by IT supporter 2025. 2. 14.
๋ฐ˜์‘ํ˜•

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ๋Š” ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ , ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋„์ถœํ•˜๋ฉฐ, ๋น„์ฆˆ๋‹ˆ์Šค์™€ ์—ฐ๊ตฌ์— ํฐ ๊ฐ€์น˜๋ฅผ ๋”ํ•˜๋Š” ๊ธฐ์ˆ ์ด์—์š”. ์˜ค๋Š˜๋‚  ์—ฌ๋Ÿฌ ์‚ฐ์—… ๋ถ„์•ผ์—์„œ ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ๊ธ‰์ฆํ•˜๋ฉด์„œ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ๋Š” ํ•„์ˆ˜์ ์ธ ๋„๊ตฌ๋กœ ์ž๋ฆฌ ์žก์•˜๋‹ต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ๋„๊ตฌ๋“ค์ด ๊ฐ๊ธฐ ๋‹ค๋ฅธ ํŠน์„ฑ๊ณผ ์šฉ๋„๋กœ ํ™œ์šฉ๋˜๊ณ  ์žˆ์–ด์š”.

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ๋“ค์€ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘, ์ฒ˜๋ฆฌ, ์ €์žฅ, ๋ถ„์„, ์‹œ๊ฐํ™” ๋“ฑ ์ „์ฒด ๊ณผ์ •์—์„œ ์‚ฌ์šฉ๋ผ์š”. ๋„๊ตฌ๋งˆ๋‹ค ํŠน์ • ์ž‘์—…์— ํŠนํ™”๋˜์–ด ์žˆ์–ด, ๋ถ„์„ ๋ชฉ์ ๊ณผ ์š”๊ตฌ ์‚ฌํ•ญ์— ๋งž๋Š” ์„ ํƒ์ด ์ค‘์š”ํ•˜๋‹ต๋‹ˆ๋‹ค. ์ด๋ฒˆ ๊ธ€์—์„œ๋Š” Hadoop, Spark, Tableau, KNIME, Python ๋“ฑ ๋Œ€ํ‘œ์ ์ธ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์™€ ๊ทธ ํŠน์ง•์„ ์•Œ์•„๋ณผ๊ฒŒ์š”.

 

์ธ๊ณต์ง€๋Šฅ๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ฐ™์€ ์ฒจ๋‹จ ๊ธฐ์ˆ ์ด ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๋ฉด์„œ, ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ๋Š” ๋ฐ์ดํ„ฐ ๋ถ„์„๋ฟ ์•„๋‹ˆ๋ผ ์˜ˆ์ธก ๋ชจ๋ธ๋ง, ์ž๋™ํ™”์—๋„ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๊ณ  ์žˆ์–ด์š”. ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ์ดํ•ดํ•˜๊ณ  ๋ถ„์„ ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•˜๋ฉด ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์˜์‚ฌ๊ฒฐ์ •์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ๋‹ต๋‹ˆ๋‹ค.

๊ณ„์†ํ•ด์„œ ์ž์„ธํ•œ ๋‚ด์šฉ์„ ํ™•์ธํ•ด๋ณด์„ธ์š”! ๐Ÿง 

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ๊ฐœ์š”

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ๋Š” ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์™€ ๋ถ„์„ ๊ณผ์ •์„ ์ตœ์ ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋งŒ๋“ค์–ด์ง„ ๋‹ค์–‘ํ•œ ์†Œํ”„ํŠธ์›จ์–ด์™€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋งํ•ด์š”. ์ด๋Ÿฐ ๋„๊ตฌ๋“ค์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ด€๋ฆฌํ•˜๊ณ  ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์–ด์š”. ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋ฉด์„œ, ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์˜ ์†๋„์™€ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ๋„๊ตฌ๋“ค์ด ์ ์  ๋” ์ค‘์š”ํ•ด์ง€๊ณ  ์žˆ๋‹ต๋‹ˆ๋‹ค.

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ๋Š” ์ฃผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘, ์ €์žฅ, ์ฒ˜๋ฆฌ, ๋ถ„์„, ์‹œ๊ฐํ™”ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ผ์š”. ๊ฐ๊ฐ์˜ ๋„๊ตฌ๋Š” ํŠน์ • ์˜์—ญ์— ๊ฐ•์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์–ด์š”. ์˜ˆ๋ฅผ ๋“ค์–ด, Hadoop์€ ๋ฐ์ดํ„ฐ ์ €์žฅ๊ณผ ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ์— ๊ฐ•ํ•˜๊ณ , Tableau๋Š” ์ง๊ด€์ ์ธ ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”๋กœ ์œ ๋ช…ํ•ด์š”. ์„ ํƒ์€ ๋ถ„์„ ๋ชฉ์ ๊ณผ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๊ฒ ์ฃ ?

 

๊ธฐ์—…๊ณผ ์—ฐ๊ตฌ ๊ธฐ๊ด€์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•ด ํŠธ๋ Œ๋“œ ๋ถ„์„, ์˜ˆ์ธก ๋ชจ๋ธ๋ง, ๊ณ ๊ฐ ํ–‰๋™ ๋ถ„์„ ๋“ฑ์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ์žˆ์–ด์š”. ํŠนํžˆ, ์‹ค์‹œ๊ฐ„ ๋ถ„์„์ด ์ค‘์š”ํ•œ ์ƒํ™ฉ์—์„œ๋Š” Spark์™€ ๊ฐ™์€ ๋„๊ตฌ๊ฐ€ ํฐ ๋„์›€์„ ์ค€๋‹ต๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ๊ฐ ๋„๊ตฌ๋“ค์€ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋งŒ๋“ค์–ด์กŒ์–ด์š”.

 

๊ทธ๋Ÿผ, ์ด์ œ ๊ฐ ๋„๊ตฌ์˜ ํŠน์ง•๊ณผ ๊ตฌ์ฒด์ ์ธ ํ™œ์šฉ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณผ๊ฒŒ์š”! ๐Ÿ”

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

 

Hadoop: ๋ถ„์‚ฐ ์ €์žฅ๊ณผ ์ฒ˜๋ฆฌ

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

Hadoop์€ ์˜คํ”ˆ์†Œ์Šค ๊ธฐ๋ฐ˜์˜ ๋น…๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์‚ฐ ์ €์žฅํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ํŠนํ™”๋œ ๋„๊ตฌ์˜ˆ์š”. Apache Software Foundation์—์„œ ๊ฐœ๋ฐœ๋˜์—ˆ์œผ๋ฉฐ, MapReduce๋ผ๋Š” ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ ๋ฐฉ์‹์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ต๋‹ˆ๋‹ค.

 

Hadoop์˜ ๊ฐ€์žฅ ํฐ ํŠน์ง•์€ HDFS(Hadoop Distributed File System)๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์—ฌ๋Ÿฌ ๋Œ€์˜ ์„œ๋ฒ„์— ๋‚˜๋ˆ„์–ด ์ €์žฅํ•˜๊ณ , MapReduce๋ฅผ ์ด์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ‘๋ ฌ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด์—์š”. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฐฉ๋Œ€ํ•˜๋”๋ผ๋„ ์ฒ˜๋ฆฌ ์†๋„๊ฐ€ ๋น ๋ฅด๊ณ , ์„œ๋ฒ„ ํ•œ ๋Œ€๊ฐ€ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ฒจ๋„ ๋‹ค๋ฅธ ์„œ๋ฒ„๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐฑ์—…ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์•ˆ์ •์ ์ด์—์š”.

 

Hadoop์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ ํŠนํžˆ ์œ ์šฉํ•˜๋ฉฐ, ๊ธฐ์—…์˜ ๋กœ๊ทธ ๋ฐ์ดํ„ฐ ๋ถ„์„, ์†Œ์…œ ๋„คํŠธ์›Œํฌ ๋ถ„์„, ์ถ”์ฒœ ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ ๋“ฑ์— ๋งŽ์ด ํ™œ์šฉ๋ผ์š”. ๋˜ํ•œ AWS, Azure์™€ ๊ฐ™์€ ํด๋ผ์šฐ๋“œ ์„œ๋น„์Šค์—์„œ๋„ ์ง€์›๋˜๊ธฐ ๋•Œ๋ฌธ์— ํ™•์žฅ์„ฑ๋„ ๋›ฐ์–ด๋‚˜์ฃ .

 

์˜ˆ๋ฅผ ๋“ค์–ด, ํ•œ ๊ธ€๋กœ๋ฒŒ ์ „์ž์ƒ๊ฑฐ๋ž˜ ๊ธฐ์—…์€ Hadoop์„ ํ™œ์šฉํ•ด ๋งค์ผ ์ƒ์„ฑ๋˜๋Š” ์ˆ˜๋ฐฑ ํ…Œ๋ผ๋ฐ”์ดํŠธ์˜ ๋กœ๊ทธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์žˆ์–ด์š”. ์ด ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์†Œ๋น„์ž ํ–‰๋™์„ ์ดํ•ดํ•˜๊ณ  ๋งž์ถคํ˜• ์ƒํ’ˆ ์ถ”์ฒœ ์‹œ์Šคํ…œ์„ ์šด์˜ํ•˜๊ณ  ์žˆ๋‹ต๋‹ˆ๋‹ค. ๐Ÿ›’

 

Hadoop์€ ๊ฐ•๋ ฅํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ, ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ๊ฐ€ ์–ด๋ ต๋‹ค๋Š” ๋‹จ์ ๋„ ์žˆ์–ด์š”. ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด Spark์™€ ๊ฐ™์€ ๋„๊ตฌ๊ฐ€ ํ•จ๊ป˜ ์‚ฌ์šฉ๋˜๊ธฐ๋„ ํ•œ๋‹ต๋‹ˆ๋‹ค.

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

 

Apache Spark: ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

Apache Spark๋Š” ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ์˜คํ”ˆ์†Œ์Šค ๋ถ„์‚ฐ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํ”„๋ ˆ์ž„์›Œํฌ์˜ˆ์š”. Spark๋Š” Hadoop์˜ ๋‹จ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๋งŒ๋“ค์–ด์กŒ์œผ๋ฉฐ, ํŠนํžˆ ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ์ŠคํŠธ๋ฆฌ๋ฐ ์ฒ˜๋ฆฌ์— ๊ฐ•์ ์ด ์žˆ์–ด์š”. ๐Ÿ’ก

 

Spark๋Š” ๋ฉ”๋ชจ๋ฆฌ ๋‚ด ์—ฐ์‚ฐ์„ ์ง€์›ํ•ด ๊ธฐ์กด Hadoop๋ณด๋‹ค ์ฒ˜๋ฆฌ ์†๋„๊ฐ€ ์ตœ๋Œ€ 100๋ฐฐ ์ด์ƒ ๋น ๋ฅด๋‹ต๋‹ˆ๋‹ค. ๋˜ํ•œ Spark Streaming ๊ธฐ๋Šฅ์„ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ์ŠคํŠธ๋ฆผ์„ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์–ด, ๊ธˆ์œต, IoT, ์†Œ์…œ ๋ฏธ๋””์–ด ๋“ฑ์—์„œ ํ™œ์šฉ๋„๊ฐ€ ๋†’์•„์š”. ์˜ˆ๋ฅผ ๋“ค์–ด, Spark๋Š” ์‚ฌ๊ธฐ ํƒ์ง€ ์‹œ์Šคํ…œ์— ์‚ฌ์šฉ๋˜์–ด, ์€ํ–‰ ๊ฑฐ๋ž˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋ถ„์„ํ•˜๊ณ  ์ด์ƒ ์ง•ํ›„๋ฅผ ์ฆ‰๊ฐ ๊ฐ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ต๋‹ˆ๋‹ค.

 

Spark๋Š” Python, R, Java, Scala ๋“ฑ ์—ฌ๋Ÿฌ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด๋ฅผ ์ง€์›ํ•ด ๊ฐœ๋ฐœ์ž๋“ค์ด ์‰ฝ๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์–ด์š”. ํŠนํžˆ, MLlib(Machine Learning Library)๋ผ๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์„ ์‰ฝ๊ฒŒ ๊ตฌ์ถ•ํ•˜๊ณ  ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ๋„ ์žฅ์ ์ด์—์š”.

 

์˜ˆ๋ฅผ ๋“ค์–ด, ํ•œ ์ž๋™์ฐจ ์ œ์กฐ์—…์ฒด๋Š” Spark๋ฅผ ํ™œ์šฉํ•ด IoT ์„ผ์„œ์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋“ค์–ด์˜ค๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ , ๊ธฐ๊ณ„์˜ ๊ณ ์žฅ์„ ์‚ฌ์ „์— ๊ฐ์ง€ํ•˜๋Š” ์Šค๋งˆํŠธ ์œ ์ง€๋ณด์ˆ˜ ์‹œ์Šคํ…œ์„ ์šด์˜ํ•˜๊ณ  ์žˆ์–ด์š”. ์ด๋ ‡๊ฒŒ Spark๋Š” ๋น ๋ฅธ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•ด ๊ธฐ์—…์˜ ์˜์‚ฌ๊ฒฐ์ •์„ ๋•๋Š” ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ต๋‹ˆ๋‹ค.

 

Spark๋Š” Hadoop๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉ๋˜๊ฑฐ๋‚˜ ๋…๋ฆฝ์ ์œผ๋กœ๋„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์–ด์„œ ์œ ์—ฐ์„ฑ์ด ๋†’์•„์š”. ์‹ค์‹œ๊ฐ„ ๋ถ„์„์ด ํ•„์š”ํ•œ ์ƒํ™ฉ์—์„œ๋Š” Spark๊ฐ€ ๊ฐ€์žฅ ์ ํ•ฉํ•œ ์„ ํƒ์ด ๋  ์ˆ˜ ์žˆ๋‹ต๋‹ˆ๋‹ค!

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

 

Tableau: ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

Tableau๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐํ™”ํ•ด ๋ˆ„๊ตฌ๋‚˜ ์‰ฝ๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š” ๋„๊ตฌ์˜ˆ์š”. ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋ž˜ํ”„, ์ฐจํŠธ, ์ง€๋„ ๋“ฑ์˜ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•ด ๋ณด์—ฌ์ฃผ๋Š” ๋ฐ ํŠนํ™”๋˜์–ด ์žˆ๋‹ต๋‹ˆ๋‹ค. ๐Ÿ“Š

 

Tableau๋Š” ๋“œ๋ž˜๊ทธ ์•ค ๋“œ๋กญ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์ œ๊ณตํ•ด ๋น„์ „๋ฌธ๊ฐ€๋„ ์†์‰ฝ๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ๋Œ€์‹œ๋ณด๋“œ๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์–ด์š”. ์ด ๋„๊ตฌ๋Š” ์ง๊ด€์ ์ธ ์‹œ๊ฐํ™”์™€ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ๋Œ€์‹œ๋ณด๋“œ ๊ธฐ๋Šฅ์œผ๋กœ ๋น„์ฆˆ๋‹ˆ์Šค ๋ณด๊ณ ์„œ ์ž‘์„ฑ์— ํŠนํžˆ ์œ ์šฉํ•˜๋‹ต๋‹ˆ๋‹ค.

 

ํ•œ ์˜ˆ๋กœ, ํ•œ ๊ธ€๋กœ๋ฒŒ ์†Œ๋งค์—…์ฒด๋Š” Tableau๋ฅผ ์‚ฌ์šฉํ•ด ์ง€์—ญ๋ณ„ ๋งค์ถœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ , ํŠน์ • ์ง€์—ญ์—์„œ์˜ ๋งค์ถœ ์ €ํ•˜ ์›์ธ์„ ๋น ๋ฅด๊ฒŒ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์—ˆ์–ด์š”. ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์˜ ๋งˆ์ผ€ํŒ… ์ „๋žต์„ ์ˆ˜๋ฆฝํ•˜๊ณ  ์„ฑ๊ณผ๋ฅผ ํฌ๊ฒŒ ๊ฐœ์„ ํ–ˆ๋‹ต๋‹ˆ๋‹ค.

 

๋˜ํ•œ, Tableau๋Š” ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค์™€์˜ ์—ฐ๊ฒฐ์„ ์ง€์›ํ•ด์š”. Excel, SQL, Hadoop ๋“ฑ ๊ฑฐ์˜ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์™€ ์—ฐ๊ฒฐ์ด ๊ฐ€๋Šฅํ•˜๋‹ต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ด๋ฃจ์–ด์งˆ ๋•Œ๋งˆ๋‹ค ๋Œ€์‹œ๋ณด๋“œ๋„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์—…๋ฐ์ดํŠธ๋ผ์š”!

 

Tableau๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ  ์†Œํ†ตํ•  ์ˆ˜ ์žˆ๋Š” ๋„๊ตฌ๋กœ, ํŠนํžˆ ๋ณด๊ณ ์„œ์™€ ๋ฐœํ‘œ ์ž๋ฃŒ ์ž‘์„ฑ์ด ๋งŽ์€ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋„๊ฐ€ ๋†’์•„์š”.

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

 

KNIME: ๋ฐ์ดํ„ฐ ์›Œํฌํ”Œ๋กœ์šฐ

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

KNIME(Konstanz Information Miner)์€ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์‰ฝ๊ฒŒ ์„ค๊ณ„ํ•˜๊ณ  ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์˜คํ”ˆ์†Œ์Šค ํ”Œ๋žซํผ์ด์—์š”. ์‚ฌ์šฉ์ž ์นœํ™”์ ์ธ ์ธํ„ฐํŽ˜์ด์Šค ๋•๋ถ„์— ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์ง€์‹์ด ์—†์–ด๋„ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ณผ์ •์„ ์„ค๊ณ„ํ•  ์ˆ˜ ์žˆ๋‹ต๋‹ˆ๋‹ค. ๐Ÿ› ๏ธ

 

KNIME์€ ๋ฐ์ดํ„ฐ ์ค€๋น„, ํ†ตํ•ฉ, ๋ถ„์„, ์‹œ๊ฐํ™”๋ฅผ ํ•˜๋‚˜์˜ ์›Œํฌํ”Œ๋กœ์šฐ๋กœ ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ์–ด์š”. ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค, ์—‘์…€, ํ…์ŠคํŠธ ํŒŒ์ผ, ์‹ฌ์ง€์–ด ๋น…๋ฐ์ดํ„ฐ ํ”Œ๋žซํผ๊ณผ๋„ ์—ฐ๋™์ด ๊ฐ€๋Šฅํ•ด์š”. ์ด๋Ÿฐ ์  ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ ์ค€๋น„์™€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ๋ง ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ํ™œ์šฉ๋˜์ฃ .

 

ํ•œ ์˜ˆ๋กœ, ์ œ์•ฝํšŒ์‚ฌ๊ฐ€ KNIME์„ ์‚ฌ์šฉํ•ด ์‹ ์•ฝ ๊ฐœ๋ฐœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•œ ์‚ฌ๋ก€๊ฐ€ ์žˆ์–ด์š”. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ๋ถ€ํ„ฐ ์˜ˆ์ธก ๋ชจ๋ธ๋ง๊นŒ์ง€ ์ „ ๊ณผ์ •์„ ์ž๋™ํ™”ํ•ด ์—ฐ๊ตฌ ์‹œ๊ฐ„์„ ํฌ๊ฒŒ ๋‹จ์ถ•ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ต๋‹ˆ๋‹ค.

 

KNIME์€ ๋˜ํ•œ ๋‹ค์–‘ํ•œ ํ™•์žฅ ๊ธฐ๋Šฅ๊ณผ ํ†ตํ•ฉ ์˜ต์…˜์„ ์ œ๊ณตํ•ด์š”. ์˜ˆ๋ฅผ ๋“ค์–ด, Python, R, Java ๋“ฑ์˜ ์Šคํฌ๋ฆฝํŠธ๋ฅผ ์›Œํฌํ”Œ๋กœ์šฐ์— ์ถ”๊ฐ€ํ•˜๊ฑฐ๋‚˜, Tableau๋‚˜ Power BI์™€ ์—ฐ๊ฒฐํ•ด ์‹œ๊ฐํ™” ๊ฒฐ๊ณผ๋ฅผ ์‰ฝ๊ฒŒ ๊ณต์œ ํ•  ์ˆ˜ ์žˆ๋‹ต๋‹ˆ๋‹ค.

 

KNIME์€ ๋ฌด๋ฃŒ ์˜คํ”ˆ์†Œ์Šค ์†Œํ”„ํŠธ์›จ์–ด๋กœ ๊ธฐ์—…๋ฟ ์•„๋‹ˆ๋ผ ์—ฐ๊ตฌ์™€ ํ•™์ˆ  ๋ชฉ์ ์—๋„ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์–ด์š”. ํŠนํžˆ ์ดˆ๋ณด์ž๋“ค์—๊ฒŒ ์ ํ•ฉํ•œ ๋„๊ตฌ๋กœ, ๋ณต์žกํ•œ ์ž‘์—…๋„ ์‰ฝ๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ ์ด ์žฅ์ ์ด์—์š”.

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

 

Python๊ณผ R: ๋ฐ์ดํ„ฐ ๊ณผํ•™์˜ ํ•ต์‹ฌ

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

Python๊ณผ R์€ ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์˜ˆ์š”. ๋‘ ์–ธ์–ด๋Š” ๋ฐฉ๋Œ€ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€ ์ปค๋ฎค๋‹ˆํ‹ฐ ์ง€์›์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘, ๋ถ„์„, ๋ชจ๋ธ๋ง, ์‹œ๊ฐํ™”๊นŒ์ง€ ๋ชจ๋“  ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ต๋‹ˆ๋‹ค. ๐Ÿ๐Ÿ“Š

 

Python์€ ์‚ฌ์šฉํ•˜๊ธฐ ์‰ฌ์šด ๋ฌธ๋ฒ•๊ณผ ํญ๋„“์€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋•๋ถ„์— ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹ ์ž‘์—…์— ๋„๋ฆฌ ์“ฐ์ด๊ณ  ์žˆ์–ด์š”. Pandas, NumPy, Matplotlib, Scikit-learn ๊ฐ™์€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์™€ ๋ถ„์„, ๋ชจ๋ธ ๊ฐœ๋ฐœ์„ ์ง€์›ํ•˜์ฃ . ํŠนํžˆ TensorFlow์™€ PyTorch๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๋ง๋„ ๊ฐ€๋Šฅํ•ด์š”.

 

๋ฐ˜๋ฉด, R์€ ํ†ต๊ณ„ ๋ถ„์„๊ณผ ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”์— ๊ฐ•์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์–ด์š”. ggplot2, dplyr, tidyr ๊ฐ™์€ ํŒจํ‚ค์ง€๋Š” ๋ฐ์ดํ„ฐ ์ •๋ฆฌ์™€ ์‹œ๊ฐํ™” ์ž‘์—…์„ ๊ฐ„๋‹จํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ์ค€๋‹ต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ†ต๊ณ„ ๊ธฐ๋ฐ˜์˜ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ๋ง์—๋„ ๋งŽ์ด ํ™œ์šฉ๋ผ์š”.

 

์˜ˆ๋ฅผ ๋“ค์–ด, ํ•œ ๊ธˆ์œต ๊ธฐ์—…์€ Python์„ ์‚ฌ์šฉํ•ด ๊ณ ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ , R์„ ํ†ตํ•ด ๊ณ ๊ฐ ๋งŒ์กฑ๋„ ์ ์ˆ˜๋ฅผ ์‹œ๊ฐํ™”ํ•ด ๊ฒฝ์˜ ์ „๋žต์— ํ™œ์šฉํ•˜๊ณ  ์žˆ์–ด์š”. ์ด์ฒ˜๋Ÿผ ๋‘ ์–ธ์–ด๋Š” ์„œ๋กœ ๋ณด์™„์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ต๋‹ˆ๋‹ค.

 

Python๊ณผ R์€ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹, ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”๊นŒ์ง€ ํฌ๊ด„์ ์ธ ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ์˜ˆ์š”. ํ•™์Šต ๊ณก์„ ์ด ๋น„๊ต์  ์™„๋งŒํ•ด์„œ ์ดˆ๋ณด์ž๋„ ๋น ๋ฅด๊ฒŒ ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ๋Š” ์žฅ์ ์ด ์žˆ์–ด์š”!

 

๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ์˜ ์ข…๋ฅ˜์™€ ํŠน์ง•

 

FAQ

Q1. Hadoop๊ณผ Spark์˜ ์ฐจ์ด๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

 

A1. Hadoop์€ ๋ฐ์ดํ„ฐ ์ €์žฅ๊ณผ ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ์— ๊ฐ•์ ์„ ๊ฐ€์ง„ ๋ฐ˜๋ฉด, Spark๋Š” ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์™€ ๋น ๋ฅธ ๋ฉ”๋ชจ๋ฆฌ ์—ฐ์‚ฐ์— ์ ํ•ฉํ•ด์š”.

 

Q2. Tableau๋Š” ๋ฌด๋ฃŒ์ธ๊ฐ€์š”?

 

A2. Tableau๋Š” ์œ ๋ฃŒ ์†Œํ”„ํŠธ์›จ์–ด์ง€๋งŒ, ๊ฐœ์ธ ์‚ฌ์šฉ์ž๋‚˜ ํ•™์ƒ์€ Tableau Public ๋ฒ„์ „์„ ๋ฌด๋ฃŒ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์–ด์š”.

 

Q3. KNIME์€ ๋ˆ„๊ตฌ์—๊ฒŒ ์ ํ•ฉํ•œ๊ฐ€์š”?

 

A3. ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์ง€์‹์ด ๋ถ€์กฑํ•œ ์ดˆ๋ณด์ž๋‚˜, ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ž๋™ํ™”ํ•˜๋ ค๋Š” ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ์ ํ•ฉํ•ด์š”.

 

Q4. Python๊ณผ R ์ค‘ ์–ด๋Š ๊ฒƒ์ด ๋” ๋‚˜์€๊ฐ€์š”?

 

A4. Python์€ ๋ฒ”์šฉ์„ฑ์ด ๋†’๊ณ  ๋จธ์‹ ๋Ÿฌ๋‹์— ๊ฐ•ํ•˜๋ฉฐ, R์€ ํ†ต๊ณ„ ๋ถ„์„๊ณผ ์‹œ๊ฐํ™”์— ์œ ๋ฆฌํ•ด์š”. ๋ชฉ์ ์— ๋”ฐ๋ผ ์„ ํƒํ•˜์„ธ์š”!

 

Q5. Hadoop์„ ๋ฐฐ์šฐ๊ธฐ ์–ด๋ ต๋‚˜์š”?

 

A5. ์ฒ˜์Œ์—๋Š” ์–ด๋ ต๊ฒŒ ๋Š๊ปด์งˆ ์ˆ˜ ์žˆ์ง€๋งŒ, HDFS์™€ MapReduce์˜ ๊ธฐ๋ณธ ๊ฐœ๋…์„ ์ดํ•ดํ•˜๋ฉด ํ™œ์šฉํ•˜๊ธฐ ์‰ฌ์›Œ์ ธ์š”.

 

Q6. Spark๋กœ ๋จธ์‹ ๋Ÿฌ๋‹๋„ ๊ฐ€๋Šฅํ•œ๊ฐ€์š”?

 

A6. ๋„ค, Spark๋Š” MLlib๋ผ๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์ œ๊ณตํ•ด ๋ชจ๋ธ ๊ฐœ๋ฐœ๊ณผ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ด์š”.

 

Q7. ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๋„๊ตฌ ์ค‘ ๊ฐ€์žฅ ์ถ”์ฒœํ•˜๋Š” ๊ฒƒ์€?

 

A7. ๋ถ„์„ ๋ชฉ์ ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์š”. ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ๋Š” Spark, ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”๋Š” Tableau, ๋ฐ์ดํ„ฐ ์ €์žฅ์€ Hadoop์ด ์ข‹์•„์š”.

 

Q8. ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„์„ ๋ฐฐ์šฐ๋ ค๋ฉด ์–ด๋””์„œ ์‹œ์ž‘ํ•ด์•ผ ํ•˜๋‚˜์š”?

 

A8. Python์ด๋‚˜ R์„ ๋จผ์ € ๋ฐฐ์šฐ๊ณ , ์ดํ›„ ๋ถ„์„ ๋„๊ตฌ์™€ ๋น…๋ฐ์ดํ„ฐ ๊ฐœ๋…์„ ์ฐจ๊ทผ์ฐจ๊ทผ ์ตํžˆ๋Š” ๊ฒƒ์ด ์ข‹์•„์š”.

๋ฐ˜์‘ํ˜•