Higgs Audio v2:音频生成的新标杆,融合千万小时多语种数据,展现前所未有的表达力
• 训练资源全面,支持单说话人训练,正在开发多说话人版本,兼容 LoRA 微调,16G 显存即可启动
• 自动化多模型标注管道,清洗十亿级音频数据,结合语义与声学特征的统一音频 tokenizer,性能领先业界
• 采用创新 DualFFN 架构,极大提升 LLM 对声学 token 的建模能力,计算开销低,生成效果自然流畅
• 多语言、多说话人对话生成,自动韵律适配,支持零样本语音克隆与背景音乐同步生成,表现超过 GPT-4o-mini-tts
• 在 Seed-TTS、ESD、EmergentTTS 等多个权威评测中名列前茅,情感与疑问类胜率分别达 75.7% 和 55.7%
• 开箱即用的 Docker 镜像与多种环境安装方案,提供丰富示例,支持零样本语音克隆、智能单说话人生成、多说话人对话等多场景
• 适合科研、产品开发及个性化语音合成需求,助力打造更具表现力和自然度的语音交互体验
深入理解语音生成的多维度特征与上下文关联,体现了对声音本质的精准把握,是未来音频 AI 发展的重要里程碑。
#资源参考 #音频
• 训练资源全面,支持单说话人训练,正在开发多说话人版本,兼容 LoRA 微调,16G 显存即可启动
• 自动化多模型标注管道,清洗十亿级音频数据,结合语义与声学特征的统一音频 tokenizer,性能领先业界
• 采用创新 DualFFN 架构,极大提升 LLM 对声学 token 的建模能力,计算开销低,生成效果自然流畅
• 多语言、多说话人对话生成,自动韵律适配,支持零样本语音克隆与背景音乐同步生成,表现超过 GPT-4o-mini-tts
• 在 Seed-TTS、ESD、EmergentTTS 等多个权威评测中名列前茅,情感与疑问类胜率分别达 75.7% 和 55.7%
• 开箱即用的 Docker 镜像与多种环境安装方案,提供丰富示例,支持零样本语音克隆、智能单说话人生成、多说话人对话等多场景
• 适合科研、产品开发及个性化语音合成需求,助力打造更具表现力和自然度的语音交互体验
深入理解语音生成的多维度特征与上下文关联,体现了对声音本质的精准把握,是未来音频 AI 发展的重要里程碑。
#资源参考 #音频
yt-dlp-mcp:专为大型语言模型打造的多媒体下载桥接服务器,结合 yt-dlp 实现视频音频内容无缝接入。
• 支持主流平台(YouTube、Facebook、TikTok等)视频与音频下载,分辨率可控,自动保存至本地Downloads文件夹
• 提供多语言字幕下载(SRT格式),支持自动生成字幕,方便 LLM 高效读取与处理
• 可导出纯文本字幕稿,去除时间戳,助力内容分析和文本挖掘
• 完全隐私保护,直连下载无追踪,保障用户数据安全
• 完美兼容 Dive 及其他 MCP 协议 LLM,方便集成与扩展
• 简单安装配置,支持 Windows/macOS/Linux,基于 Node.js 20+ 环境运行
借助 yt-dlp-mcp,LLM 能直接访问丰富多媒体资源,提升内容理解与交互体验,推动智能应用长期发展。
#资源参考 #工具 #视频下载
• 支持主流平台(YouTube、Facebook、TikTok等)视频与音频下载,分辨率可控,自动保存至本地Downloads文件夹
• 提供多语言字幕下载(SRT格式),支持自动生成字幕,方便 LLM 高效读取与处理
• 可导出纯文本字幕稿,去除时间戳,助力内容分析和文本挖掘
• 完全隐私保护,直连下载无追踪,保障用户数据安全
• 完美兼容 Dive 及其他 MCP 协议 LLM,方便集成与扩展
• 简单安装配置,支持 Windows/macOS/Linux,基于 Node.js 20+ 环境运行
借助 yt-dlp-mcp,LLM 能直接访问丰富多媒体资源,提升内容理解与交互体验,推动智能应用长期发展。
#资源参考 #工具 #视频下载
MediaCMS 的界面布局基本是 YouTube ,支持多种媒体类型包括视频、音频、图片、PDF等
基于 Django 开发,性能优秀
📮投稿 📢频道 💬群聊
MoveCertificate - Android 移动系统证书
https://github.com/ys1231/MoveCertificate
一个 Android 平台上的 Magisk / KernelSU / APatch 模块,用于将用户证书移动到系统证书目录。
证书直接传到手机,使用系统设置正常安装证书,完了重启即可,不需要格式转换。
可搭配 appproxy vpn 代理工具。
● 支持将用户证书移动到系统证书目录
● 兼容 Android 7–15 版本
● 兼容 Magisk v20.4+、KernelSU 和 APatch
#Android #Network #GitHub
https://github.com/ys1231/MoveCertificate
一个 Android 平台上的 Magisk / KernelSU / APatch 模块,用于将用户证书移动到系统证书目录。
证书直接传到手机,使用系统设置正常安装证书,完了重启即可,不需要格式转换。
可搭配 appproxy vpn 代理工具。
● 支持将用户证书移动到系统证书目录
● 兼容 Android 7–15 版本
● 兼容 Magisk v20.4+、KernelSU 和 APatch
#Android #Network #GitHub
Pocket ID - 自托管 OIDC 服务,使用 Passkey 进行身份验证
https://github.com/pocket-id/pocket-id
这个用在自建服务上代替登录认证挺好使的
Pocket ID 是一个简单易用的 OIDC 提供商服务,允许用户使用他们的生物识别密钥(Passkey)来进行身份验证。
一个简单易用的自托管 OIDC 解决方案,相比其他复杂的选择如 Keycloak 或 ORY Hydra 更加适合简单的使用场景。
● 支持使用生物识别密钥(passkey)进行身份验证
● 简单易用的自托管 OIDC 身份提供者
● 提供 Docker 部署方式
#Tool #HomeLab #Golang #GitHub
https://github.com/pocket-id/pocket-id
这个用在自建服务上代替登录认证挺好使的
Pocket ID 是一个简单易用的 OIDC 提供商服务,允许用户使用他们的生物识别密钥(Passkey)来进行身份验证。
一个简单易用的自托管 OIDC 解决方案,相比其他复杂的选择如 Keycloak 或 ORY Hydra 更加适合简单的使用场景。
● 支持使用生物识别密钥(passkey)进行身份验证
● 简单易用的自托管 OIDC 身份提供者
● 提供 Docker 部署方式
#Tool #HomeLab #Golang #GitHub
Outerbase Studio - 轻量级的浏览器数据库 GUI
https://github.com/outerbase/studio
Outerbase Studio 是一个轻量级、基于浏览器的 SQL 数据库管理工具,支持多种数据库类型,包括 SQLite、LibSQL、Cloudflare D1、rqlite、StarbaseDB、Val.town、MySQL 和 PostgreSQL。
● 查询编辑器:支持自动补全和函数提示,可同时执行多个查询并查看结果。
● 数据编辑器:提供强大的数据编辑功能,可预览更改并提交。
● 模式编辑器:支持快速创建、修改和删除表列。
● 连接管理器:支持在浏览器中本地存储连接,也可以在服务器上共享连接。
#DB #Tool #GitHub
https://github.com/outerbase/studio
Outerbase Studio 是一个轻量级、基于浏览器的 SQL 数据库管理工具,支持多种数据库类型,包括 SQLite、LibSQL、Cloudflare D1、rqlite、StarbaseDB、Val.town、MySQL 和 PostgreSQL。
● 查询编辑器:支持自动补全和函数提示,可同时执行多个查询并查看结果。
● 数据编辑器:提供强大的数据编辑功能,可预览更改并提交。
● 模式编辑器:支持快速创建、修改和删除表列。
● 连接管理器:支持在浏览器中本地存储连接,也可以在服务器上共享连接。
#DB #Tool #GitHub
极巧立算
多功能计算器,除了基础计算和科学计算外,还支持亲戚计算、摩斯电吗、大写金额转换、BMI、宏亮营养素、汇率换算、房贷计算、利息计算、随机数生成、质素检验、进制转换、CIDR、Hash计算、Whois查询、正则表达式大全等,所有功能免费使用,无需注册。
https://www.jessenbox.com
频道 @WidgetChannel
MarkdownDown
网页一键变 Markdown 工具,可将任意网页内容一键清理为干净的 Markdown 文本,并自动下载图片、打包为 ZIP 文件,还可选用 GPT-3/4 对 Markdown 进行进一步整理(例如摘要、去除链接、重排格式等),同时支持输出干净的 HTML 版本,完全免费,无需注册。
https://markdowndown.vercel.app
频道 @Edgebyte
👉 名称:The Prompt Report: A Systematic Survey of Prompt Engineering Techniques
🤖 类型:👀资料
👏 介绍:这篇论文提供了关于生成人工智能系统中提示工程技术的全面调查报告,旨在建立对提示工程的结构化理解,提供了 33 个术语的详细词汇表、58 种大型语言模型提示技术的分类法以及其他模态的 40 种技术,并给出了提示工程的最佳实践和指导方针。
🤖 类型:👀资料
👏 介绍:这篇论文提供了关于生成人工智能系统中提示工程技术的全面调查报告,旨在建立对提示工程的结构化理解,提供了 33 个术语的详细词汇表、58 种大型语言模型提示技术的分类法以及其他模态的 40 种技术,并给出了提示工程的最佳实践和指导方针。
🤖 类型:🤖软件
👏 介绍:
BotBrowser 是一款跨平台的隐身浏览器,旨在规避现代的反机器人系统,通过修改 Chromium 的 C++ 源代码,提供了无痕浏览和自动化的高度可靠解决方案。🤖 类型:🤖软件
👏 介绍:
Hyprnote 是一个专为连续会议的参与者设计的本地优先 AI 笔记软件。它能够在你记录会议时,同时聆听会议内容并制作智能摘要。Hyprnote 支持完全离线运行,使用开源模型如 Whisper 或 HyprLLM。软件不需要互联网连接,所有数据都保存在用户的设备上,确保数据不会外泄。🤖 类型:🤖软件
👏 介绍:AI 视频图文创作助手是一款 Web 工具, 基于 AI 大模型, 一键将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。- ✅ 完全开源:MIT 协议授权,支持本地部署。
- 🔒 隐私保护:无需登录注册,任务记录保存在本地
- 💻 前端处理:采用 ffmpeg wasm 技术,无需本地安装 ffmpeg
- 🎯 多种风格支持:支持小红书/公众号/知识笔记/思维导图/内容总结等多种文档风格支持。
- 🤖 AI 对话:支持针对视频内容进行 AI 二次问答。
- 🎬 支持字幕导出: 结果一键导出为字幕文件。
- 🖼️ 智能截图: 基于字幕信息智能截图并插入文章, 无需视觉大模型, 实现真正的图文并茂。
- 🎨 支持自定义 Prompt:支持在前端自定义配置 prompt。
- 🐳 一键部署:支持 Docker 一键部署。
- 🔒 支持设置访问密码: 后端设置访问密码之后, 前端用户需要填写该密码才可以正常使用。
🤖 类型:🎯项目
👏 介绍:🦄独角数卡(自动售货系统)-开源站长自动化售货解决方案、高效、稳定、快速!对于想快速搭建自己的产品商店的个人和小公司非常友好,能快速打通最小 MVp。也有开发者开源了
Docker 版本方便部署:dujiaoka-docker。